I/O 図
比較するモデルを選択してください
紙 (1)
概要
jina-embeddings-v5-text-small は、Qwen3-0.6B-Base バックボーンネットワークに基づく、0.6B パラメータの多言語テキスト埋め込みモデルです。エンドワードプーリングにより 1024 次元の埋め込みを生成し、回転位置埋め込み (RoPE) と調整された基本周波数により最大 32K 語のコンテキスト長をサポートします。モデルには、検索、意味的類似性、クラスタリング、分類のための 4 つのタスク固有の LoRA アダプターが含まれており、固定されたバックボーンネットワークの重みに基づいて個別に学習されます。Matryoshka 表現学習は、32 次元までの埋め込みの切り捨てをサポートします。モデルは 2 段階の学習プロセスを採用しています。まず、Qwen3-Embedding-4B からの埋め込み蒸留を実行し、大規模な教師モデルから知識を転送します。次に、各タスクカテゴリ専用の損失関数を用いて、タスク固有のアダプターを学習します。「Query:」および「Document:」というプレフィックスを使用した非対称検索をサポートします。
方法
トレーニングは 2 つのフェーズに分かれています。最初のフェーズでは、埋め込み蒸留で、投影された生徒の埋め込みと教師の埋め込み間のコサイン距離損失を利用して、Qwen3-Embedding-4B (4B パラメータの教師モデル) から Qwen3-0.6B-Base 生徒モデルに知識を転送します。線形投影レイヤーは、生徒の 1024 次元空間を教師の高次元空間にマッピングします。一般的な蒸留では、30 を超える言語をカバーする 30 を超えるデータセットを使用し、50,000 のトレーニング ステップを実行した後、合成および自然な長いドキュメント (1,000〜4,096 の語彙単位) でロング コンテキスト トレーニングを実行し、RoPE パラメータを調整します。第 2 段階では、4 つの LoRA アダプターが固定されたバックボーンの重みでトレーニングされます。検索アダプターは、InfoNCE 対比損失、ハード ネガティブ サンプル、連続蒸留損失、およびグローバル正則化 (GOR) を組み合わせて、量子化の堅牢性を強化します。テキストマッチングアダプタは、CoSENTランキング損失関数を用いて階層的類似度を計算し、評価されていないテキストペアに対して知識蒸留を実行します。クラスタリングアダプタは再蒸留を使用し、クラスタ固有の教師指示を組み込みます。分類アダプタは双方向InfoNCE損失関数を使用し、関係知識蒸留の正則化を組み込みます。最後に、検索アダプタの重みはすべてのチェックポイントにわたって平均化されます。
パフォーマンス
MMTEB(多言語)テストにおいて、jina-embeddings-v5-text-smallは、タスクレベル平均スコア67.0、タイプレベル平均スコア58.9を達成し、10億パラメータを持つモデルの中でトップクラスにランクインしました。分類スコアは71.3、クラスタリングスコアは53.4、ペア分類スコアは82.9、並べ替えスコアは65.7、検索スコアは64.9、STSスコアは78.9でした。英語MTEBテストでは、平均スコア71.7を記録し、Qwen3-0.6B(70.5)およびjina-embeddings-v3(65.7)(指示あり)を上回りました。検索に特化したベンチマークでは、MTEB-M検索スコアは64.88、RTEBは66.84、BEIRは56.67、LongEmbedは66.39でした。このモデルは、ペア分類において教師モデルであるQwen3-4B(MMTEBで42.0 vs. 26.8)を上回り、他のすべてのカテゴリでも教師モデルのわずか6倍の大きさであるにもかかわらず、競争力のあるスコアを維持しました。
ガイド
タスクに基づいて適切な LoRA アダプターを選択します。非対称クエリ ドキュメント検索の場合は「retrieval」(クエリの前に「Query:」、段落の前に「Document:」を追加)、「text-matching」(両方の入力に「Document:」がプレフィックスとして付きます)、関連ドキュメントのグループ化の場合は「clustering」、分類と感情分析の場合は「classification」を選択します。検索タスクの場合、モデルは非対称エンコードを使用してトレーニングされるため、正しいプレフィックスを使用してください。Matryoshka 切り捨てにより、埋め込み次元を 1024 から 32 まで削減できます。256 次元を超えてもパフォーマンスは良好ですが、このしきい値を下回るとジョンソン・リンデンシュトラウス限界と一致して大幅に低下します。バイナリ量子化により、GOR 正則化によるパフォーマンスの低下を最小限に抑えることができます。 32Kのコンテキストウィンドウは長文文書をネイティブに処理しますが、モデルは長文文書の堅牢な検索のために、長文コンテキストデータで追加学習されています。埋め込みの比較にはコサイン類似度が使用されます。モデルは、Jina AI API、Hugging Face(Sentence TransformersとvLLMを統合)、および量子化バージョンllama.cppから入手できます。
このモデルについて言及しているブログ




