Jina Embeddings v3：最先端の多言語埋め込みモデル

jina-embeddings-v3: Task LoRA を用いた多言語エンベディング

5.7 億パラメータを持つ新しいテキストエンベディングモデル jina-embeddings-v3 を紹介します。多言語データと長文脈検索タスクで最先端の性能を達成し、最大 8192 トークンのコンテキスト長をサポートします。このモデルには、クエリ文書検索、クラスタリング、分類、テキストマッチングのための高品質なエンベディングを生成するタスク特化型の Low-Rank Adaptation (LoRA) アダプターが含まれています。さらに、Matryoshka 表現学習を学習プロセスに組み込むことで、性能を損なうことなくエンベディング次元の柔軟な切り捨てが可能になっています。MTEB ベンチマークでの評価では、jina-embeddings-v3 は英語タスクで OpenAI や Cohere の最新の独自エンベディングを上回り、すべての多言語タスクで multilingual-e5-large-instruct を上回る性能を達成しています。

arXiv.orgSaba Sturua

本日、5.7 億パラメータを持つ最先端のテキストエンベディングモデル jina-embeddings-v3 の発表を嬉しくお知らせします。**多言語**データと**長文脈**検索タスクで最高性能を達成し、最大 8192 トークンの入力長をサポートします。このモデルは、タスク特化型の Low-Rank Adaptation (LoRA) アダプターを備え、**クエリ文書検索**、**クラスタリング**、**分類**、**テキストマッチング**など様々なタスクで高品質なエンベディングを生成することができます。

MTEB English、Multilingual、LongEmbed での評価において、jina-embeddings-v3 は英語タスクで OpenAI と Cohere の最新の独自エンベディングを上回り、すべての多言語タスクで multilingual-e5-large-instruct を凌駕しています。デフォルトの出力次元は 1024 ですが、Matryoshka 表現学習（MRL）の統合により、性能を損なうことなく任意に 32 次元まで切り捨てることができます。

Chart comparing the performance of various NLP tools on MTEB English Tasks, with scores ranging from 60 to 65.5, displayed on — MTEB 英語タスク全体における jina-embeddings-v3 と他のエンベディングモデルの性能比較。タスクごとの詳細な評価結果はarXiv 論文をご覧ください。

Graph depicting MTEB Multilingual Tasks Performance, comparing multilingual embeddings and 'jina embeddings' versions with sc — jina-embeddings-v3 の性能は、幅広い多言語および言語横断的な MTEB タスクで評価されています。なお、`jina-embeddings-v2-(zh/es/de)` は当社の二言語モデルスイートを指し、中国語、スペイン語、ドイツ語の単一言語および言語横断タスクのみでテストされ、他の言語は除外されています。また、`openai-text-embedding-3-large` と `cohere-embed-multilingual-v3.0` のスコアは、これらのモデルが多言語および言語横断的な MTEB タスク全体で評価されていないため、報告していません。

Bar graph showing performance of different embeddings on long document retrieval tasks with scores for various libraries. — LongEmbed ベンチマークの 6 つの長文書検索タスクにおける jina-embeddings-v3 の性能は、他のモデルと比べて大幅な改善を示しています。スコアは nDCG@10 で、高いほど良好です。これは、私たちの RoPE ベースの位置エンベディングの有効性を示しており、`baai-bge-m3` が使用する固定位置エンベディングと `jina-embeddings-v2` が使用する ALiBi ベースのアプローチの両方を上回っています。

2024 年 9 月 18 日のリリース時点で、jina-embeddings-v3 は**最高**の多言語モデルであり、10 億パラメータ未満のモデルの中で MTEB 英語リーダーボードで**2 位**にランクされています。v3 は合計 89 言語をサポートし、そのうち 30 言語で最高の性能を発揮します：アラビア語、ベンガル語、中国語、デンマーク語、オランダ語、英語、フィンランド語、フランス語、グルジア語、ドイツ語、ギリシャ語、ヒンディー語、インドネシア語、イタリア語、日本語、韓国語、ラトビア語、ノルウェー語、ポーランド語、ポルトガル語、ルーマニア語、ロシア語、スロバキア語、スペイン語、スウェーデン語、タイ語、トルコ語、ウクライナ語、ウルドゥー語、ベトナム語。

Leaderboard table comparing language models across various performance metrics with highlighted rankings, set on a dark, prof — 2024 年 9 月 18 日のリリース時点で、5.7 億パラメータと 1024 の出力次元を持つ jina-embeddings-v3 は、10 億パラメータ未満の最も効率的で強力、信頼性の高い多言語エンベディングモデルとなっています。

Graph showing Scaling Law of Embedding Models with 'Parameter Size' on the x-axis and 'MTEB Performance' on the y-axis, featu — エンベディングモデルのスケーリング則。英語タスクでの平均 MTEB 性能をモデルパラメータ数に対してプロットしています。各ドットは一つのエンベディングモデルを表します。全モデルのトレンドラインが示されており、多言語モデルはシアン色で強調されています。jina-embeddings-v3 は、同規模のモデルと比較して優れた性能を示し、前身の `jina-embeddings-v2` に対して超線形的な改善を示しています。このグラフは、MTEB リーダーボードからトップ 100 のエンベディングモデルを選択し、サイズ情報のないもの（通常はクローズドソースまたは独自モデル）を除外して作成されました。明らかなトロールと判断された投稿も除外されています。

さらに、最近注目を集めている LLM ベースのエンベディング（例：e5-mistral-7b-instruct）と比較すると、パラメータサイズが 71 億（12 倍大きい）で出力次元が 4096（4 倍大きい）にもかかわらず、MTEB 英語タスクでの改善がわずか 1% であるのに対し、jina-embeddings-v3 はより費用対効果の高いソリューションであり、本番環境やエッジコンピューティングにより適しています。

tagモデルアーキテクチャ

機能	説明
Base	`jina-XLM-RoBERTa`
基本パラメータ数	559M
LoRA使用時のパラメータ数	572M
最大入力トークン数	8192
最大出力次元数	1024
レイヤー数	24
語彙数	250K
対応言語数	89
アテンション	FlashAttention2、非使用時も動作可能
プーリング	Mean pooling

jina-embeddings-v3 のアーキテクチャは以下の図に示されています。バックボーンアーキテクチャを実装するために、XLM-RoBERTa モデルに以下の重要な修正を加えました：(1) 長文テキストシーケンスの効果的なエンコーディングの実現、(2) タスク固有のエンベッディングエンコーディングの許可、(3) 最新の技術による全体的なモデル効率の改善。元の XLM-RoBERTa トークナイザーは引き続き使用しています。jina-embeddings-v3 は 570 ミリオンのパラメータを持ち、137 ミリオンの jina-embeddings-v2 よりも大きいものの、LLM からファインチューニングされたエンベッディングモデルと比べるとはるかに小さいものとなっています。

Flowchart mapping sentiment classification. Begins with — jina-embeddings-v3 のアーキテクチャは `jina-XLM-RoBERTa` モデルをベースとし、4 つの異なるタスクに対して 5 つの LoRA アダプターを使用しています。

jina-embeddings-v3 の主要な革新点は LoRA アダプターの使用です。4 つのタスクに対して 5 つのタスク固有の LoRA アダプターが導入されています。モデルの入力は、テキスト（埋め込む長文書）とタスクの 2 つの部分で構成されています。jina-embeddings-v3 は 4 つのタスクをサポートし、5 つのアダプターを実装しています：非対称検索タスクにおけるクエリと文書のエンベッディングのための retrieval.query と retrieval.passage、クラスタリングタスクのための separation、分類タスクのための classification、そして STS や対称検索などの意味的類似性を含むタスクのための text-matching です。LoRA アダプターは全パラメータの 3% 未満を占めるだけで、計算に対する負荷は最小限に抑えられています。

さらなるパフォーマンス向上とメモリ消費の削減のために、FlashAttention 2 の統合、アクティベーションチェックポイントのサポート、効率的な分散トレーニングのための DeepSpeed フレームワークの使用を行っています。

tag使用開始

tagJina AI Search Foundation API 経由

jina-embeddings-v3 を使用する最も簡単な方法は、Jina AI ホームページにアクセスし、Search Foundation API セクションに移動することです。本日より、このモデルは新規ユーザー全員のデフォルトとして設定されています。異なるパラメータや機能をそこから直接探索することができます。

Screenshot of a dark-themed interface with options like 'Join us', 'Explore', showing 'Start instantly - no credit card or re

curl https://api.jina.ai/v1/embeddings \
	 -H "Content-Type: application/json" \
	 -H "Authorization: Bearer jina_387ced4ff3f04305ac001d5d6577e184hKPgRPGo4yMp_3NIxVsW6XTZZWNL" \
	 -d '{
	"model": "jina-embeddings-v3",
	"task": "text-matching",
	"dimensions": 1024,
	"late_chunking": true,
	"input": [
		"Organic skincare for sensitive skin with aloe vera and chamomile: ...", 
		"Bio-Hautpflege für empfindliche Haut mit Aloe Vera und Kamille: Erleben Sie die wohltuende Wirkung...", 
		"Cuidado de la piel orgánico para piel sensible con aloe vera y manzanilla: Descubre el poder ...", 
		"针对敏感肌专门设计的天然有机护肤产品：体验由芦荟和洋甘菊提取物带来的自然呵护。我们的护肤产品特别为敏感肌设计，...", 
		"新しいメイクのトレンドは鮮やかな色と革新的な技術に焦点を当てています: 今シーズンのメイクアップトレンドは、大胆な色彩と革新的な技術に注目しています。..."
    ]}'

v2 と比較して、v3 では API に task、dimensions、late_chunking という 3 つの新しいパラメータが導入されました。

パラメータ `task`

task パラメータは重要で、下流タスクに応じて設定する必要があります。生成されるエンベッディングはそのタスクに対して最適化されます。詳細については以下のリストを参照してください。

`task` の値	タスクの説明
`retrieval.passage`	クエリ文書検索タスクにおける文書のエンベッディング
`retrieval.query`	クエリ文書検索タスクにおけるクエリのエンベッディング
`separation`	文書のクラスタリング、コーパスの可視化
`classification`	テキスト分類
`text-matching`	(デフォルト) 意味的テキスト類似性、一般的な対称検索、レコメンデーション、類似アイテムの検索、重複排除

API は汎用的なメタエンベッディングを生成してから追加のファインチューニング済み MLP で適応させるのではなく、タスク固有の LoRA アダプターを各トランスフォーマーレイヤー（合計 24 レイヤー）に挿入し、一度でエンコーディングを実行することに注意してください。詳細についてはarXiv の論文をご覧ください。

パラメータ `dimensions`

dimensions パラメータを使用すると、最小のコストでスペース効率とパフォーマンスのトレードオフを選択できます。jina-embeddings-v3 で使用される MRL 技術のおかげで、エンベッディングの次元を好きなだけ（1 次元まで！）削減できます。小さなエンベッディングはベクトルデータベースのストレージに優しく、そのパフォーマンスコストは以下の図から推定できます。

Scatter plot titled "Performance of Different Output Dimensions" showing performance metrics across increasing MRL dimensions

パラメータ `late_chunking`

最後に、late_chunking パラメータは、先月導入した文の一括エンコーディングのための新しいチャンク分割方法を使用するかどうかを制御します。true に設定すると、API は input フィールド内のすべての文を連結し、単一の文字列としてモデルに送ります。つまり、入力内の文は同じセクション、段落、または文書から来たかのように扱われます。内部的には、モデルはこの長い連結文字列を埋め込み、その後で後処理チャンク分割を行い、入力リストのサイズに一致する埋め込みのリストを返します。したがって、リスト内の各埋め込みは前の埋め込みの影響を受けています。

ユーザーの観点からは、late_chunking の設定は入力や出力のフォーマットを変更しません。埋め込み値が、個別ではなく前のコンテキスト全体に基づいて計算されるという変化だけが見られます。使用時に知っておくべき重要なことはlate_chunking=True の場合、リクエストごとの（input のすべてのトークンを合計した）トークン総数は 8192 に制限されます。これは jina-embeddings-v3 で許可される最大コンテキスト長です。late_chunking=False の場合、そのような制限はありません。トークン総数は Embedding API のレート制限のみの対象となります。

Late Chunking のオンとオフ：入力と出力のフォーマットは同じままで、埋め込み値のみが異なります。`late_chunking` が有効な場合、埋め込みは `input` の前のコンテキスト全体の影響を受けますが、無効な場合は埋め込みは独立して計算されます。

tagAzure と AWS 経由

jina-embeddings-v3 は現在、AWS SageMaker と Azure Marketplace で利用可能です。

Microsoft Azure Marketplace

これらのプラットフォーム以外や、社内のオンプレミスで使用する必要がある場合は、モデルが CC BY-NC 4.0 ライセンスの下で提供されていることにご注意ください。商用利用については、お気軽にお問い合わせください。

tagベクトルデータベースとパートナー経由

私たちは Pinecone、Qdrant、Milvus などのベクトルデータベースプロバイダーや、LlamaIndex、Haystack、Dify などの LLM オーケストレーションフレームワークと密接に協力しています。リリース時点で、Pinecone、Qdrant、Milvus、Haystack が既に jina-embeddings-v3 のサポートを統合しており、task、dimensions、late_chunking という 3 つの新しいパラメータもサポートしていることをお知らせできることを嬉しく思います。v2 API との統合を既に完了している他のパートナーも、モデル名を jina-embeddings-v3 に変更するだけで v3 をサポートできるはずです。ただし、v3 で導入された新しいパラメータはまだサポートされていない可能性があります。

Pinecone 経由

Qdrant 経由

Milvus 経由

Haystack 経由

tagまとめ

2023 年 10 月、私たちは jina-embeddings-v2-base-en を公開し、世界初の 8K コンテキスト長をサポートするオープンソース埋め込みモデルとなりました。これは長いコンテキストをサポートし、OpenAI の text-embedding-ada-002 に匹敵する唯一のテキスト埋め込みモデルでした。そして今日、1 年間の学習、実験、貴重な教訓を経て、私たちは誇りを持って jina-embeddings-v3 をリリースします—これはテキスト埋め込みモデルの新しいフロンティアであり、当社の大きなマイルストーンです。

このリリースでは、私たちが得意とする長いコンテキストの埋め込みで引き続き優れた成果を上げながら、業界とコミュニティの両方から最も要望の多かった機能である多言語埋め込みにも対応しました。同時に、パフォーマンスも新たな高みへと押し上げています。タスク特化型 LoRA、MRL、late chunking など新機能により、jina-embeddings-v3 は RAG、エージェントなどのさまざまなアプリケーションの基盤となる埋め込みモデルとして真に機能すると考えています。NV-embed-v1/v2 のような最近の LLM ベースの埋め込みと比較して、私たちのモデルは非常にパラメータ効率が高く、本番環境やエッジデバイスにより適しています。

今後は、リソースの少ない言語での jina-embeddings-v3 のパフォーマンスの評価と改善、およびデータの可用性の制限によって引き起こされる体系的な失敗の分析に焦点を当てる予定です。さらに、jina-embeddings-v3 のモデルの重み、その革新的な機能、そして新しい知見は、jina-clip-v2 を含む今後のモデルの基盤として機能します。jina-reranker-v3、および reader-lm-v2。