


本日、テキストと画像に対応した、38億のパラメーターを持つ新しいユニバーサルな 埋め込み (Embeddings) モデルであるjina-embeddings-v4をリリースします。これには、クエリ-ドキュメント検索、セマンティックマッチング、コード検索など、最も一般的な検索タスクのパフォーマンスを最適化するタスク固有のLoRAアダプターのセットが含まれています。jina-embeddings-v4は、MTEB、MMTEB、CoIR、LongEmbed、STS、Jina-VDR、CLIP、ViDoReのベンチマークにおいて、マルチモーダルおよび多言語タスクで最先端の検索パフォーマンスを達成しており、特にテーブル、グラフ、図、およびそれらの混合物などの視覚的に豊富なコンテンツの処理に強みを発揮します。このモデルは、シングルベクターとマルチベクターの両方の 埋め込み (Embeddings) をサポートしています。

jina-embeddings-v4は、これまでで最も意欲的な 埋め込み (Embeddings) モデルです。オープンソースモデルとして、jina-embeddings-v4は主要プロバイダーの主要なクローズドソース 埋め込み (Embeddings) モデルを上回り、多言語検索でOpenAIのtext-embedding-3-large
よりも12%優れたパフォーマンス(66.49対59.27)、長文ドキュメントタスクで28%の改善(67.11対52.42)、コード検索でvoyage-3
よりも15%優れています(71.59対67.23)。また、Googleのgemini-embedding-001
のパフォーマンスに匹敵します。これにより、v4は現在利用可能な最も高性能なオープンソースのユニバーサル 埋め込み (Embeddings) モデルとなり、研究者と開発者に、トレーニングプロセス、アーキテクチャの決定、および包括的な技術レポートを通じてモデルの重みに対する完全な透明性を提供し、エンタープライズグレードのマルチモーダル 埋め込み (Embeddings) 機能を提供します。

tag新しいアーキテクチャ
Qwen2.5-VL-3B-Instruct
バックボーン(38億のパラメーター)上に構築されています。テキストと画像の入力は、共有パスウェイを介して処理されます。画像は最初にビジョンエンコーダーを介してトークンシーケンスに変換され、次に両方のモダリティがコンテキストアテンションレイヤーを持つ言語モデルデコーダーによって共同で処理されます。3つのタスク固有のLoRAアダプター(それぞれ6000万のパラメーター)は、フリーズされたバックボーンの重みを変更せずに、検索、テキストマッチング、およびコードタスクに対して特化した最適化を提供します。このアーキテクチャは、デュアル出力モードをサポートしています。(1)効率的な類似性検索のために平均プーリングを介して生成されたシングルベクター 埋め込み (Embeddings) (2048次元、128に切り捨て可能)、および(2)遅延インタラクション検索戦略のために投影レイヤーを介したマルチベクター 埋め込み (Embeddings) (トークンあたり128次元)。jina-embeddings-v3からjina-embeddings-v4 は、テキストのみのベクトルモデル (Embeddings)から、マルチモーダルなベクトルモデル (Embeddings)へのパラダイムシフトを表しています。v3 がタスク固有の LoRA アダプターを使用してテキストのベクトルモデル (Embeddings)の最適化に焦点を当てていたのに対し、v4 はテキストと視覚コンテンツの両方を統一された表現でベクトルモデル (Embeddings)化するという、高まる要件に対応します。
側面 | <strong>jina-embeddings-v3</strong> | <strong>jina-embeddings-v4</strong> |
---|---|---|
バックボーンモデル | jina-XLM-RoBERTa | Qwen2.5-VL-3B-Instruct |
パラメーター (ベース) | 559M | 3.8B |
パラメーター (アダプターあり) | 572M | 3.8B + アダプターごとに 60M |
モダリティ | テキストのみ | テキスト + 画像 (マルチモーダル) |
最大入力長 | 8,192 词元 (Tokens) | 32,768 词元 (Tokens) |
画像処理 | なし | 最大 20 メガピクセル、視覚的に豊かなドキュメント |
多言語サポート | 89 言語 | 29 以上の言語 |
ベクトルの種類 | シングルベクトルのみ | シングルベクトル + マルチベクトル (遅延相互作用) |
シングルベクトルの次元 | 1024 (MRL で 32 まで切り捨て可能) | 2048 (MRL で 128 まで切り捨て可能) |
マルチベクトルの次元 | 利用不可 | 词元 (Token)ごとに 128 |
タスク LoRA 特化 | • 非対称検索 • セマンティック類似性 • 分類 • 分離 |
• 非対称検索 • セマンティック類似性 • コード検索 |
トレーニング段階 | 3 段階: 事前トレーニング → ベクトルモデル (Embeddings)のファインチューニング → アダプターのトレーニング | 2 段階: ジョイントペアトレーニング → タスク固有のアダプターのトレーニング |
損失関数 | InfoNCE、CoSent、拡張トリプレット損失 | シングル/マルチベクトルのジョイント InfoNCE + KL ダイバージェンス |
位置エンコーディング | RoPE (ロータリーベース周波数チューニング) | M-RoPE (マルチモーダルロータリー位置埋め込み) |
クロスモーダル処理 | N/A | 統一エンコーダー (モダリティギャップの削減) |
MRL サポート | はい | はい |
アテンション実装 | FlashAttention2 | FlashAttention2 |
tagバックボーン
v4 における最も重要なアーキテクチャの変更は、バックボーンが XLM-RoBERTa
から Qwen2.5-VL-3B-Instruct
に変更されたことです。この決定は、画像を词元 (Token)シーケンスに変換し、テキストと一緒に処理することで、デュアルエンコーダーアーキテクチャに存在するモダリティギャップを解消する「真のマルチモーダル処理」を可能にする、普遍的なベクトルモデル (Embedding)モデルを作成するという v4 の中核的な目標によって推進されました。
バックボーンの選択は、いくつかの重要な設計目標に沿っています。Qwen2.5-VL のドキュメント理解における卓越性は、表、グラフ、スクリーンショットなどの視覚的にリッチなコンテンツを処理する v4 の強みを直接サポートします。動的な解像度機能により、アーキテクチャで指定されているように、v4 は 20 メガピクセルにリサイズされた画像を処理できます。高度な位置エンコーディングは、OpenAI CLIP の 0.15 に対して 0.71 のアライメントスコアで、v4 が優れたクロスモーダルアライメントを実現するための基盤を提供します。
tagLoRA アダプター
V4 は、v3 の 5 つのタスクから、効果とユーザーの採用について得られた教訓を反映して、3 つの焦点を絞ったタスクに合理化します。
- 非対称検索 (v3 のクエリ/パッセージアダプターを統合)
- 対称類似性 (STS タスクに対する v3 のテキストマッチングと同等)
- コード検索 (v2-code から学習、v3 に欠落)
この統合により、v3 の分類および分離アダプターが削除され、最も影響力のあるベクトルモデル (Embedding)の使用事例 (検索と STS) に v4 が焦点が当てられます。
tag出力ベクトルモデル (Embeddings)
V4 は、シングルベクトルとマルチベクトルの両方のベクトルモデル (Embeddings)をサポートするデュアル出力システムを導入しましたが、v3 はシングルベクトルの出力のみを提供しました。これは、さまざまな検索シナリオに対応します。
- シングルベクトルモード: 効率的な類似性検索のための 2048 次元のベクトルモデル (Embeddings) (MRL 経由で 128 に切り捨て可能)
- マルチベクトルモード: 遅延相互作用検索のための词元 (Token)あたり 128 次元
このデュアルアプローチは、特に視覚的にリッチなドキュメント検索において、マルチベクトル表現でより優れた効果を発揮する一方で、標準的な類似性タスクの効率を維持します。視覚タスク全体でのシングルベクトルに対するマルチベクトルの 7 ~ 10% の一貫したパフォーマンスの利点は、遅延相互作用がマルチモーダルコンテンツに対して根本的により優れたセマンティックマッチングを提供することを示唆しています。
tagパラメーターサイズ
v4 は v3 よりも 6.7 倍大きい (3.8B 対 570M パラメーター) ですが、テキストのみのパフォーマンスの向上は実際にはわずかであり、パラメーターのスケーリングは主にテキストの機能拡張ではなく、マルチモーダルの要件によって推進されたことが示唆されます。コアテキストベンチマークでは、v4 は MMTEB で 66.49 を達成しましたが、v3 は 58.58 (14% の改善) であり、MTEB-EN では 55.97 に対して v3 は 54.33 (3% の改善) でした。コード検索では、v4 は CoIR で 71.59 をスコアリングしましたが、v3 は 55.07 (30% の改善) であり、長いドキュメントのパフォーマンスでは、LongEmbed で v4 が 67.11 に対して v3 が 55.66 (21% の改善) を示しています。大幅なスケーリングは、v4 のマルチモーダル機能を考慮すると正当化されます。視覚ドキュメント検索 (Jina-VDR) で 84.11 nDCG@5、ViDoRe ベンチマークで 90.17 を達成しました。これらは v3 には完全に存在しない機能です。したがって、パラメーターの増加は、競争力のあるテキストパフォーマンスを維持しながら、マルチモーダル機能への投資を表しています。統合アーキテクチャにより、個別のテキストモデルとビジョンモデルの必要性がなくなり、従来のデュアルエンコーダーアプローチの 0.15 と比較して 0.71 のクロスモーダルアライメントが実現します。
tagはじめに
簡単な雰囲気チェックのために、Search Foundation ツールボックスでテキストから画像へのデモを試してください。当社のウェブサイトからドキュメント画像のコレクションを用意しており、独自の画像 URL を追加することもできます。クエリを入力して Enter キーを押すだけで、ランク付けされた結果が表示されます。OCR またはコンテンツベースの画像検索のようにそれを後退させることもできます。英語以外のクエリも自由にお試しください。
デモは次の場所で利用できます: https://jina.ai/api-dashboard/m0-image-rerank このデモを使用すると、プライマリー API キーの 词元 (Token)が消費されることに注意してください。また、デモは、サーバー上のすべての画像をこれらの URL からダウンロードする必要があり、画像にキャッシュが実装されていないため、少し遅く見える場合があります。
tagAPI 経由
以下のコードは、jina-embeddings-v4 の使用方法を示しています。テキスト文字列、base64 エンコードされた画像、または画像 URL を渡すことができます。新規ユーザーは、1000 万個の無料 词元 (Token)を含む Jina API キーを取得できます。
curl https://api.jina.ai/v1/embeddings \
-H "Content-Type: application/json" \
-H "Authorization: Bearer JINA_API_KEY" \
-d @- <<EOFEOF
{
"model": "jina-embeddings-v4",
"task": "text-matching",
"input": [
{
"text": "A beautiful sunset over the beach"
},
{
"text": "Un beau coucher de soleil sur la plage"
},
{
"text": "海滩上美丽的日落"
},
{
"text": "浜辺に沈む美しい夕日"
},
{
"image": "https://i.ibb.co/nQNGqL0/beach1.jpg"
},
{
"image": "https://i.ibb.co/r5w8hG8/beach2.jpg"
},
{
"image": "iVBORw0KGgoAAAANSUhEUgAAABwAAAA4CAIAAABhUg/jAAAAMklEQVR4nO3MQREAMAgAoLkoFreTiSzhy4MARGe9bX99lEqlUqlUKpVKpVKpVCqVHksHaBwCA2cPf0cAAAAASUVORK5CYII="
}
]
}
EOFEOF
GPUリソースが限られているため、現在、Embedding API (埋め込みAPI) は、jina-embeddings-v4 が本来持つ最大 32K の tokens (詞元) を処理する能力にもかかわらず、最大 8K tokens (詞元) までのドキュメントをサポートしています。8K tokens (詞元) を超えるより長いコンテキストを必要とするアプリケーション(Late Chunking など)については、CSP を通じてモデルをデプロイするか、モデルをセルフホスティングすることをお勧めします。
tagCSP マーケットプレイス経由
jina-embeddings-v4 は、AWS、Azure、GCP で間もなく直接利用可能になり、そこに記載されている価格で提供されます。
tagHuggingFace 経由
研究および実験目的で、Hugging Face ページからローカルでモデルを使用できます。動作を示す Google Colab ノートブックを用意しました。
Google Colab
tag結論
jina-embeddings-v4 は、テキストと画像を統合された経路で処理する 38 億のパラメーターを持つユニバーサルな embedding (ベクトル模型) モデルであり、特に視覚的に豊富なドキュメント検索において、Google、OpenAI、Voyage AI の独自のモデルを上回り、dense および late-interaction retrieval (遅延インタラクション検索) の両方をサポートしています。しかし、この能力は孤立して生まれたものではなく、根本的な制限を解決するための 4 世代にわたる集大成です。
2022 年初頭に jina-embeddings-v1
から始めたとき、誰もがより多くのデータがより良いパフォーマンスを意味すると考えていました。私たちはその逆を証明しました。15 億のペアをフィルタリングして 3 億 8500 万の高品質な例に絞り込むことで、はるかに大きなデータセットよりも優れたパフォーマンスを発揮しました。教訓は、コレクションよりもキュレーションが重要であるということです。
Jina Embeddings: A Novel Set of High-Performance Sentence Embedding ModelsJina Embeddings constitutes a set of high-performance sentence embedding models adept at translating textual inputs into numerical representations, capturing the semantics of the text. These models excel in applications like dense retrieval and semantic textual similarity. This paper details the development of Jina Embeddings, starting with the creation of high-quality pairwise and triplet datasets. It underlines the crucial role of data cleaning in dataset preparation, offers in-depth insights into the model training process, and concludes with a comprehensive performance evaluation using the Massive Text Embedding Benchmark (MTEB). Furthermore, to increase the model’s awareness of grammatical negation, we construct a novel training and evaluation dataset of negated and non-negated statements, which we make publicly available to the community.
しかし、ユーザーは BERT の 512 tokens (詞元) の壁にぶつかり続けました。より長いシーケンスでのトレーニングはコストがかかるように思われましたが、jina-embeddings-v2
はエレガントな解決策を明らかにしました。短い時間でトレーニングし、長くデプロイします。ALiBi の線形注意バイアスにより、512 tokens (詞元) でトレーニングされたモデルは、推論時に 8,192 tokens (詞元) をシームレスに処理できます。より少ない計算量でより多くの機能を手に入れることができました。
Jina Embeddings 2: 8192-Token General-Purpose Text Embeddings for Long DocumentsText embedding models have emerged as powerful tools for transforming sentences into fixed-sized feature vectors that encapsulate semantic information. While these models are essential for tasks like information retrieval, semantic clustering, and text re-ranking, most existing open-source models, especially those built on architectures like BERT, struggle to represent lengthy documents and often resort to truncation. One common approach to mitigate this challenge involves splitting documents into smaller paragraphs for embedding. However, this strategy results in a much larger set of vectors, consequently leading to increased memory consumption and computationally intensive vector searches with elevated latency. To address these challenges, we introduce Jina Embeddings 2, an open-source text embedding model capable of accommodating up to 8192 tokens. This model is designed to transcend the conventional 512-token limit and adeptly process long documents. Jina Embeddings 2 not only achieves state-of-the-art performance on a range of embedding-related tasks in the MTEB benchmark but also matches the performance of OpenAI’s proprietary ada-002 model. Additionally, our experiments indicate that an extended context can enhance performance in tasks such as NarrativeQA.
jina-embeddings-v2
の成功により、別の制約が明らかになりました。異なるタスクには異なる最適化が必要でした。個別のモデルを構築するのではなく、jina-embeddings-v3 は、小さな 60M の LoRA アダプターを使用して、570M のベースモデルを任意のタスクに合わせてカスタマイズしました。1 つのモデルが 5 つの特殊なモデルになりました。
jina-embeddings-v3: Multilingual Embeddings With Task LoRAWe introduce jina-embeddings-v3, a novel text embedding model with 570 million parameters, achieves state-of-the-art performance on multilingual data and long-context retrieval tasks, supporting context lengths of up to 8192 tokens. The model includes a set of task-specific Low-Rank Adaptation (LoRA) adapters to generate high-quality embeddings for query-document retrieval, clustering, classification, and text matching. Evaluation on the MTEB benchmark shows that jina-embeddings-v3 outperforms the latest proprietary embeddings from OpenAI and Cohere on English tasks, while achieving superior performance compared to multilingual-e5-large-instruct across all multilingual tasks. With a default output dimension of 1024, users can flexibly reduce the embedding dimensions to as low as 32 without compromising performance, enabled by Matryoshka Representation Learning.
タスクの特殊化があっても、ユーザーが視覚的な理解を必要としている間、私たちはテキストのみにとどまっていました。jina-clip-v1 や jina-clip-v2 などの標準的な CLIP ベースのモデルは、別々のエンコーダーを使用しており、異なる形式の類似コンテンツが大きく離れてしまう「モダリティギャップ」を生み出しています。最近リリースされた jina-reranker-m0 と同様に、jina-embeddings-v4 はこれを完全に排除しました。1 つの統一された経路ですべてを処理し、ギャップを埋めるのではなく、取り除きました。
jina-embeddings-v4: Universal Embeddings for Multimodal Multilingual RetrievalWe introduce jina-embeddings-v4, a 3.8 billion parameter multimodal embedding model that unifies text and image representations through a novel architecture supporting both single-vector and multi-vector embeddings in the late interaction style. The model incorporates task-specific Low-Rank Adaptation (LoRA) adapters to optimize performance across diverse retrieval scenarios, including query-based information retrieval, cross-modal semantic similarity, and programming code search. Comprehensive evaluations demonstrate that jina-embeddings-v4 achieves state-of-the-art performance on both single- modal and cross-modal retrieval tasks, with particular strength in processing visually rich content such as tables, charts, diagrams, and mixed-media formats. To facilitate evaluation of this capability, we also introduce Jina-VDR, a novel benchmark specifically designed for visually rich image retrieval.
jina-embeddings-v4 と jina-reranker-m0 はどちらも根本的な変化を共有しています。それは、エンコーダーのみのモデルの代わりに LLM (大模型) をバックボーンとして使用することです。これは偶然ではありません。ほとんどの人が見逃している深い利点を反映しています。エンコーダーのみのモデルは、画像がテキストとは別にクラスター化される「モダリティギャップ」を作成します。デコーダーのみのモデルは、真の混合モダリティ表現や説明可能性など、エンコーダーのみのアーキテクチャでは達成できなかった可能性を切り開きます。
私たちの重要な洞察:ベクトルモデル (embeddings) と生成はどちらも、セマンティクスの理解に関わるものです。生成に優れた大規模言語モデル (LLM) は、当然ながら表現にも優れています。私たちは、ベクトルモデル (embedding) と重排器 (reranking) が同じ検索基盤モデルから生まれる、統一されたアーキテクチャに未来があると考えています。そして、まさにそれをJina AIが構築しようとしているのです。