Jina Embeddings v4：マルチモーダル多言語検索のためのユニバーサルなベクトルモデル (Embeddings)

jina-embeddings-v4: Universal Embeddings for Multimodal Multilingual Retrieval

jina-embeddings-v4を発表します。これは、テキストと画像の表現を、遅延インタラクションスタイルでシングルベクトルとマルチベクトルの両方の埋め込みをサポートする新しいアーキテクチャを介して統合する、38億のパラメーターを持つマルチモーダル埋め込みモデルです。このモデルは、クエリベースの情報検索、クロスモーダルな意味的類似性、プログラミングコード検索など、多様な検索シナリオにわたってパフォーマンスを最適化するために、タスク固有のLow-Rank Adaptation (LoRA)アダプターを組み込んでいます。包括的な評価により、jina-embeddings-v4は、シングルモーダルおよびクロスモーダル検索タスクの両方で最先端のパフォーマンスを達成し、特にテーブル、グラフ、図、混合メディア形式などの視覚的に豊富なコンテンツの処理において強みを発揮することが実証されています。この機能の評価を容易にするために、視覚的に豊富な画像検索専用に設計された新しいベンチマークであるJina-VDRも導入します。

arXiv.orgMichael Günther

本日、テキストと画像に対応した、38億のパラメーターを持つ新しいユニバーサルな埋め込み (Embeddings) モデルであるjina-embeddings-v4をリリースします。これには、クエリ-ドキュメント検索、セマンティックマッチング、コード検索など、最も一般的な検索タスクのパフォーマンスを最適化するタスク固有のLoRAアダプターのセットが含まれています。jina-embeddings-v4は、MTEB、MMTEB、CoIR、LongEmbed、STS、Jina-VDR、CLIP、ViDoReのベンチマークにおいて、マルチモーダルおよび多言語タスクで最先端の検索パフォーマンスを達成しており、特にテーブル、グラフ、図、およびそれらの混合物などの視覚的に豊富なコンテンツの処理に強みを発揮します。このモデルは、シングルベクターとマルチベクターの両方の埋め込み (Embeddings) をサポートしています。

視覚的なドキュメント検索とマルチモーダルベンチマークにおけるjina-embeddings-v4のパフォーマンス。箱ひげ図は、6つのベンチマークカテゴリー（ViDoRe（ビジョンドキュメント検索）、Jina-VDR（包括的なビジョンドキュメント検索）、Wikimedia Commons Retrieval（多言語ドキュメント-説明マッチング）、GitHub README Retrieval（コードドキュメント検索）、Tweet Stock Retrieval（金融チャート分析）、およびCLIP Benchmark（一般的なテキスト-画像検索））における埋め込みモデルの平均スコアとパフォーマンスの変動を示しています。Jina-embeddings-v4のバリアント（シアンで強調表示）は、視覚的に豊富なドキュメントタスク全体で最先端のパフォーマンスを示しており、マルチベクターバージョンは、専門的な視覚ドキュメントベンチマークで最高のスコア（ViDoReで90.2、Jina-VDRで80.2）を達成し、一般的なマルチモーダル検索タスク（CLIP Benchmarkで84.1）で競争力のあるパフォーマンスを維持しています。モデルは各ベンチマークカテゴリー内の平均パフォーマンスでランク付けされており、個々のデータポイントは複数の評価タスクにわたるスコア分布を示しています。

jina-embeddings-v4は、これまでで最も意欲的な埋め込み (Embeddings) モデルです。オープンソースモデルとして、jina-embeddings-v4は主要プロバイダーの主要なクローズドソース埋め込み (Embeddings) モデルを上回り、多言語検索でOpenAIのtext-embedding-3-largeよりも12％優れたパフォーマンス（66.49対59.27）、長文ドキュメントタスクで28％の改善（67.11対52.42）、コード検索でvoyage-3よりも15％優れています（71.59対67.23）。また、Googleのgemini-embedding-001のパフォーマンスに匹敵します。これにより、v4は現在利用可能な最も高性能なオープンソースのユニバーサル埋め込み (Embeddings) モデルとなり、研究者と開発者に、トレーニングプロセス、アーキテクチャの決定、および包括的な技術レポートを通じてモデルの重みに対する完全な透明性を提供し、エンタープライズグレードのマルチモーダル埋め込み (Embeddings) 機能を提供します。

5つの検索ベンチマークにおけるjina-embeddings-v4のパフォーマンス。このチャートは、テキスト検索、コード検索、多言語検索、長文コンテキスト検索、およびセマンティックテキスト類似性（STS）ベンチマークにおける各モデルの平均スコアを示す箱ひげ図を示しています。jina-embeddings-v4（シアンで強調表示）は、すべての評価カテゴリーで競争力のある、または最先端のパフォーマンスを示しており、特にテキスト検索とSTSで優れた結果を示しています。モデルは各ベンチマークカテゴリー内の平均パフォーマンスでランク付けされており、個々のデータポイントは複数の評価タスクにわたるスコア分布を示しています。

tag新しいアーキテクチャ

のアーキテクチャjina-embeddings-v4。このモデルは、Qwen2.5-VL-3B-Instructバックボーン（38億のパラメーター）上に構築されています。テキストと画像の入力は、共有パスウェイを介して処理されます。画像は最初にビジョンエンコーダーを介してトークンシーケンスに変換され、次に両方のモダリティがコンテキストアテンションレイヤーを持つ言語モデルデコーダーによって共同で処理されます。3つのタスク固有のLoRAアダプター（それぞれ6000万のパラメーター）は、フリーズされたバックボーンの重みを変更せずに、検索、テキストマッチング、およびコードタスクに対して特化した最適化を提供します。このアーキテクチャは、デュアル出力モードをサポートしています。（1）効率的な類似性検索のために平均プーリングを介して生成されたシングルベクター埋め込み (Embeddings) （2048次元、128に切り捨て可能）、および（2）遅延インタラクション検索戦略のために投影レイヤーを介したマルチベクター埋め込み (Embeddings) （トークンあたり128次元）。

jina-embeddings-v3からjina-embeddings-v4 は、テキストのみのベクトルモデル (Embeddings)から、マルチモーダルなベクトルモデル (Embeddings)へのパラダイムシフトを表しています。v3 がタスク固有の LoRA アダプターを使用してテキストのベクトルモデル (Embeddings)の最適化に焦点を当てていたのに対し、v4 はテキストと視覚コンテンツの両方を統一された表現でベクトルモデル (Embeddings)化するという、高まる要件に対応します。

側面	<strong>jina-embeddings-v3</strong>	<strong>jina-embeddings-v4</strong>
バックボーンモデル	jina-XLM-RoBERTa	Qwen2.5-VL-3B-Instruct
パラメーター (ベース)	559M	3.8B
パラメーター (アダプターあり)	572M	3.8B + アダプターごとに 60M
モダリティ	テキストのみ	テキスト + 画像 (マルチモーダル)
最大入力長	8,192 词元 (Tokens)	32,768 词元 (Tokens)
画像処理	なし	最大 20 メガピクセル、視覚的に豊かなドキュメント
多言語サポート	89 言語	29 以上の言語
ベクトルの種類	シングルベクトルのみ	シングルベクトル + マルチベクトル (遅延相互作用)
シングルベクトルの次元	1024 (MRL で 32 まで切り捨て可能)	2048 (MRL で 128 まで切り捨て可能)
マルチベクトルの次元	利用不可	词元 (Token)ごとに 128
タスク LoRA 特化	• 非対称検索 • セマンティック類似性 • 分類 • 分離	• 非対称検索 • セマンティック類似性 • コード検索
トレーニング段階	3 段階: 事前トレーニング → ベクトルモデル (Embeddings)のファインチューニング → アダプターのトレーニング	2 段階: ジョイントペアトレーニング → タスク固有のアダプターのトレーニング
損失関数	InfoNCE、CoSent、拡張トリプレット損失	シングル/マルチベクトルのジョイント InfoNCE + KL ダイバージェンス
位置エンコーディング	RoPE (ロータリーベース周波数チューニング)	M-RoPE (マルチモーダルロータリー位置埋め込み)
クロスモーダル処理	N/A	統一エンコーダー (モダリティギャップの削減)
MRL サポート	はい	はい
アテンション実装	FlashAttention2	FlashAttention2

tagバックボーン

v4 における最も重要なアーキテクチャの変更は、バックボーンが XLM-RoBERTa から Qwen2.5-VL-3B-Instruct に変更されたことです。この決定は、画像を词元 (Token)シーケンスに変換し、テキストと一緒に処理することで、デュアルエンコーダーアーキテクチャに存在するモダリティギャップを解消する「真のマルチモーダル処理」を可能にする、普遍的なベクトルモデル (Embedding)モデルを作成するという v4 の中核的な目標によって推進されました。

バックボーンの選択は、いくつかの重要な設計目標に沿っています。Qwen2.5-VL のドキュメント理解における卓越性は、表、グラフ、スクリーンショットなどの視覚的にリッチなコンテンツを処理する v4 の強みを直接サポートします。動的な解像度機能により、アーキテクチャで指定されているように、v4 は 20 メガピクセルにリサイズされた画像を処理できます。高度な位置エンコーディングは、OpenAI CLIP の 0.15 に対して 0.71 のアライメントスコアで、v4 が優れたクロスモーダルアライメントを実現するための基盤を提供します。

tagLoRA アダプター

V4 は、v3 の 5 つのタスクから、効果とユーザーの採用について得られた教訓を反映して、3 つの焦点を絞ったタスクに合理化します。

非対称検索 (v3 のクエリ/パッセージアダプターを統合)
対称類似性 (STS タスクに対する v3 のテキストマッチングと同等)
コード検索 (v2-code から学習、v3 に欠落)

この統合により、v3 の分類および分離アダプターが削除され、最も影響力のあるベクトルモデル (Embedding)の使用事例 (検索と STS) に v4 が焦点が当てられます。

tag出力ベクトルモデル (Embeddings)

V4 は、シングルベクトルとマルチベクトルの両方のベクトルモデル (Embeddings)をサポートするデュアル出力システムを導入しましたが、v3 はシングルベクトルの出力のみを提供しました。これは、さまざまな検索シナリオに対応します。

シングルベクトルモード: 効率的な類似性検索のための 2048 次元のベクトルモデル (Embeddings) (MRL 経由で 128 に切り捨て可能)
マルチベクトルモード: 遅延相互作用検索のための词元 (Token)あたり 128 次元

このデュアルアプローチは、特に視覚的にリッチなドキュメント検索において、マルチベクトル表現でより優れた効果を発揮する一方で、標準的な類似性タスクの効率を維持します。視覚タスク全体でのシングルベクトルに対するマルチベクトルの 7 ～ 10% の一貫したパフォーマンスの利点は、遅延相互作用がマルチモーダルコンテンツに対して根本的により優れたセマンティックマッチングを提供することを示唆しています。

tagパラメーターサイズ

v4 は v3 よりも 6.7 倍大きい (3.8B 対 570M パラメーター) ですが、テキストのみのパフォーマンスの向上は実際にはわずかであり、パラメーターのスケーリングは主にテキストの機能拡張ではなく、マルチモーダルの要件によって推進されたことが示唆されます。コアテキストベンチマークでは、v4 は MMTEB で 66.49 を達成しましたが、v3 は 58.58 (14% の改善) であり、MTEB-EN では 55.97 に対して v3 は 54.33 (3% の改善) でした。コード検索では、v4 は CoIR で 71.59 をスコアリングしましたが、v3 は 55.07 (30% の改善) であり、長いドキュメントのパフォーマンスでは、LongEmbed で v4 が 67.11 に対して v3 が 55.66 (21% の改善) を示しています。大幅なスケーリングは、v4 のマルチモーダル機能を考慮すると正当化されます。視覚ドキュメント検索 (Jina-VDR) で 84.11 nDCG@5、ViDoRe ベンチマークで 90.17 を達成しました。これらは v3 には完全に存在しない機能です。したがって、パラメーターの増加は、競争力のあるテキストパフォーマンスを維持しながら、マルチモーダル機能への投資を表しています。統合アーキテクチャにより、個別のテキストモデルとビジョンモデルの必要性がなくなり、従来のデュアルエンコーダーアプローチの 0.15 と比較して 0.71 のクロスモーダルアライメントが実現します。

tagはじめに

簡単な雰囲気チェックのために、Search Foundation ツールボックスでテキストから画像へのデモを試してください。当社のウェブサイトからドキュメント画像のコレクションを用意しており、独自の画像 URL を追加することもできます。クエリを入力して Enter キーを押すだけで、ランク付けされた結果が表示されます。OCR またはコンテンツベースの画像検索のようにそれを後退させることもできます。英語以外のクエリも自由にお試しください。

0:00

/0:22

デモは次の場所で利用できます: https://jina.ai/api-dashboard/m0-image-rerank このデモを使用すると、プライマリー API キーの词元 (Token)が消費されることに注意してください。また、デモは、サーバー上のすべての画像をこれらの URL からダウンロードする必要があり、画像にキャッシュが実装されていないため、少し遅く見える場合があります。

tagAPI 経由

以下のコードは、jina-embeddings-v4 の使用方法を示しています。テキスト文字列、base64 エンコードされた画像、または画像 URL を渡すことができます。新規ユーザーは、1000 万個の無料词元 (Token)を含む Jina API キーを取得できます。

curl https://api.jina.ai/v1/embeddings \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer JINA_API_KEY" \
  -d @- <<EOFEOF
  {
    "model": "jina-embeddings-v4",
    "task": "text-matching",
    "input": [
        {
            "text": "A beautiful sunset over the beach"
        },
        {
            "text": "Un beau coucher de soleil sur la plage"
        },
        {
            "text": "海滩上美丽的日落"
        },
        {
            "text": "浜辺に沈む美しい夕日"
        },
        {
            "image": "https://i.ibb.co/nQNGqL0/beach1.jpg"
        },
        {
            "image": "https://i.ibb.co/r5w8hG8/beach2.jpg"
        },
        {
            "image": "iVBORw0KGgoAAAANSUhEUgAAABwAAAA4CAIAAABhUg/jAAAAMklEQVR4nO3MQREAMAgAoLkoFreTiSzhy4MARGe9bX99lEqlUqlUKpVKpVKpVCqVHksHaBwCA2cPf0cAAAAASUVORK5CYII="
        }
    ]
  }
EOFEOF

GPUリソースが限られているため、現在、Embedding API (埋め込みAPI) は、jina-embeddings-v4 が本来持つ最大 32K の tokens (詞元) を処理する能力にもかかわらず、最大 8K tokens (詞元) までのドキュメントをサポートしています。8K tokens (詞元) を超えるより長いコンテキストを必要とするアプリケーション（Late Chunking など）については、CSP を通じてモデルをデプロイするか、モデルをセルフホスティングすることをお勧めします。

tagCSP マーケットプレイス経由

jina-embeddings-v4 は、AWS、Azure、GCP で間もなく直接利用可能になり、そこに記載されている価格で提供されます。

tagHuggingFace 経由

研究および実験目的で、Hugging Face ページからローカルでモデルを使用できます。動作を示す Google Colab ノートブックを用意しました。

tag結論

jina-embeddings-v4 は、テキストと画像を統合された経路で処理する 38 億のパラメーターを持つユニバーサルな embedding (ベクトル模型) モデルであり、特に視覚的に豊富なドキュメント検索において、Google、OpenAI、Voyage AI の独自のモデルを上回り、dense および late-interaction retrieval (遅延インタラクション検索) の両方をサポートしています。しかし、この能力は孤立して生まれたものではなく、根本的な制限を解決するための 4 世代にわたる集大成です。

2022 年初頭に jina-embeddings-v1 から始めたとき、誰もがより多くのデータがより良いパフォーマンスを意味すると考えていました。私たちはその逆を証明しました。15 億のペアをフィルタリングして 3 億 8500 万の高品質な例に絞り込むことで、はるかに大きなデータセットよりも優れたパフォーマンスを発揮しました。教訓は、コレクションよりもキュレーションが重要であるということです。

Jina Embeddings: A Novel Set of High-Performance Sentence Embedding Models

Jina Embeddings constitutes a set of high-performance sentence embedding models adept at translating textual inputs into numerical representations, capturing the semantics of the text. These models excel in applications like dense retrieval and semantic textual similarity. This paper details the development of Jina Embeddings, starting with the creation of high-quality pairwise and triplet datasets. It underlines the crucial role of data cleaning in dataset preparation, offers in-depth insights into the model training process, and concludes with a comprehensive performance evaluation using the Massive Text Embedding Benchmark (MTEB). Furthermore, to increase the model’s awareness of grammatical negation, we construct a novel training and evaluation dataset of negated and non-negated statements, which we make publicly available to the community.

arXiv.orgMichael Günther

しかし、ユーザーは BERT の 512 tokens (詞元) の壁にぶつかり続けました。より長いシーケンスでのトレーニングはコストがかかるように思われましたが、jina-embeddings-v2 はエレガントな解決策を明らかにしました。短い時間でトレーニングし、長くデプロイします。ALiBi の線形注意バイアスにより、512 tokens (詞元) でトレーニングされたモデルは、推論時に 8,192 tokens (詞元) をシームレスに処理できます。より少ない計算量でより多くの機能を手に入れることができました。

Jina Embeddings 2: 8192-Token General-Purpose Text Embeddings for Long Documents

Text embedding models have emerged as powerful tools for transforming sentences into fixed-sized feature vectors that encapsulate semantic information. While these models are essential for tasks like information retrieval, semantic clustering, and text re-ranking, most existing open-source models, especially those built on architectures like BERT, struggle to represent lengthy documents and often resort to truncation. One common approach to mitigate this challenge involves splitting documents into smaller paragraphs for embedding. However, this strategy results in a much larger set of vectors, consequently leading to increased memory consumption and computationally intensive vector searches with elevated latency. To address these challenges, we introduce Jina Embeddings 2, an open-source text embedding model capable of accommodating up to 8192 tokens. This model is designed to transcend the conventional 512-token limit and adeptly process long documents. Jina Embeddings 2 not only achieves state-of-the-art performance on a range of embedding-related tasks in the MTEB benchmark but also matches the performance of OpenAI’s proprietary ada-002 model. Additionally, our experiments indicate that an extended context can enhance performance in tasks such as NarrativeQA.

arXiv.orgMichael Günther

jina-embeddings-v2 の成功により、別の制約が明らかになりました。異なるタスクには異なる最適化が必要でした。個別のモデルを構築するのではなく、jina-embeddings-v3 は、小さな 60M の LoRA アダプターを使用して、570M のベースモデルを任意のタスクに合わせてカスタマイズしました。1 つのモデルが 5 つの特殊なモデルになりました。

jina-embeddings-v3: Multilingual Embeddings With Task LoRA

We introduce jina-embeddings-v3, a novel text embedding model with 570 million parameters, achieves state-of-the-art performance on multilingual data and long-context retrieval tasks, supporting context lengths of up to 8192 tokens. The model includes a set of task-specific Low-Rank Adaptation (LoRA) adapters to generate high-quality embeddings for query-document retrieval, clustering, classification, and text matching. Evaluation on the MTEB benchmark shows that jina-embeddings-v3 outperforms the latest proprietary embeddings from OpenAI and Cohere on English tasks, while achieving superior performance compared to multilingual-e5-large-instruct across all multilingual tasks. With a default output dimension of 1024, users can flexibly reduce the embedding dimensions to as low as 32 without compromising performance, enabled by Matryoshka Representation Learning.

arXiv.orgSaba Sturua

タスクの特殊化があっても、ユーザーが視覚的な理解を必要としている間、私たちはテキストのみにとどまっていました。jina-clip-v1 や jina-clip-v2 などの標準的な CLIP ベースのモデルは、別々のエンコーダーを使用しており、異なる形式の類似コンテンツが大きく離れてしまう「モダリティギャップ」を生み出しています。最近リリースされた jina-reranker-m0 と同様に、jina-embeddings-v4 はこれを完全に排除しました。1 つの統一された経路ですべてを処理し、ギャップを埋めるのではなく、取り除きました。

jina-embeddings-v4: Universal Embeddings for Multimodal Multilingual Retrieval

We introduce jina-embeddings-v4, a 3.8 billion parameter multimodal embedding model that unifies text and image representations through a novel architecture supporting both single-vector and multi-vector embeddings in the late interaction style. The model incorporates task-specific Low-Rank Adaptation (LoRA) adapters to optimize performance across diverse retrieval scenarios, including query-based information retrieval, cross-modal semantic similarity, and programming code search. Comprehensive evaluations demonstrate that jina-embeddings-v4 achieves state-of-the-art performance on both single- modal and cross-modal retrieval tasks, with particular strength in processing visually rich content such as tables, charts, diagrams, and mixed-media formats. To facilitate evaluation of this capability, we also introduce Jina-VDR, a novel benchmark specifically designed for visually rich image retrieval.

arXiv.orgMichael Günther

jina-embeddings-v4 と jina-reranker-m0 はどちらも根本的な変化を共有しています。それは、エンコーダーのみのモデルの代わりに LLM (大模型) をバックボーンとして使用することです。これは偶然ではありません。ほとんどの人が見逃している深い利点を反映しています。エンコーダーのみのモデルは、画像がテキストとは別にクラスター化される「モダリティギャップ」を作成します。デコーダーのみのモデルは、真の混合モダリティ表現や説明可能性など、エンコーダーのみのアーキテクチャでは達成できなかった可能性を切り開きます。

私たちの重要な洞察：ベクトルモデル (embeddings) と生成はどちらも、セマンティクスの理解に関わるものです。生成に優れた大規模言語モデル (LLM) は、当然ながら表現にも優れています。私たちは、ベクトルモデル (embedding) と重排器 (reranking) が同じ検索基盤モデルから生まれる、統一されたアーキテクチャに未来があると考えています。そして、まさにそれをJina AIが構築しようとしているのです。