jina-embeddings-v4

マルチモーダル・多言語検索のための汎用ベクトルモデル

リリースノート

ライセンス

CC-BY-NC-4.0

発売日

2025-06-24

入力

文章

写真

PDF

出力

ベクター

マルチベクトル

モデル詳細

パラメータ: 3.8B

単語の長さを入力してください: 32K

画像サイズを入力してください: 768×28×28

出力寸法: 2048

言語サポート

🌍 多言語サポート

概要

Jina Embeddings V4は、38億パラメータのマルチモーダルベクトルモデルであり、統一されたテキストと画像の表現機能を提供します。Qwen2.5-VL-3B-Instructバックボーンネットワーク上に構築されたこのモデルのアーキテクチャは、遅延インタラクティブスタイルにおける単一ベクトルと複数ベクトルをサポートし、従来のCLIPスタイルのデュアルエンコーダモデルの限界を打ち破りました。このモデルは、3つのタスク固有のLoRAアダプター（それぞれ60Mパラメータ）を統合し、固定されたバックボーンネットワークの重みを変更することなく、さまざまな検索シナリオ（非対称クエリドキュメント検索、セマンティックテキスト類似性、コード検索など）でパフォーマンスを最適化します。このモデルは、表、グラフ、ダイアグラム、スクリーンショット、混合メディア形式などの視覚的に豊富なコンテンツを統一された処理パスで処理することに優れており、従来のアーキテクチャに存在するモダリティギャップを縮小します。このモデルは多言語機能をサポートし、最大 32,768 個のトークン化された入力テキストを処理し、画像を 20 メガピクセルにサイズ変更できるため、さまざまな言語やドメインにまたがるさまざまなドキュメント検索およびクロスモーダル検索アプリケーションに適しています。

方法

Jina Embeddings V4は、CLIPスタイルのデュアルエンコーダーアプローチとは異なる、統合型マルチモーダル言語モデルアーキテクチャを実装しています。このモデルは、共有パスを介して入力を処理します。まず、ビジュアルエンコーダーを介して画像をトークンシーケンスに変換し、次にコンテキストアテンションレイヤーを備えた言語モデルデコーダーを介してテキストと画像のモダリティをまとめて処理します。このアーキテクチャは、異なるユースケースに対応するために2つの出力モードをサポートしています。シングルベクトルは、Matryoshka表現学習によって128次元に切り捨てられ、効率的な類似検索のために平均プーリングによって生成される2048次元ベクトルを生成します。マルチベクトルは、後期インタラクティブスタイル検索のために、投影層を介して各トークンを128次元出力します。このモデルには、特殊な最適化を提供する3つのタスク固有のLoRAアダプターが含まれています。検索アダプターは、プレフィックスベースの非対称エンコーディングとハードネガティブサンプルトレーニングを使用してクエリドキュメントシナリオを処理します。テキストマッチングアダプターは、CoSENT損失関数を使用して意味的類似性タスクを処理します。コードアダプターは、自然言語からコードへの検索アプリケーションに重点を置いています。トレーニングは 2 つのフェーズに分かれています。最初のペアワイズトレーニングでは、300 を超えるソースからのテキスト間およびテキストと画像のペアに対して対照的な InfoNCE 損失を使用して実行され、その後、トリプレットベースのアプローチと各ドメインの要件に合わせて調整された特殊な損失関数を使用して、3 つの LoRA アダプターのタスク固有の微調整が行われます。

パフォーマンス

Jina Embeddings V4は、複数のベンチマークカテゴリーで非常に競争力のあるパフォーマンスを達成しました。画像文書検索では、JinaVDRベンチマークで平均スコア72.19を達成しました。これはColPali-v1.2の64.50を上回ります。また、ViDoReベンチマークでは平均スコア84.11を達成しました。これはColPaliの83.90を上回ります。さらに、マルチベクターモードではViDoReのスコア90.17を達成しました。クロスモーダル検索では、CLIPベンチマークで84.11を達成しました。これはjina-clip-v2の81.12、nllb-clip-large-siglipの83.19を上回ります。テキスト検索タスクでは、MTEB-enで55.97、MMTEBで66.49を達成し、長文文書処理にも優れており、LongEmbedでは67.11を達成しました（前モデルの55.66を上回っています）。セマンティックテキスト類似性評価でも優れた性能を示し、英語STSタスクで85.89、多言語STSベンチマークで72.70のスコアを獲得しました。コード検索機能はCoIRベンチマークで71.59に達しましたが、voyage-code-3（77.33）などの専用モデルはこの分野でより高いスコアを獲得しています。クロスモーダルアライメント性能はOpenAI CLIPの0.15に対して0.71と向上し、マルチモーダルモデルにおけるモダリティギャップ問題に対処しています。視覚的に豊富なタスクでは、マルチベクターモードがシングルベクターモードよりも一貫して優れたパフォーマンスを発揮しますが、シングルベクターモードは標準的な検索シナリオで効率的なパフォーマンスを提供します。

ガイド

Jina Embeddings V4 を効果的に使用するには、アプリケーションのニーズに合わせて適切な LoRA アダプタを選択してください。クエリとドキュメントの構造が異なる非対称クエリドキュメント検索シナリオでは、「Retrieve」アダプタを使用し、クエリと段落の内容を区別するために適切なプレフィックスを使用してください。「Text Matching」アダプタは、クエリへの回答ではなく類似コンテンツの検索を目的とするセマンティック類似性タスクと対称検索に適しており、ドキュメントクラスタリング、重複検出、コンテンツ推奨システムに最適です。プログラミング関連のアプリケーションでは、「Code」アダプタが自然言語からコードへの検索、コード間の類似性検索、技術的な質疑応答シナリオに最適化されています。パフォーマンスと効率性の要件に基づいて出力モードを選択してください。シングルベクトルは効率的な類似性検索を提供し、ストレージ容量が限られた環境に適しており、切り捨て次元により、許容可能な品質のトレードオフで次元を 2048 から 128-512 に削減できます。一方、マルチベクトルは複雑な検索タスク、特にリッチなビジュアルコンテンツを含む文書を扱う際に高い精度を提供します。後者では、インタラクションスコアリングによって詳細な関係性を捉えることができます。このモデルの統合アーキテクチャにより、テキストと画像が混在する入力を、別途エンコーダーやビジュアル文書のOCR前処理を必要とせずに処理できます。このモデルのクロスモーダルアライメント機能と多言語サポートにより、国際的なアプリケーションにも適しています。本番環境での展開では、メモリ要件を計画する際に、LoRAアダプタあたり60MBのパラメータオーバーヘッドを考慮してください。また、3つのアダプタすべてを2%未満の追加メモリ使用量で同時に維持できるため、推論中に柔軟なタスク切り替えが可能になります。

このモデルについて言及しているブログ

6月 30, 2025 • 8 読む時間

量子化は、より小さなベクトルモデル (Embeddings) を提供します。ファインチューニングされた量子化は、さらにロスレスなベクトルモデル (Embeddings) を提供することを示します。