I/O 図 1
I/O 図 2
I/O 図 3
I/O 図 4
I/O 図 5
I/O 図 6
比較するモデルを選択してください
概要
jina-reranker-m0 は、複数の言語で視覚的なドキュメントをランク付けするように設計された画期的なマルチモーダル多言語リランカーです。このモデルは、29 の言語でのクエリや、視覚的に豊かなドキュメント イメージ (テキスト、グラフィック、表、さまざまなレイアウトを含むページを含む) を処理する能力に優れています。モデルは、入力クエリとの関連性に基づいてランク付けされたドキュメントのリストを出力します。 「モダリティ ギャップ」問題 (画像が他の画像の近くに集まり、テキストがテキストの近くに集まる) に苦労していた以前のリランカーとは異なり、jina-reranker-m0 は、テキストと視覚のモダリティを単一のデコーダーのみのモデルに統合し、画像とテキスト ドキュメントの両方を効率的にランク付けできるシームレスなマルチモーダル検索エクスペリエンスを実現します。
方法
jina-reranker-m0 のアーキテクチャは、以前のアプローチとは大きく異なります。これは、21 億のパラメータを持つ Qwen2-VL-2B 上に構築されており、従来のクロスエンコーダ アーキテクチャからデコーダのみのビジュアル言語モデルに移行しています。このシステムは、Qwen2-VL の事前トレーニング済みのビジュアル エンコーダーとプロジェクターを活用し、LoRA (Low Rank Adaptation) を使用して大規模言語モデルを微調整し、事後トレーニング済みの MLP を使用してクエリとドキュメントの関連性を測定するランキング ロジックを生成します。この識別モデルは最大 32K トークンを処理でき、56×56 ピクセルから 4K 解像度までの画像をサポートします。画像を処理する際、Visual Transformer (ViT) と Projector は隣接する 2×2 トークンを 1 つのビジュアル トークンに圧縮し、特殊なマーカーがビジュアル トークンの境界を明確にマークすることで、言語モデルがビジュアル要素とテキスト要素を正しく統合して推論できるようにします。
パフォーマンス
Jina-reranker-m0 は複数のベンチマークで素晴らしい結果を達成しました。テキスト間の再ランキングでは、BEIR ベンチマークで 58.95 NDCG-10 のスコアを達成し、jina-embeddings-v3 (55.81) や bge-reranker-v2-m3 (56.51) などの競合製品を上回りました。多言語コンテンツについては、18 言語をカバーする MIRACL ベンチマークで 66.75 NDCG-10 を達成しました。長い文書の MLDR ベンチマークでは、13 の言語で 59.83 NDCG-10 を達成しました。 CoIR ベンチマークでのコード検索では、63.55 NDCG-10 を達成し、競合製品をはるかに上回ります。しかし、このモデルは視覚的な文書検索において真価を発揮します。ViDoRe ベンチマークでは、印象的な 91.02 NDCG-5 スコアを達成し、視覚言語の組み合わせ推論をテストする Winoground では平均スコア 43.92 を達成し、他のモデルと比較してテキストと画像の関係を理解する能力が優れていることを示しています。
ガイド
jina-reranker-m0 の可能性を最大限に引き出すには、開発者は複数の実装戦略を検討する必要があります。このモデルには、API、クラウド マーケットプレイス (AWS、Azure、GCP)、または Hugging Face でネイティブにアクセスできます。 API を使用する場合、開発者はテキスト文字列、base64 画像、または画像 URL を渡すことができ、新規ユーザーには 1,000 万個の無料トークンが提供されます。広範囲にわたるトレーニングのおかげで、このモデルはテキストからテキスト、テキストから画像、画像からテキスト、およびテキストと混合のユニモーダル タスクで優れたパフォーマンスを発揮しますが、一部の組み合わせ (画像から画像など) は専用のトレーニングなしでゼロ ショット方式でサポートできることは注目に値します。最良の結果を得るには、モデルが最大 10K の入力トークンと、イメージごとに最大 768 のトークンをサポートすることに留意してください。このアーキテクチャのデコーダのみのアプローチは、単純な再ランキングを超えた可能性を開きます。これには、真の混合モダリティの再ランキング、リストの再ランキング、ドキュメントの重複排除、アテンション メカニズムによるランキング スコアの解釈可能性などが含まれます。これは、以前のエンコーダのみのアーキテクチャでは不可能だった機能です。
このモデルについて言及しているブログ