
本日、jina-reranker-m0をリリースします。これは、**複数の言語にわたる視覚的文書のランキング**のための新しいマルチリンガル・マルチモーダルリランカーモデルです。テキスト、図表、表、インフォグラフィックス、さまざまなレイアウトを含む視覚的に豊かな文書画像のコレクションとともにクエリを受け付け、29言語以上の複数のドメインにわたって処理します。入力クエリに対する関連性順に文書のランク付けリストを出力します。jina-reranker-v2-base-multilingualと比較して、jina-reranker-m0は多言語コンテンツ、長文書、コード検索タスクにおけるテキストリランキングも改善しています。


tag新しいアーキテクチャ
jina-reranker-v2-base-multilingualとは異なり、jina-reranker-m0は従来のクロスエンコーダーアーキテクチャからデコーダーのみのビジョン言語モデルに移行しました。事前学習済みの Qwen2-VL のビジョンエンコーダーとプロジェクターを活用し、LoRA で LLM を微調整し、クエリと文書の関連性を測定するランキングロジットを生成する MLP を後学習しました。これにより、ランキングタスクに最適化された判別モデルが実現しました。
jina-reranker-m0 | jina-reranker-v2 |
|
---|---|---|
アーキテクチャ | Vision Language Model | Cross-Encoder |
ベースモデル | Qwen2-VL-2B | Jina-XLM-RoBERTa |
パラメータ数 | 2.4 B | 278 M |
最大コンテキスト長(クエリ + 文書) | 10,240 | 8,192 |
最大画像パッチ数(動的解像度) | 768 × 28 × 28 | ❌ |
多言語サポート | ✅ | ✅ |
サポートされるタスク | Text2Text, Text2Image, Image2Text, Text2Mixed | Text2Text |
この新しいアーキテクチャにより、jina-reranker-m0は最大32Kトークンを処理でき、視覚的入力とテキスト入力をシームレスに組み合わせることができます。モデルは、最小56×56ピクセルから4K解像度までの画像をサポートしています。画像を処理する際、ViTとプロジェクターは隣接する2×2トークンを単一の視覚トークンにまとめてLLM入力とします。<|vision_start|>
や<|vision_end|>
などの特殊トークンが視覚トークンの境界を明確にマークし、言語モデルが視覚情報を適切に処理し、視覚的要素とテキスト要素の両方を統合した高度なマルチモーダル推論を実行できるようにします。
このアーキテクチャはまた、jina-clip-v1やjina-clip-v2のような以前のモデルを悩ませていたモダリティギャップの問題も効果的に解決します。以前は、表現空間において画像は他の画像の近くに、テキストは他のテキストの近くにクラスター化され、断絶が生じていました。これは、候補文書に画像とテキストの両方が含まれている場合、テキストクエリを使用して画像を検索することが問題になることを意味していました。jina-reranker-m0では、このギャップを気にすることなく画像と文書を一緒にランク付けでき、真に統合されたマルチモーダル検索体験を実現できます。
私たちのトレーニングは最大10Kの入力トークンに制限され、画像あたり最大768トークン(<|vision_start|>
と<|vision_end|>
マーカーの間)までとなっていることに注意する必要があります。さらに、image-to-image
、image-to-multimodal
、またはtext-to-multimodal
リランキングタスクについては特別なトレーニングを行っていません。ここでの「マルチモーダル」とは、入力に画像とテキストのトークンの両方を含む単一の文書を指します。クエリと文書の両方における画像とテキストトークンのすべての可能な組み合わせを見ると、jina-reranker-m0がサポートするタスクの全範囲を以下の表にまとめることができます。

テストにおいて、モデルが未訓練のランキングタスクにも対応できることを示唆する証拠が見つかりましたが、これらの分野での有効性は、モデルのゼロショット転移能力や意図しない訓練の副次的効果の結果として見なすべきです。これらのタスクに対するモデルの性能について本格的な評価は行っておらず、今後の研究でこれらの能力をより詳しく探究する予定です。
tagはじめに
tagAPI 経由
以下のコードは、クエリ "small language model data extraction"
と画像およびテキストドキュメントのコレクションとの間の関連性スコアを計算する方法を示しています。テキスト文字列、base64 エンコードされた画像、または画像 URL を渡すことができます。新規ユーザーは 100 万トークンの無料枠付きの Jina API キーを取得できます。API では画像をクエリとして使用することはできませんが、Hugging Face Transformers ライブラリを通じてモデルにアクセスする場合は、画像をクエリとして使用できます。
curl -X POST \
https://api.jina.ai/v1/rerank \
-H "Content-Type: application/json" \
-H "Authorization: Bearer JINA_API_KEY" \
-d '{
"model": "jina-reranker-m0",
"query": "small language model data extraction",
"documents": [
{
"image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/handelsblatt-preview.png"
},
{
"image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/paper-11.png"
},
{
"image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/wired-preview.png"
},
{
"text": "We present ReaderLM-v2, a compact 1.5 billion parameter language model designed for efficient web content extraction. Our model processes documents up to 512K tokens, transforming messy HTML into clean Markdown or JSON formats with high accuracy -- making it an ideal tool for grounding large language models. The models effectiveness results from two key innovations: (1) a three-stage data synthesis pipeline that generates high quality, diverse training data by iteratively drafting, refining, and critiquing web content extraction; and (2) a unified training framework combining continuous pre-training with multi-objective optimization. Intensive evaluation demonstrates that ReaderLM-v2 outperforms GPT-4o-2024-08-06 and other larger models by 15-20% on carefully curated benchmarks, particularly excelling at documents exceeding 100K tokens, while maintaining significantly lower computational requirements."
},
{
"image": "https://jina.ai/blog-banner/using-deepseek-r1-reasoning-model-in-deepsearch.webp"
},
{
"text": "数据提取么?为什么不用正则啊,你用正则不就全解决了么?"
},
{
"text": "During the California Gold Rush, some merchants made more money selling supplies to miners than the miners made finding gold."
},
{
"text": "Die wichtigsten Beiträge unserer Arbeit sind zweifach: Erstens führen wir eine neuartige dreistufige Datensynthese-Pipeline namens Draft-Refine-Critique ein, die durch iterative Verfeinerung hochwertige Trainingsdaten generiert; und zweitens schlagen wir eine umfassende Trainingsstrategie vor, die kontinuierliches Vortraining zur Längenerweiterung, überwachtes Feintuning mit spezialisierten Kontrollpunkten, direkte Präferenzoptimierung (DPO) und iteratives Self-Play-Tuning kombiniert. Um die weitere Forschung und Anwendung der strukturierten Inhaltsextraktion zu erleichtern, ist das Modell auf Hugging Face öffentlich verfügbar."
}
],
"return_documents": false
}'
以下が応答です。最初の結果 index=1
は、ReaderLM-v2 の論文のスクリーンショットに対応しています。
{"model":"jina-reranker-m0","usage":{"total_tokens":2829},"results":[{"index":1,"relevance_score":0.9587112551898949},{"index":3,"relevance_score":0.9337408271911014},{"index":7,"relevance_score":0.8922925217195924},{"index":2,"relevance_score":0.8891905997562045},{"index":0,"relevance_score":0.8827516945848907},{"index":4,"relevance_score":0.8701035914834407},{"index":6,"relevance_score":0.8676828987527296},{"index":5,"relevance_score":0.8455347349164652}]}
tagCSP マーケットプレイス経由
jina-reranker-m0 は間もなく AWS、Azure、GCP で直接利用可能になり、それぞれのプラットフォームで表示される価格で提供されます。
tagHuggingFace 経由
当社の Hugging Face ページからローカルでモデルを使用することもできます。その使用方法を示す Google Colab ノートブックを用意しています。Web API と比較して、ローカルでモデルを使用する場合、画像をクエリとして使用したりマルチモーダルドキュメントを扱ったりするなど、より高い柔軟性が得られます。

tag評価
完全な評価結果はこの Google スプレッドシートで確認できます。
tagBEIR(テキストからテキスト、英語のみ)

BEIR は、IR モデルの汎用性と堅牢性を評価するために設計された、異種の情報検索ベンチマークです。さまざまなドメインからの多様なデータセットを含み、ゼロショット評価に焦点を当てています。NDCG、Recall@K、MRR などの標準化された評価指標が使用されています。
Model | AVG (NDCG@10) | TREC-COVID | NFCorpus | NQ | HotpotQA | FiQA | ArguAna | Touche-2020 | DBPedia | SCIDOCS | FEVER | Climate-FEVER | SciFact | Quora |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
jina-reranker-m0 | 58.95 | 84.17 | 41.03 | 72.25 | 76.99 | 51.62 | 40.69 | 31.79 | 49.34 | 22.91 | 91.14 | 36.42 | 79.94 | 88.01 |
jina-embeddings-v3 (1024 tokens) | 55.81 | 77.81 | 36.65 | 64.31 | 64.63 | 47.47 | 54.31 | 26.55 | 41.07 | 19.91 | 89.00 | 42.33 | 72.4 | 89.06 |
bge-reranker-v2-m3 | 56.51 | 82.19 | 34.33 | 69.52 | 77.89 | 45.45 | 36.21 | 33.12 | 46.72 | 17.79 | 91.03 | 38.69 | 72.64 | 89.10 |
jina-reranker-v2-multilingual | 57.06 | 80.53 | 37.17 | 67.39 | 76.17 | 46.48 | 39.28 | 32.35 | 47.81 | 20.03 | 93.02 | 37.17 | 76.50 | 87.83 |
tagMIRACL(Text2Text、多言語、18 言語)

MIRACL は、18 の言語に対応した大規模な多言語 ad hoc 情報検索データセットです。30 億人以上のネイティブスピーカーをカバーし、人手による詳細なアノテーションを特徴としています。主に単一言語での検索タスクに焦点を当てています。
Model | AVG (NDCG@10) | ar | bn | en | es | fa | fi | fr | hi | id | ja | ko | ru | sw | te | th | zh | de | yo |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
jina-reranker-m0 | 66.75 | 79.78 | 78.01 | 59.21 | 53.56 | 58.80 | 78.00 | 56.66 | 62.83 | 54.92 | 66.51 | 72.86 | 67.26 | 59.04 | 70.19 | 80.37 | 64.51 | 58.50 | 80.44 |
jina-embeddings-v3 (8192 tokens) | 58.90 | 71.53 | 69.86 | 48.37 | 46.91 | 54.13 | 71.15 | 50.90 | 55.05 | 47.83 | 56.46 | 64.76 | 55.63 | 54.07 | 70.48 | 73.56 | 55.29 | 49.18 | 65.01 |
bge-reranker-v2-m3 | 69.32 | 80.51 | 81.85 | 57.67 | 57.64 | 61.92 | 80.38 | 59.60 | 67.66 | 58.86 | 67.37 | 75.14 | 67.61 | 68.92 | 76.69 | 82.29 | 64.46 | 58.32 | 80.85 |
jina-reranker-v2-multilingual | 63.65 | 72.50 | 79.42 | 46.66 | 51.54 | 57.81 | 73.05 | 50.90 | 60.94 | 56.66 | 59.15 | 72.60 | 53.43 | 66.47 | 74.62 | 77.75 | 62.49 | 53.06 | 76.69 |
tagMLDR(Text2Text、多言語長文ドキュメント、13 言語)

MLDR は長文検索用に特別に設計された多言語データセットで、13 の言語をカバーしています。GPT-3.5 を使用して文書に対する質問を生成しています。このデータセットは Wikipedia、Wudao、mC4 を基に構築されています。
Model | AVG (NDCG@10) | ar | de | en | es | fr | hi | it | ja | ko | pt | ru | th | zh |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
jina-reranker-m0 | 59.83 | 55.86 | 51.25 | 54.67 | 87.63 | 82.59 | 32.76 | 73.25 | 58.93 | 55.73 | 86.08 | 66.73 | 39.17 | 33.14 |
jina-embeddings-v3 (8192 tokens) | 39.71 | 28.44 | 31.57 | 29.07 | 62.08 | 59.79 | 25.47 | 53.72 | 38.36 | 32.37 | 63.26 | 49.65 | 25.15 | 17.26 |
bge-reranker-v2-m3 | 53.53 | 49.19 | 45.39 | 43.92 | 74.57 | 68.67 | 44.75 | 62.79 | 49.27 | 48.24 | 76.45 | 62.84 | 38.82 | 31.02 |
jina-reranker-v2-multilingual | 59.50 | 51.96 | 50.13 | 46.85 | 86.34 | 82.25 | 49.50 | 69.00 | 59.07 | 52.19 | 85.26 | 68.06 | 38.73 | 34.15 |
tagMKQA(Text2Text、多言語質問応答、24 言語、中国語は 3 つのバリアント)

MKQA は、オープンドメインの質問応答評価セットで、26 の類型的に異なる言語にわたって整合された 10,000 組の質問と回答のペアで構成されています。質問と回答のペアは Google Natural Questions からサンプリングされています。
Model | AVG (recall@10) | ar | da | de | es | en | fi | fr | he | hu | it | ja | km | ko | ms | nl | no | pl | pt | ru | sv | th | tr | vi | zh_cn | zh_hk | zh_tw |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
jina-reranker-m0 | 68.19 | 63.88 | 70.57 | 70.52 | 71.26 | 73.47 | 64.10 | 71.11 | 63.68 | 63.23 | 70.30 | 69.13 | 50.43 | 64.30 | 70.78 | 71.73 | 70.25 | 69.72 | 70.57 | 70.78 | 70.69 | 69.80 | 67.90 | 69.68 | 69.12 | 68.23 | 67.79 |
jina-embeddings-v3 (8192 tokens) | 65.63 | 59.00 | 69.12 | 68.27 | 68.15 | 71.14 | 65.66 | 68.30 | 59.51 | 63.23 | 68.30 | 64.36 | 56.13 | 58.98 | 68.30 | 69.53 | 68.65 | 67.26 | 67.93 | 67.06 | 68.68 | 66.32 | 66.97 | 66.87 | 63.38 | 63.59 | 61.55 |
bge-reranker-v2-m3 | 67.88 | 63.09 | 70.15 | 68.91 | 68.92 | 73.00 | 68.71 | 68.71 | 70.27 | 64.00 | 68.15 | 68.47 | 60.43 | 63.95 | 68.80 | 70.77 | 69.10 | 67.44 | 67.40 | 69.77 | 70.03 | 69.68 | 66.04 | 68.29 | 67.84 | 66.70 | 66.34 |
jina-reranker-v2-multilingual | 67.90 | 63.88 | 70.31 | 70.09 | 70.51 | 73.09 | 67.50 | 70.38 | 63.00 | 64.59 | 69.90 | 67.34 | 57.79 | 62.14 | 70.36 | 71.58 | 69.51 | 68.61 | 70.13 | 70.07 | 70.15 | 68.80 | 68.02 | 69.39 | 67.23 | 65.77 | 65.37 |
tagCoIR(Text2Text、コード情報検索)

CoIR は、コード検索におけるモデルの能力を評価するために設計された包括的なベンチマークです。7 つの多様なドメインにわたる 8 つの検索タスクをカバーする 10 のキュレーションされたコードデータセットが含まれています。このベンチマーク用の Python フレームワークが提供されています。
Model Name | Avg (NDCG@10) | Text-to-Code | Code-to-Text | Code-to-Code | Hybrid Code | ||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Apps | CosQA | SQL | CSN | CSN-CCR | CodeTransOcean | StackOver Flow |
CodeFeedBack | ||||||||||||||||
AVG | python | javascript | go | ruby | java | php | AVG | python | javascript | go | ruby | java | php | -Contest | -DL | -MT | -ST | ||||||
jina-reranker-m0 | 63.55 | 26.21 | 37.75 | 57.92 | 80.76 | 98.37 | 71.16 | 86.14 | 72.74 | 79.02 | 77.14 | 74.57 | 81.66 | 77.92 | 68.71 | 75.44 | 77.54 | 66.13 | 79.79 | 31.89 | 90.41 | 72.25 | 83.95 |
jina-embeddings-v2-base-code (top 100) |
56.90 | 16.34 | 41.72 | 49.79 | 83.95 | 94.71 | 76.35 | 87.39 | 78.23 | 82.69 | 84.35 | 59.65 | 68.23 | 62.31 | 49.15 | 65.40 | 63.89 | 48.92 | 79.20 | 30.35 | 89.42 | 49.62 | 68.93 |
bge-reranker-v2-m3 | 35.97 | 8.33 | 30.06 | 50.63 | 49.26 | 67.62 | 39.55 | 58.11 | 41.37 | 44.77 | 44.13 | 40.81 | 42.57 | 42.75 | 38.04 | 38.04 | 41.73 | 41.73 | 34.93 | 5.09 | 60.12 | 16.44 | 64.05 |
jina-reranker-v2-multilingual | 56.14 | 21.90 | 37.26 | 53.56 | 78.88 | 97.83 | 67.43 | 84.64 | 68.93 | 75.73 | 78.71 | 63.59 | 72.62 | 67.80 | 55.07 | 67.25 | 64.25 | 54.54 | 73.67 | 25.74 | 91.24 | 42.03 | 73.59 |
tagViDoRe(Text2Image、ビジュアルドキュメント検索ベンチマーク)

ViDoRe は、ビジュアル特徴を使用してクエリを関連文書にマッチングする能力を評価するためのベンチマークです。複数のドメインと言語にわたるページレベルの検索タスクをカバーしています。このベンチマークは文書のビジュアル要素に焦点を当てています。
Model Name | AVG (NDCG@5) |
TAT-DQA | Shift Project |
Artificial Intelligence |
Government Reports |
ArxivQA | DocVQA | Healthcare Industry |
InfoVQA | Energy | TabFQuad |
---|---|---|---|---|---|---|---|---|---|---|---|
jina-reranker-m0 | 91.02 | 81.83 | 93.22 | 99.63 | 97.59 | 89.82 | 62.58 | 99.26 | 92.88 | 96.06 | 97.32 |
MrLight/dse-qwen2-2b-mr1-v1 | 84.48 | 66.64 | 79.39 | 96.45 | 95.30 | 84.53 | 55.47 | 96.85 | 86.39 | 91.80 | 92.03 |
MonoQwen2-VL-v0.1 | 87.64 | 79.50 | 76.38 | 98.39 | 93.63 | 89.50 | 57.47 | 98.39 | 92.12 | 95.29 | 95.75 |
tagM-BEIR(Text2Image、Image2Text、教示型検索のマルチモーダルベンチマーク)

M-BEIR は、マルチモーダル検索モデルのトレーニングと評価のために設計された包括的な大規模検索ベンチマークです。様々な分野とソースから8つのマルチモーダル検索タスクと10のデータセットで構成されています。このベンチマークは指示に従う検索に焦点を当てています。
Model | MBEIR t2i VisualNews Recall@5 |
MBEIR t2i MSCOCO Recall@5 |
MBEIR t2i Fashion200K Recall@10 |
MBEIR i2t VisualNews Recall@5 |
MBEIR i2t MSCOCO Recall@5 |
MBEIR i2t Fashion200K Recall@10 |
---|---|---|---|---|---|---|
jina-reranker-m0 | 23.89 | 72.19 | 9.79 | 17.61 | 41.21 | 11.56 |
jinaai/jina-clip-v2 | 15.42 | 52.28 | 7.03 | 11.63 | 28.80 | 8.78 |
MonoQwen2-VL-v0.1 | 22.74 | 71.29 | 10.00 | 15.08 | 42.24 | 11.25 |
tagWinoground(Text2Text、Text2Image)

Winoground は、視覚言語モデルの視覚言語的な構成推論能力を評価するための新しいタスクとデータセットです。同一の単語内容を持つ双子のキャプションを使用し、対照的な画像とキャプションのペアを採用しています。焦点は構成的推論に当てられています。
Model | Text | Image | Group | Avg |
---|---|---|---|---|
jina-reranker-m0 | 57.00 | 40.75 | 34.00 | 43.92 |
MrLight/dse-qwen2-2b-mrl-v1 | 7.50 | 9.25 | 1.75 | 6.17 |
MonoQwen2-VL-v0.1 | 52.00 | 36.25 | 31.50 | 39.92 |
Winoground は、3つの主要な指標を使用して視覚言語モデルを評価します:Text Score、Image Score、Group Score です。Text Score はモデルがキャプションを画像に正しくマッチングできるかを測定し、Image Score はキャプションに対して正しい画像を選択できるかを評価します。最も厳密な指標である Group Score は、すべてのキャプションと画像の関係を正しく識別することを要求します。スコアは精度を示すパーセンテージで、高いほど推論能力が優れていることを示します。
tag結論
jina-reranker-m0 は、テキストと視覚のモダリティを単一のデコーダーオンリーモデルに統合する私たちの最初の試みです。この新しいアーキテクチャには、jina-clip-v2、jina-embeddings-v3、jina-reranker-v2-base-multilingual、jina-embeddings-v2-base-code などの以前のエンコーダーオンリー検索モデルから学んだ教訓が組み込まれています。
新しいモデルは、テキストから画像へのリランキングや視覚的文書のリランキングなどのマルチモーダル検索タスクの機能を解放するだけでなく、テキストからテキスト、テキストからコードへのリランキングタスクにおいて jina-reranker-v2-base-multilingual と比較して改善されたパフォーマンスを示しています。このマルチモーダルな性質を強調するため、この新しいモデルシリーズを「m シリーズ」と名付けました。
jina-reranker-m0 と jina-reranker-v2-base-multilingual を比較する際、m シリーズの目標は、専用のテキストオンリーモデルと同等のレベルでテキストオンリータスクのパフォーマンスを向上させながら、マルチモダリティを実現することです。テキストオンリータスクでのパフォーマンス向上が限定的に見える場合に、8倍大きいモデルを使用する価値について疑問に思う人もいるかもしれません。現時点では m0
がテキストオンリーのアプリケーションにおいて v2
に比べて大きな付加価値を提供しないかもしれませんが、デコーダーオンリーアーキテクチャは、エンコーダーオンリーアーキテクチャでは実現できなかった多くの新しい可能性を開きます:
- 真のミックスモダリティリランキング
- リストワイズリランキングと文書の重複排除
- アテンションメカニズムによるランキングスコアの説明可能性
今後の取り組みでは、テキストオンリーリランカーのさらなるアップグレードと、このマルチモーダルアーキテクチャによって可能となった新機能を十分に活用して、より良い、そしてより広い検索を実現することに焦点を当てていきます。