
今天我們發布了 jina-reranker-m0,這是我們新的多語言多模態重排序模型,用於跨多種語言對視覺文件進行排序:它接受查詢以及一系列視覺豐富的文件圖像,包括含有文字、圖表、表格、資訊圖表的頁面,以及跨越多個領域和超過 29 種語言的各種版面配置。它會輸出一個根據與輸入查詢相關性排序的文件列表。與 jina-reranker-v2-base-multilingual 相比,jina-reranker-m0 還改進了多語言內容、長文件和程式碼搜尋任務的文字重排序效果。


tag新架構
與 jina-reranker-v2-base-multilingual 不同,jina-reranker-m0 從傳統的交叉編碼器架構轉向只解碼器視覺語言模型。它利用了預訓練的 Qwen2-VL 的視覺編碼器和投影器,通過 LoRA 微調了其 LLM,並後訓練了一個 MLP 來生成衡量查詢-文件相關性的排序邏輯。這形成了一個針對排序任務優化的判別模型。
jina-reranker-m0 | jina-reranker-v2 |
|
---|---|---|
架構 | 視覺語言模型 | 交叉編碼器 |
基礎模型 | Qwen2-VL-2B | Jina-XLM-RoBERTa |
參數量 | 2.4 B | 278 M |
最大上下文長度(查詢 + 文件) | 10,240 | 8,192 |
最大圖像塊(動態解析度) | 768 × 28 × 28 | ❌ |
多語言支援 | ✅ | ✅ |
支援的任務 | Text2Text、Text2Image、Image2Text、Text2Mixed | Text2Text |
這種新架構使 jina-reranker-m0 能夠處理高達 32K 的標記,無縫結合視覺和文字輸入。該模型支援從最小 56×56 像素到 4K 解析度的圖像。在處理圖像時,ViT 和投影器將相鄰的 2×2 標記壓縮成單個視覺標記供 LLM 輸入。特殊標記如 <|vision_start|>
和 <|vision_end|>
清晰地標記視覺標記邊界,使語言模型能夠正確處理視覺資訊並執行結合視覺和文字元素的複雜多模態推理。
這種架構還有效解決了困擾早期模型如 jina-clip-v1 和 jina-clip-v2 的模態差距問題。此前,圖像會聚集在其他圖像附近,而文字會聚集在其他文字附近的表示空間中,造成斷裂。這意味著當你的候選文件同時包含圖像和文字時,使用文字查詢檢索圖像會有問題。有了 jina-reranker-m0,你現在可以不用擔心這個差距就能同時對圖像和文件進行排序,創造真正統一的多模態搜尋體驗。
值得注意的是,我們的訓練限制在最多 10K 輸入標記,每張圖像最多 768 個標記(在 <|vision_start|>
和 <|vision_end|>
標記之間)。此外,我們沒有特別訓練模型用於 image-to-image
、image-to-multimodal
或 text-to-multimodal
重排序任務。在這種情況下,「多模態」指的是單個文件在輸入中同時包含圖像和文字標記。查看查詢和文件中圖像和文字標記的所有可能組合,我們可以在下表中總結 jina-reranker-m0 支援的完整任務範圍。

在我們的測試中,我們發現一些證據表明該模型可以推廣到這些未經訓練的排序任務,但在這些領域的任何有效性都應被視為模型零樣本遷移能力或非預期訓練副作用的結果。我們尚未對模型在這些任務上的表現進行嚴格評估,並計劃在未來的研究中更徹底地探索這些能力。
tag開始使用
tag透過 API
以下程式碼展示了如何計算查詢 "small language model data extraction"
與一系列圖像和文字文件之間的相關性分數。您可以傳入文字字串、base64 編碼的圖像或圖像 URL。新使用者可以獲得一個包含 100 萬個免費 token 的 Jina API 金鑰。雖然我們的 API 不支援使用圖像作為查詢,但當您通過 Hugging Face Transformers 函式庫訪問模型時,可以使用圖像作為查詢。
curl -X POST \
https://api.jina.ai/v1/rerank \
-H "Content-Type: application/json" \
-H "Authorization: Bearer JINA_API_KEY" \
-d '{
"model": "jina-reranker-m0",
"query": "small language model data extraction",
"documents": [
{
"image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/handelsblatt-preview.png"
},
{
"image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/paper-11.png"
},
{
"image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/wired-preview.png"
},
{
"text": "We present ReaderLM-v2, a compact 1.5 billion parameter language model designed for efficient web content extraction. Our model processes documents up to 512K tokens, transforming messy HTML into clean Markdown or JSON formats with high accuracy -- making it an ideal tool for grounding large language models. The models effectiveness results from two key innovations: (1) a three-stage data synthesis pipeline that generates high quality, diverse training data by iteratively drafting, refining, and critiquing web content extraction; and (2) a unified training framework combining continuous pre-training with multi-objective optimization. Intensive evaluation demonstrates that ReaderLM-v2 outperforms GPT-4o-2024-08-06 and other larger models by 15-20% on carefully curated benchmarks, particularly excelling at documents exceeding 100K tokens, while maintaining significantly lower computational requirements."
},
{
"image": "https://jina.ai/blog-banner/using-deepseek-r1-reasoning-model-in-deepsearch.webp"
},
{
"text": "数据提取么?为什么不用正则啊,你用正则不就全解决了么?"
},
{
"text": "During the California Gold Rush, some merchants made more money selling supplies to miners than the miners made finding gold."
},
{
"text": "Die wichtigsten Beiträge unserer Arbeit sind zweifach: Erstens führen wir eine neuartige dreistufige Datensynthese-Pipeline namens Draft-Refine-Critique ein, die durch iterative Verfeinerung hochwertige Trainingsdaten generiert; und zweitens schlagen wir eine umfassende Trainingsstrategie vor, die kontinuierliches Vortraining zur Längenerweiterung, überwachtes Feintuning mit spezialisierten Kontrollpunkten, direkte Präferenzoptimierung (DPO) und iteratives Self-Play-Tuning kombiniert. Um die weitere Forschung und Anwendung der strukturierten Inhaltsextraktion zu erleichtern, ist das Modell auf Hugging Face öffentlich verfügbar."
}
],
"return_documents": false
}'
回應如下所示,其中第一個結果 index=1
對應於我們的 ReaderLM-v2 論文截圖。
{"model":"jina-reranker-m0","usage":{"total_tokens":2829},"results":[{"index":1,"relevance_score":0.9587112551898949},{"index":3,"relevance_score":0.9337408271911014},{"index":7,"relevance_score":0.8922925217195924},{"index":2,"relevance_score":0.8891905997562045},{"index":0,"relevance_score":0.8827516945848907},{"index":4,"relevance_score":0.8701035914834407},{"index":6,"relevance_score":0.8676828987527296},{"index":5,"relevance_score":0.8455347349164652}]}
tag透過 CSP 市集
jina-reranker-m0 很快就會在 AWS、Azure 和 GCP 上直接提供,價格將列於其中。
tag透過 HuggingFace
您也可以從我們的 Hugging Face 頁面在本地使用該模型。我們準備了一個 Google Colab 筆記本來展示其工作原理。與我們的網頁 API 相比,本地使用模型提供更大的靈活性,例如能夠使用圖像作為查詢並處理多模態文件。

tag評估
完整評估結果可在此 Google 試算表中查看。
tagBEIR(文字對文字,僅英文)

BEIR 是一個異質性的資訊檢索基準測試,旨在評估 IR 模型的多樣性和穩健性。它包含來自各個領域的多元數據集,並專注於零樣本評估。使用標準化的評估指標,如 NDCG、Recall@K 和 MRR。
Model | AVG (NDCG@10) | TREC-COVID | NFCorpus | NQ | HotpotQA | FiQA | ArguAna | Touche-2020 | DBPedia | SCIDOCS | FEVER | Climate-FEVER | SciFact | Quora |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
jina-reranker-m0 | 58.95 | 84.17 | 41.03 | 72.25 | 76.99 | 51.62 | 40.69 | 31.79 | 49.34 | 22.91 | 91.14 | 36.42 | 79.94 | 88.01 |
jina-embeddings-v3 (1024 tokens) | 55.81 | 77.81 | 36.65 | 64.31 | 64.63 | 47.47 | 54.31 | 26.55 | 41.07 | 19.91 | 89.00 | 42.33 | 72.4 | 89.06 |
bge-reranker-v2-m3 | 56.51 | 82.19 | 34.33 | 69.52 | 77.89 | 45.45 | 36.21 | 33.12 | 46.72 | 17.79 | 91.03 | 38.69 | 72.64 | 89.10 |
jina-reranker-v2-multilingual | 57.06 | 80.53 | 37.17 | 67.39 | 76.17 | 46.48 | 39.28 | 32.35 | 47.81 | 20.03 | 93.02 | 37.17 | 76.50 | 87.83 |
tagMIRACL(Text2Text,多語言,18 種語言)

MIRACL 是一個涵蓋 18 種語言的大規模多語言資訊檢索資料集。它覆蓋超過 30 億原生語言使用者,並具有詳盡的人工標註。主要專注於單語言檢索任務。
Model | AVG (NDCG@10) | ar | bn | en | es | fa | fi | fr | hi | id | ja | ko | ru | sw | te | th | zh | de | yo |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
jina-reranker-m0 | 66.75 | 79.78 | 78.01 | 59.21 | 53.56 | 58.80 | 78.00 | 56.66 | 62.83 | 54.92 | 66.51 | 72.86 | 67.26 | 59.04 | 70.19 | 80.37 | 64.51 | 58.50 | 80.44 |
jina-embeddings-v3 (8192 tokens) | 58.90 | 71.53 | 69.86 | 48.37 | 46.91 | 54.13 | 71.15 | 50.90 | 55.05 | 47.83 | 56.46 | 64.76 | 55.63 | 54.07 | 70.48 | 73.56 | 55.29 | 49.18 | 65.01 |
bge-reranker-v2-m3 | 69.32 | 80.51 | 81.85 | 57.67 | 57.64 | 61.92 | 80.38 | 59.60 | 67.66 | 58.86 | 67.37 | 75.14 | 67.61 | 68.92 | 76.69 | 82.29 | 64.46 | 58.32 | 80.85 |
jina-reranker-v2-multilingual | 63.65 | 72.50 | 79.42 | 46.66 | 51.54 | 57.81 | 73.05 | 50.90 | 60.94 | 56.66 | 59.15 | 72.60 | 53.43 | 66.47 | 74.62 | 77.75 | 62.49 | 53.06 | 76.69 |
tagMLDR(Text2Text,多語言長文件,13 種語言)

MLDR 是一個專門為長文檔檢索設計的多語言數據集,涵蓋 13 種語言。它使用 GPT-3.5 為文檔生成問題。該數據集建立在 Wikipedia、Wudao 和 mC4 的基礎之上。
Model | AVG (NDCG@10) | ar | de | en | es | fr | hi | it | ja | ko | pt | ru | th | zh |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
jina-reranker-m0 | 59.83 | 55.86 | 51.25 | 54.67 | 87.63 | 82.59 | 32.76 | 73.25 | 58.93 | 55.73 | 86.08 | 66.73 | 39.17 | 33.14 |
jina-embeddings-v3 (8192 tokens) | 39.71 | 28.44 | 31.57 | 29.07 | 62.08 | 59.79 | 25.47 | 53.72 | 38.36 | 32.37 | 63.26 | 49.65 | 25.15 | 17.26 |
bge-reranker-v2-m3 | 53.53 | 49.19 | 45.39 | 43.92 | 74.57 | 68.67 | 44.75 | 62.79 | 49.27 | 48.24 | 76.45 | 62.84 | 38.82 | 31.02 |
jina-reranker-v2-multilingual | 59.50 | 51.96 | 50.13 | 46.85 | 86.34 | 82.25 | 49.50 | 69.00 | 59.07 | 52.19 | 85.26 | 68.06 | 38.73 | 34.15 |
tagMKQA(Text2Text,多語言問答,24 種語言,中文有 3 種變體)

MKQA 是一個開放領域問答評估集,包含 10k 個問答配對,橫跨 26 種不同的類型語言。這些問答配對是從 Google Natural Questions 中取樣而來。
Model | AVG (recall@10) | ar | da | de | es | en | fi | fr | he | hu | it | ja | km | ko | ms | nl | no | pl | pt | ru | sv | th | tr | vi | zh_cn | zh_hk | zh_tw |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
jina-reranker-m0 | 68.19 | 63.88 | 70.57 | 70.52 | 71.26 | 73.47 | 64.10 | 71.11 | 63.68 | 63.23 | 70.30 | 69.13 | 50.43 | 64.30 | 70.78 | 71.73 | 70.25 | 69.72 | 70.57 | 70.78 | 70.69 | 69.80 | 67.90 | 69.68 | 69.12 | 68.23 | 67.79 |
jina-embeddings-v3 (8192 tokens) | 65.63 | 59.00 | 69.12 | 68.27 | 68.15 | 71.14 | 65.66 | 68.30 | 59.51 | 63.23 | 68.30 | 64.36 | 56.13 | 58.98 | 68.30 | 69.53 | 68.65 | 67.26 | 67.93 | 67.06 | 68.68 | 66.32 | 66.97 | 66.87 | 63.38 | 63.59 | 61.55 |
bge-reranker-v2-m3 | 67.88 | 63.09 | 70.15 | 68.91 | 68.92 | 73.00 | 68.71 | 68.71 | 70.27 | 64.00 | 68.15 | 68.47 | 60.43 | 63.95 | 68.80 | 70.77 | 69.10 | 67.44 | 67.40 | 69.77 | 70.03 | 69.68 | 66.04 | 68.29 | 67.84 | 66.70 | 66.34 |
jina-reranker-v2-multilingual | 67.90 | 63.88 | 70.31 | 70.09 | 70.51 | 73.09 | 67.50 | 70.38 | 63.00 | 64.59 | 69.90 | 67.34 | 57.79 | 62.14 | 70.36 | 71.58 | 69.51 | 68.61 | 70.13 | 70.07 | 70.15 | 68.80 | 68.02 | 69.39 | 67.23 | 65.77 | 65.37 |
tagCoIR(文本對文本,程式碼資訊檢索)

CoIR 是一個全面的基準測試,旨在評估模型在程式碼檢索方面的能力。它包含 10 個精選的程式碼數據集,涵蓋了 7 個不同領域的 8 個檢索任務。該基準測試提供了一個 Python 框架。
Model Name | Avg (NDCG@10) | Text-to-Code | Code-to-Text | Code-to-Code | Hybrid Code | ||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Apps | CosQA | SQL | CSN | CSN-CCR | CodeTransOcean | StackOver Flow |
CodeFeedBack | ||||||||||||||||
AVG | python | javascript | go | ruby | java | php | AVG | python | javascript | go | ruby | java | php | -Contest | -DL | -MT | -ST | ||||||
jina-reranker-m0 | 63.55 | 26.21 | 37.75 | 57.92 | 80.76 | 98.37 | 71.16 | 86.14 | 72.74 | 79.02 | 77.14 | 74.57 | 81.66 | 77.92 | 68.71 | 75.44 | 77.54 | 66.13 | 79.79 | 31.89 | 90.41 | 72.25 | 83.95 |
jina-embeddings-v2-base-code (top 100) |
56.90 | 16.34 | 41.72 | 49.79 | 83.95 | 94.71 | 76.35 | 87.39 | 78.23 | 82.69 | 84.35 | 59.65 | 68.23 | 62.31 | 49.15 | 65.40 | 63.89 | 48.92 | 79.20 | 30.35 | 89.42 | 49.62 | 68.93 |
bge-reranker-v2-m3 | 35.97 | 8.33 | 30.06 | 50.63 | 49.26 | 67.62 | 39.55 | 58.11 | 41.37 | 44.77 | 44.13 | 40.81 | 42.57 | 42.75 | 38.04 | 38.04 | 41.73 | 41.73 | 34.93 | 5.09 | 60.12 | 16.44 | 64.05 |
jina-reranker-v2-multilingual | 56.14 | 21.90 | 37.26 | 53.56 | 78.88 | 97.83 | 67.43 | 84.64 | 68.93 | 75.73 | 78.71 | 63.59 | 72.62 | 67.80 | 55.07 | 67.25 | 64.25 | 54.54 | 73.67 | 25.74 | 91.24 | 42.03 | 73.59 |
tagViDoRe(文本轉圖像、視覺文件檢索基準測試)

ViDoRe 是一個專門設計用來評估檢索系統在使用視覺特徵匹配查詢與相關文件能力的基準測試。它涵蓋了多個領域和語言的各種頁面級檢索任務。該基準測試主要關注文件的視覺元素。
Model Name | AVG (NDCG@5) |
TAT-DQA | Shift Project |
Artificial Intelligence |
Government Reports |
ArxivQA | DocVQA | Healthcare Industry |
InfoVQA | Energy | TabFQuad |
---|---|---|---|---|---|---|---|---|---|---|---|
jina-reranker-m0 | 91.02 | 81.83 | 93.22 | 99.63 | 97.59 | 89.82 | 62.58 | 99.26 | 92.88 | 96.06 | 97.32 |
MrLight/dse-qwen2-2b-mr1-v1 | 84.48 | 66.64 | 79.39 | 96.45 | 95.30 | 84.53 | 55.47 | 96.85 | 86.39 | 91.80 | 92.03 |
MonoQwen2-VL-v0.1 | 87.64 | 79.50 | 76.38 | 98.39 | 93.63 | 89.50 | 57.47 | 98.39 | 92.12 | 95.29 | 95.75 |
tagM-BEIR(Text2Image、Image2Text、基於指令的多模態檢索基準測試)

M-BEIR 是一個全面的大規模檢索基準測試,專門用於訓練和評估多模態檢索模型。它包含八種多模態檢索任務和來自各種領域和來源的十個數據集。該基準測試主要關注遵循指令的檢索能力。
Model | MBEIR t2i VisualNews Recall@5 |
MBEIR t2i MSCOCO Recall@5 |
MBEIR t2i Fashion200K Recall@10 |
MBEIR i2t VisualNews Recall@5 |
MBEIR i2t MSCOCO Recall@5 |
MBEIR i2t Fashion200K Recall@10 |
---|---|---|---|---|---|---|
jina-reranker-m0 | 23.89 | 72.19 | 9.79 | 17.61 | 41.21 | 11.56 |
jinaai/jina-clip-v2 | 15.42 | 52.28 | 7.03 | 11.63 | 28.80 | 8.78 |
MonoQwen2-VL-v0.1 | 22.74 | 71.29 | 10.00 | 15.08 | 42.24 | 11.25 |
tagWinoground(Text2Text、Text2Image)

Winoground 是一個新穎的任務和資料集,用於評估視覺和語言模型進行視覺語言組合推理的能力。它使用具有相同詞彙內容的雙胞胎字幕,並採用對比式的圖像-字幕配對。重點在於組合推理。
Model | Text | Image | Group | Avg |
---|---|---|---|---|
jina-reranker-m0 | 57.00 | 40.75 | 34.00 | 43.92 |
MrLight/dse-qwen2-2b-mrl-v1 | 7.50 | 9.25 | 1.75 | 6.17 |
MonoQwen2-VL-v0.1 | 52.00 | 36.25 | 31.50 | 39.92 |
Winoground 使用三個關鍵指標來評估視覺語言模型:Text Score、Image Score 和 Group Score。Text Score 衡量模型是否正確地將字幕與圖像配對,而 Image Score 則評估模型是否為字幕選擇正確的圖像。Group Score 是最嚴格的指標,要求所有字幕-圖像關係都必須被正確識別。這些分數以百分比表示準確率,分數越高表示推理能力越好。
tag結論
jina-reranker-m0 是我們首次嘗試在單一 decoder-only 模型中統一文本和視覺模態。這個新架構整合了我們從先前的 encoder-only 檢索模型中學到的經驗,包括 jina-clip-v2、jina-embeddings-v3、jina-reranker-v2-base-multilingual 和 jina-embeddings-v2-base-code。
新模型不僅解鎖了多模態檢索任務的能力,如文本到圖像重排序和視覺文件重排序,而且在文本到文本和文本到程式碼重排序任務上,相較於 jina-reranker-v2-base-multilingual 也展現了更好的表現。我們將這個新模型系列稱為「m-series」,以突顯其多模態特性。
在比較 jina-reranker-m0 和 jina-reranker-v2-base-multilingual 時,我們對 m-series 的目標是在實現多模態的同時,在純文本任務上能達到與專門的純文本模型相當的性能。有人可能會質疑,如果在純文本任務上的性能提升看起來微不足道,使用一個大 8 倍的模型是否值得。雖然目前 m0
在純文本應用上可能不會比 v2
帶來顯著的額外價值,但 decoder-only 架構開啟了許多使用 encoder-only 架構無法實現的新可能性,包括:
- 真正的混合模態重排序
- 列表式重排序和文件去重
- 通過注意力機制解釋排名分數
我們未來的工作將專注於進一步升級純文本重排序器,並充分利用這個多模態架構所啟用的新功能,以實現更好且更廣泛的搜尋。