
今天我们发布了 jina-reranker-m0,这是我们新的多语言多模态重排模型,用于跨多语言的视觉文档排序:它接受一个查询以及一系列包含丰富视觉内容的文档图像,包括带有文本、图表、表格、信息图表的页面,以及跨越多个领域和超过 29 种语言的各种布局。它输出一个按照与输入查询相关性排序的文档列表。与 jina-reranker-v2-base-multilingual 相比,jina-reranker-m0 在多语言内容、长文档和代码搜索任务的文本重排方面也有所改进。


tag新架构
与 jina-reranker-v2-base-multilingual 不同,jina-reranker-m0 从经典的交叉编码器架构转向了仅解码器的视觉语言模型。它利用了预训练的 Qwen2-VL 的视觉编码器和投影器,使用 LoRA 微调了其 LLM,并后训练了一个 MLP 来生成衡量查询-文档相关性的排序 logits。这提供了一个针对排序任务优化的判别模型。
jina-reranker-m0 | jina-reranker-v2 |
|
---|---|---|
架构 | 视觉语言模型 | 交叉编码器 |
基础模型 | Qwen2-VL-2B | Jina-XLM-RoBERTa |
参数量 | 2.4 B | 278 M |
最大上下文长度(查询 + 文档) | 10,240 | 8,192 |
最大图像块(动态分辨率) | 768 × 28 × 28 | ❌ |
多语言支持 | ✅ | ✅ |
支持的任务 | Text2Text, Text2Image, Image2Text, Text2Mixed | Text2Text |
这种新架构使 jina-reranker-m0 能够处理多达 32K 个 token,无缝地结合视觉和文本输入。该模型支持从最小 56×56 像素到 4K 分辨率的图像。在处理图像时,ViT 和投影器将相邻的 2×2 token 压缩为单个视觉 token 作为 LLM 输入。特殊 token 如 <|vision_start|>
和 <|vision_end|>
清晰地标记了视觉 token 的边界,使语言模型能够正确处理视觉信息并执行结合视觉和文本元素的复杂多模态推理。
这种架构还有效地解决了之前困扰 jina-clip-v1 和 jina-clip-v2 等模型的模态差距问题。以前,图像会在表示空间中聚集在其他图像附近,而文本会聚集在其他文本附近,造成断开。这意味着当你的候选文档同时包含图像和文本时,使用文本查询检索图像会有问题。使用 jina-reranker-m0,你现在可以一起对图像和文档进行排序而无需担心这个差距,创造真正统一的多模态搜索体验。
值得注意的是,我们的训练限制在最多 10K 输入 token,每个图像最多 768 个 token(在 <|vision_start|>
和 <|vision_end|>
标记之间)。此外,我们没有专门训练模型用于 image-to-image
、image-to-multimodal
或 text-to-multimodal
重排任务。在这种情况下,"多模态"指的是输入中的单个文档同时包含图像和文本 token。查看查询和文档中图像和文本 token 的所有可能组合,我们可以在下表中总结 jina-reranker-m0 支持的完整任务范围。

在我们的测试中,我们发现一些证据表明该模型可以推广到这些未经训练的排序任务,但这些领域的任何效果都应被视为模型零样本迁移能力或意外训练副作用的结果。我们尚未对模型在这些任务上的表现进行严格评估,并计划在未来的研究中更深入地探索这些能力。
tag入门
tag通过 API
下面的代码展示了如何计算查询 "small language model data extraction"
与一系列图像和文本文档之间的相关性分数。你可以传入文本字符串、base64 编码的图像或图像 URL。新用户可以获得一个包含 100 万个免费 token 的 Jina API 密钥。虽然我们的 API 不支持使用图像作为查询,但当通过 Hugging Face Transformers 库访问模型时,你可以使用图像作为查询。
curl -X POST \
https://api.jina.ai/v1/rerank \
-H "Content-Type: application/json" \
-H "Authorization: Bearer JINA_API_KEY" \
-d '{
"model": "jina-reranker-m0",
"query": "small language model data extraction",
"documents": [
{
"image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/handelsblatt-preview.png"
},
{
"image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/paper-11.png"
},
{
"image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/wired-preview.png"
},
{
"text": "We present ReaderLM-v2, a compact 1.5 billion parameter language model designed for efficient web content extraction. Our model processes documents up to 512K tokens, transforming messy HTML into clean Markdown or JSON formats with high accuracy -- making it an ideal tool for grounding large language models. The models effectiveness results from two key innovations: (1) a three-stage data synthesis pipeline that generates high quality, diverse training data by iteratively drafting, refining, and critiquing web content extraction; and (2) a unified training framework combining continuous pre-training with multi-objective optimization. Intensive evaluation demonstrates that ReaderLM-v2 outperforms GPT-4o-2024-08-06 and other larger models by 15-20% on carefully curated benchmarks, particularly excelling at documents exceeding 100K tokens, while maintaining significantly lower computational requirements."
},
{
"image": "https://jina.ai/blog-banner/using-deepseek-r1-reasoning-model-in-deepsearch.webp"
},
{
"text": "数据提取么?为什么不用正则啊,你用正则不就全解决了么?"
},
{
"text": "During the California Gold Rush, some merchants made more money selling supplies to miners than the miners made finding gold."
},
{
"text": "Die wichtigsten Beiträge unserer Arbeit sind zweifach: Erstens führen wir eine neuartige dreistufige Datensynthese-Pipeline namens Draft-Refine-Critique ein, die durch iterative Verfeinerung hochwertige Trainingsdaten generiert; und zweitens schlagen wir eine umfassende Trainingsstrategie vor, die kontinuierliches Vortraining zur Längenerweiterung, überwachtes Feintuning mit spezialisierten Kontrollpunkten, direkte Präferenzoptimierung (DPO) und iteratives Self-Play-Tuning kombiniert. Um die weitere Forschung und Anwendung der strukturierten Inhaltsextraktion zu erleichtern, ist das Modell auf Hugging Face öffentlich verfügbar."
}
],
"return_documents": false
}'
响应如下所示,其中第一个结果 index=1
对应我们的 ReaderLM-v2 论文截图。
{"model":"jina-reranker-m0","usage":{"total_tokens":2829},"results":[{"index":1,"relevance_score":0.9587112551898949},{"index":3,"relevance_score":0.9337408271911014},{"index":7,"relevance_score":0.8922925217195924},{"index":2,"relevance_score":0.8891905997562045},{"index":0,"relevance_score":0.8827516945848907},{"index":4,"relevance_score":0.8701035914834407},{"index":6,"relevance_score":0.8676828987527296},{"index":5,"relevance_score":0.8455347349164652}]}
tag通过云服务提供商市场
jina-reranker-m0 很快将直接在 AWS、Azure 和 GCP 上提供,价格将在那里列出。
tag通过 HuggingFace
你也可以从我们的 Hugging Face 页面本地使用该模型。我们准备了一个 Google Colab 笔记本来演示它是如何工作的。与我们的 Web API 相比,本地使用模型提供了更大的灵活性,比如能够使用图像作为查询并处理多模态文档。

tag评估
完整评估结果可在此 Google 电子表格中找到。
tagBEIR(文本到文本,仅英语)

BEIR 是一个异构的信息检索基准,旨在评估 IR 模型的通用性和稳健性。它包含来自各个领域的多样化数据集,并专注于零样本评估。使用标准化的评估指标,如 NDCG、Recall@K 和 MRR。
Model | AVG (NDCG@10) | TREC-COVID | NFCorpus | NQ | HotpotQA | FiQA | ArguAna | Touche-2020 | DBPedia | SCIDOCS | FEVER | Climate-FEVER | SciFact | Quora |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
jina-reranker-m0 | 58.95 | 84.17 | 41.03 | 72.25 | 76.99 | 51.62 | 40.69 | 31.79 | 49.34 | 22.91 | 91.14 | 36.42 | 79.94 | 88.01 |
jina-embeddings-v3 (1024 tokens) | 55.81 | 77.81 | 36.65 | 64.31 | 64.63 | 47.47 | 54.31 | 26.55 | 41.07 | 19.91 | 89.00 | 42.33 | 72.4 | 89.06 |
bge-reranker-v2-m3 | 56.51 | 82.19 | 34.33 | 69.52 | 77.89 | 45.45 | 36.21 | 33.12 | 46.72 | 17.79 | 91.03 | 38.69 | 72.64 | 89.10 |
jina-reranker-v2-multilingual | 57.06 | 80.53 | 37.17 | 67.39 | 76.17 | 46.48 | 39.28 | 32.35 | 47.81 | 20.03 | 93.02 | 37.17 | 76.50 | 87.83 |
tagMIRACL(文本到文本,多语言,18 种语言)

MIRACL 是一个大规模的多语言信息检索数据集,覆盖了 18 种语言。它涵盖了超过 30 亿母语使用者,并具有完整的人工标注。该数据集主要关注单语言检索任务。
Model | AVG (NDCG@10) | ar | bn | en | es | fa | fi | fr | hi | id | ja | ko | ru | sw | te | th | zh | de | yo |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
jina-reranker-m0 | 66.75 | 79.78 | 78.01 | 59.21 | 53.56 | 58.80 | 78.00 | 56.66 | 62.83 | 54.92 | 66.51 | 72.86 | 67.26 | 59.04 | 70.19 | 80.37 | 64.51 | 58.50 | 80.44 |
jina-embeddings-v3 (8192 tokens) | 58.90 | 71.53 | 69.86 | 48.37 | 46.91 | 54.13 | 71.15 | 50.90 | 55.05 | 47.83 | 56.46 | 64.76 | 55.63 | 54.07 | 70.48 | 73.56 | 55.29 | 49.18 | 65.01 |
bge-reranker-v2-m3 | 69.32 | 80.51 | 81.85 | 57.67 | 57.64 | 61.92 | 80.38 | 59.60 | 67.66 | 58.86 | 67.37 | 75.14 | 67.61 | 68.92 | 76.69 | 82.29 | 64.46 | 58.32 | 80.85 |
jina-reranker-v2-multilingual | 63.65 | 72.50 | 79.42 | 46.66 | 51.54 | 57.81 | 73.05 | 50.90 | 60.94 | 56.66 | 59.15 | 72.60 | 53.43 | 66.47 | 74.62 | 77.75 | 62.49 | 53.06 | 76.69 |
tagMLDR(Text2Text,多语言长文档,13 种语言)

MLDR 是一个专门为长文档检索设计的多语言数据集,涵盖 13 种语言。它使用 GPT-3.5 为文档生成问题。该数据集基于 Wikipedia、Wudao 和 mC4 构建。
Model | AVG (NDCG@10) | ar | de | en | es | fr | hi | it | ja | ko | pt | ru | th | zh |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
jina-reranker-m0 | 59.83 | 55.86 | 51.25 | 54.67 | 87.63 | 82.59 | 32.76 | 73.25 | 58.93 | 55.73 | 86.08 | 66.73 | 39.17 | 33.14 |
jina-embeddings-v3 (8192 tokens) | 39.71 | 28.44 | 31.57 | 29.07 | 62.08 | 59.79 | 25.47 | 53.72 | 38.36 | 32.37 | 63.26 | 49.65 | 25.15 | 17.26 |
bge-reranker-v2-m3 | 53.53 | 49.19 | 45.39 | 43.92 | 74.57 | 68.67 | 44.75 | 62.79 | 49.27 | 48.24 | 76.45 | 62.84 | 38.82 | 31.02 |
jina-reranker-v2-multilingual | 59.50 | 51.96 | 50.13 | 46.85 | 86.34 | 82.25 | 49.50 | 69.00 | 59.07 | 52.19 | 85.26 | 68.06 | 38.73 | 34.15 |
tagMKQA(Text2Text,多语言问答,24 种语言,中文有 3 种变体)

MKQA 是一个开放域问答评估集,包含了 10k 个问答对,这些问答对在 26 种具有不同类型特征的语言之间进行了对齐。问答对是从 Google Natural Questions 中采样得到的。
Model | AVG (recall@10) | ar | da | de | es | en | fi | fr | he | hu | it | ja | km | ko | ms | nl | no | pl | pt | ru | sv | th | tr | vi | zh_cn | zh_hk | zh_tw |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
jina-reranker-m0 | 68.19 | 63.88 | 70.57 | 70.52 | 71.26 | 73.47 | 64.10 | 71.11 | 63.68 | 63.23 | 70.30 | 69.13 | 50.43 | 64.30 | 70.78 | 71.73 | 70.25 | 69.72 | 70.57 | 70.78 | 70.69 | 69.80 | 67.90 | 69.68 | 69.12 | 68.23 | 67.79 |
jina-embeddings-v3 (8192 tokens) | 65.63 | 59.00 | 69.12 | 68.27 | 68.15 | 71.14 | 65.66 | 68.30 | 59.51 | 63.23 | 68.30 | 64.36 | 56.13 | 58.98 | 68.30 | 69.53 | 68.65 | 67.26 | 67.93 | 67.06 | 68.68 | 66.32 | 66.97 | 66.87 | 63.38 | 63.59 | 61.55 |
bge-reranker-v2-m3 | 67.88 | 63.09 | 70.15 | 68.91 | 68.92 | 73.00 | 68.71 | 68.71 | 70.27 | 64.00 | 68.15 | 68.47 | 60.43 | 63.95 | 68.80 | 70.77 | 69.10 | 67.44 | 67.40 | 69.77 | 70.03 | 69.68 | 66.04 | 68.29 | 67.84 | 66.70 | 66.34 |
jina-reranker-v2-multilingual | 67.90 | 63.88 | 70.31 | 70.09 | 70.51 | 73.09 | 67.50 | 70.38 | 63.00 | 64.59 | 69.90 | 67.34 | 57.79 | 62.14 | 70.36 | 71.58 | 69.51 | 68.61 | 70.13 | 70.07 | 70.15 | 68.80 | 68.02 | 69.39 | 67.23 | 65.77 | 65.37 |
tagCoIR(文本到文本,代码信息检索)

CoIR 是一个综合性基准测试,旨在评估模型在代码检索方面的能力。它包含 10 个精选的代码数据集,涵盖 7 个不同领域的 8 个检索任务。该基准测试提供了一个 Python 框架。
Model Name | Avg (NDCG@10) | Text-to-Code | Code-to-Text | Code-to-Code | Hybrid Code | ||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Apps | CosQA | SQL | CSN | CSN-CCR | CodeTransOcean | StackOver Flow |
CodeFeedBack | ||||||||||||||||
AVG | python | javascript | go | ruby | java | php | AVG | python | javascript | go | ruby | java | php | -Contest | -DL | -MT | -ST | ||||||
jina-reranker-m0 | 63.55 | 26.21 | 37.75 | 57.92 | 80.76 | 98.37 | 71.16 | 86.14 | 72.74 | 79.02 | 77.14 | 74.57 | 81.66 | 77.92 | 68.71 | 75.44 | 77.54 | 66.13 | 79.79 | 31.89 | 90.41 | 72.25 | 83.95 |
jina-embeddings-v2-base-code (top 100) |
56.90 | 16.34 | 41.72 | 49.79 | 83.95 | 94.71 | 76.35 | 87.39 | 78.23 | 82.69 | 84.35 | 59.65 | 68.23 | 62.31 | 49.15 | 65.40 | 63.89 | 48.92 | 79.20 | 30.35 | 89.42 | 49.62 | 68.93 |
bge-reranker-v2-m3 | 35.97 | 8.33 | 30.06 | 50.63 | 49.26 | 67.62 | 39.55 | 58.11 | 41.37 | 44.77 | 44.13 | 40.81 | 42.57 | 42.75 | 38.04 | 38.04 | 41.73 | 41.73 | 34.93 | 5.09 | 60.12 | 16.44 | 64.05 |
jina-reranker-v2-multilingual | 56.14 | 21.90 | 37.26 | 53.56 | 78.88 | 97.83 | 67.43 | 84.64 | 68.93 | 75.73 | 78.71 | 63.59 | 72.62 | 67.80 | 55.07 | 67.25 | 64.25 | 54.54 | 73.67 | 25.74 | 91.24 | 42.03 | 73.59 |
tagViDoRe(文本到图像、视觉文档检索基准)

ViDoRe 是一个专门设计的基准测试,用于评估检索系统在使用视觉特征匹配查询与相关文档的能力。它涵盖了多个领域和语言的各种页面级检索任务。该基准测试重点关注文档的视觉元素。
Model Name | AVG (NDCG@5) |
TAT-DQA | Shift Project |
Artificial Intelligence |
Government Reports |
ArxivQA | DocVQA | Healthcare Industry |
InfoVQA | Energy | TabFQuad |
---|---|---|---|---|---|---|---|---|---|---|---|
jina-reranker-m0 | 91.02 | 81.83 | 93.22 | 99.63 | 97.59 | 89.82 | 62.58 | 99.26 | 92.88 | 96.06 | 97.32 |
MrLight/dse-qwen2-2b-mr1-v1 | 84.48 | 66.64 | 79.39 | 96.45 | 95.30 | 84.53 | 55.47 | 96.85 | 86.39 | 91.80 | 92.03 |
MonoQwen2-VL-v0.1 | 87.64 | 79.50 | 76.38 | 98.39 | 93.63 | 89.50 | 57.47 | 98.39 | 92.12 | 95.29 | 95.75 |
tagM-BEIR(文本到图像、图像到文本、多模态指令检索基准)

M-BEIR 是一个全面的大规模检索基准,旨在训练和评估多模态检索模型。它包含八个多模态检索任务和来自各种领域和来源的十个数据集。该基准测试重点关注指令遵循检索。
Model | MBEIR t2i VisualNews Recall@5 |
MBEIR t2i MSCOCO Recall@5 |
MBEIR t2i Fashion200K Recall@10 |
MBEIR i2t VisualNews Recall@5 |
MBEIR i2t MSCOCO Recall@5 |
MBEIR i2t Fashion200K Recall@10 |
---|---|---|---|---|---|---|
jina-reranker-m0 | 23.89 | 72.19 | 9.79 | 17.61 | 41.21 | 11.56 |
jinaai/jina-clip-v2 | 15.42 | 52.28 | 7.03 | 11.63 | 28.80 | 8.78 |
MonoQwen2-VL-v0.1 | 22.74 | 71.29 | 10.00 | 15.08 | 42.24 | 11.25 |
tagWinoground(文本到文本、文本到图像)

Winoground 是一个新颖的任务和数据集,用于评估视觉和语言模型进行视觉语言组合推理的能力。它使用具有相同词汇内容的双胞胎标题,并采用对比性的图像-标题配对。其重点在于组合推理。
Model | Text | Image | Group | Avg |
---|---|---|---|---|
jina-reranker-m0 | 57.00 | 40.75 | 34.00 | 43.92 |
MrLight/dse-qwen2-2b-mrl-v1 | 7.50 | 9.25 | 1.75 | 6.17 |
MonoQwen2-VL-v0.1 | 52.00 | 36.25 | 31.50 | 39.92 |
Winoground 使用三个关键指标来评估视觉语言模型:文本得分、图像得分和组合得分。文本得分衡量模型是否正确地将标题与图像匹配,而图像得分评估模型是否为标题选择了正确的图像。组合得分是最严格的指标,要求所有标题-图像关系都被正确识别。得分以百分比表示准确率,分数越高表示推理能力越强。
tag结论
jina-reranker-m0 是我们首次尝试在单个仅解码器模型中统一文本和视觉模态。这种新架构吸收了我们之前仅编码器检索模型的经验教训,包括 jina-clip-v2、jina-embeddings-v3、jina-reranker-v2-base-multilingual 和 jina-embeddings-v2-base-code。
新模型不仅解锁了多模态检索任务的能力,如文本到图像重排序和视觉文档重排序,而且在文本到文本和文本到代码重排序任务上相比 jina-reranker-v2-base-multilingual 展现出更好的性能。我们将这个新模型系列命名为"m 系列"以突出其多模态特性。
在比较 jina-reranker-m0 与 jina-reranker-v2-base-multilingual 时,我们对 m 系列的目标是在实现多模态的同时,在纯文本任务上达到与专门的纯文本模型相当的性能提升。有人可能会质疑,如果在纯文本任务上性能提升看似不大,使用 8 倍大的模型是否值得。虽然目前对于纯文本应用来说,m0
相比 v2
可能没有提供显著的附加价值,但仅解码器架构开启了许多在仅编码器架构下无法实现的新可能性,包括:
- 真正的混合模态重排序
- 列表式重排序和文档去重
- 通过注意力机制实现排序分数可解释性
我们未来的工作将专注于进一步升级纯文本重排序器,并充分利用这种多模态架构开启的新特性,以实现更好且更加广泛的搜索。