jina-reranker-m0：多语言多模态文档重排模型

今天我们发布了 jina-reranker-m0，这是我们新的多语言多模态重排模型，用于跨多语言的视觉文档排序：它接受一个查询以及一系列包含丰富视觉内容的文档图像，包括带有文本、图表、表格、信息图表的页面，以及跨越多个领域和超过 29 种语言的各种布局。它输出一个按照与输入查询相关性排序的文档列表。与 jina-reranker-v2-base-multilingual 相比，jina-reranker-m0 在多语言内容、长文档和代码搜索任务的文本重排方面也有所改进。

jina-reranker-m0 在 ViDoRe、MBEIR 和 Winoground 视觉检索基准测试上的表现展示了其在跨多个领域和语言的多模态检索任务中的能力。每个点代表不同类型/任务的视觉文档的性能得分。箱线图展示了这些得分的分布，高亮数字表示平均（均值）性能。完整的基准测试结果请参见本文附录。

这个箱线图展示了 jina-reranker-m0 在四个纯文本重排基准测试中的表现。每个基准测试可能包含多个数据集、语言或任务，由箱线图内的单个点表示。箱线图显示了这些得分的分布，高亮数字显示平均（均值）性能。虽然大多数基准测试使用 NDCG@10 作为性能指标，但 MKQA 使用的是 recall@10，因为 MKQA 的标注数据不支持 NDCG 计算（官方评估使用 recall，通过启发式方法确定文档相关性）。完整的基准测试结果可在本文附录中找到。

tag新架构

jina-reranker-m0 的架构基于 Qwen2-VL-2B，包含 21 亿参数。该模型通过评估文档的视觉和文本元素与查询的关系，使用成对比较方法高效地对文档进行排序。

与 jina-reranker-v2-base-multilingual 不同，jina-reranker-m0 从经典的交叉编码器架构转向了仅解码器的视觉语言模型。它利用了预训练的 Qwen2-VL 的视觉编码器和投影器，使用 LoRA 微调了其 LLM，并后训练了一个 MLP 来生成衡量查询-文档相关性的排序 logits。这提供了一个针对排序任务优化的判别模型。

	jina-reranker-m0	`jina-reranker-v2`
架构	视觉语言模型	交叉编码器
基础模型	Qwen2-VL-2B	Jina-XLM-RoBERTa
参数量	2.4 B	278 M
最大上下文长度（查询 + 文档）	10,240	8,192
最大图像块（动态分辨率）	768 × 28 × 28	❌
多语言支持	✅	✅
支持的任务	Text2Text, Text2Image, Image2Text, Text2Mixed	Text2Text

这种新架构使 jina-reranker-m0 能够处理多达 32K 个 token，无缝地结合视觉和文本输入。该模型支持从最小 56×56 像素到 4K 分辨率的图像。在处理图像时，ViT 和投影器将相邻的 2×2 token 压缩为单个视觉 token 作为 LLM 输入。特殊 token 如 <|vision_start|> 和 <|vision_end|> 清晰地标记了视觉 token 的边界，使语言模型能够正确处理视觉信息并执行结合视觉和文本元素的复杂多模态推理。

这种架构还有效地解决了之前困扰 jina-clip-v1 和 jina-clip-v2 等模型的模态差距问题。以前，图像会在表示空间中聚集在其他图像附近，而文本会聚集在其他文本附近，造成断开。这意味着当你的候选文档同时包含图像和文本时，使用文本查询检索图像会有问题。使用 jina-reranker-m0，你现在可以一起对图像和文档进行排序而无需担心这个差距，创造真正统一的多模态搜索体验。

在多模态检索系统中，"模态差距"指的是模型对文本到文本相似度与文本到图像相似度的评分差异。看左图（jina-clip-v2），两个分布之间有明显的分离：文本到文本相似度分布（红色）在 0.35 左右达到峰值。文本到图像相似度（蓝色）在 0.65-0.7 左右达到峰值。这种显著的分离表明存在较大的模态差距 - 模型对文本到文本和文本到图像对的评分范围从根本上不同。这使得直接比较跨模态的分数变得困难。在没有模态差距的系统中（例如 `），我们期望这些分布在很大程度上重叠，这意味着模型仅基于相关性而不是模态类型来对这两种类型的对进行相似范围的评分。

值得注意的是，我们的训练限制在最多 10K 输入 token，每个图像最多 768 个 token（在 <|vision_start|> 和 <|vision_end|> 标记之间）。此外，我们没有专门训练模型用于 image-to-image、image-to-multimodal 或 text-to-multimodal 重排任务。在这种情况下，"多模态"指的是输入中的单个文档同时包含图像和文本 token。查看查询和文档中图像和文本 token 的所有可能组合，我们可以在下表中总结 jina-reranker-m0 支持的完整任务范围。

jina-reranker-m0 支持广泛的查询和文档输入组合用于重排序。得益于大量训练，它在文本到文本、文本到图像、图像到文本和文本到混合单模态任务中都达到了最先进的性能。该模型还以零样本方式处理其他输入组合 - 虽然我们没有专门针对这些任务进行训练，但模型架构可以适应这些token组合。

在我们的测试中，我们发现一些证据表明该模型可以推广到这些未经训练的排序任务，但这些领域的任何效果都应被视为模型零样本迁移能力或意外训练副作用的结果。我们尚未对模型在这些任务上的表现进行严格评估，并计划在未来的研究中更深入地探索这些能力。

tag入门

tag通过 API

下面的代码展示了如何计算查询 "small language model data extraction" 与一系列图像和文本文档之间的相关性分数。你可以传入文本字符串、base64 编码的图像或图像 URL。新用户可以获得一个包含 100 万个免费 token 的 Jina API 密钥。虽然我们的 API 不支持使用图像作为查询，但当通过 Hugging Face Transformers 库访问模型时，你可以使用图像作为查询。

curl -X POST \
  https://api.jina.ai/v1/rerank \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer JINA_API_KEY" \
  -d '{
  "model": "jina-reranker-m0",
  "query": "small language model data extraction",
  "documents": [
    {
      "image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/handelsblatt-preview.png"
    },
    {
      "image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/paper-11.png"
    },
    {
      "image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/wired-preview.png"
    },
    {
      "text": "We present ReaderLM-v2, a compact 1.5 billion parameter language model designed for efficient web content extraction. Our model processes documents up to 512K tokens, transforming messy HTML into clean Markdown or JSON formats with high accuracy -- making it an ideal tool for grounding large language models. The models effectiveness results from two key innovations: (1) a three-stage data synthesis pipeline that generates high quality, diverse training data by iteratively drafting, refining, and critiquing web content extraction; and (2) a unified training framework combining continuous pre-training with multi-objective optimization. Intensive evaluation demonstrates that ReaderLM-v2 outperforms GPT-4o-2024-08-06 and other larger models by 15-20% on carefully curated benchmarks, particularly excelling at documents exceeding 100K tokens, while maintaining significantly lower computational requirements."
    },
    {
      "image": "https://jina.ai/blog-banner/using-deepseek-r1-reasoning-model-in-deepsearch.webp"
    },
    {
      "text": "数据提取么？为什么不用正则啊，你用正则不就全解决了么？"
    },
    {
      "text": "During the California Gold Rush, some merchants made more money selling supplies to miners than the miners made finding gold."
    },
    {
      "text": "Die wichtigsten Beiträge unserer Arbeit sind zweifach: Erstens führen wir eine neuartige dreistufige Datensynthese-Pipeline namens Draft-Refine-Critique ein, die durch iterative Verfeinerung hochwertige Trainingsdaten generiert; und zweitens schlagen wir eine umfassende Trainingsstrategie vor, die kontinuierliches Vortraining zur Längenerweiterung, überwachtes Feintuning mit spezialisierten Kontrollpunkten, direkte Präferenzoptimierung (DPO) und iteratives Self-Play-Tuning kombiniert. Um die weitere Forschung und Anwendung der strukturierten Inhaltsextraktion zu erleichtern, ist das Modell auf Hugging Face öffentlich verfügbar."
    }
  ],
  "return_documents": false
}'

响应如下所示，其中第一个结果 index=1 对应我们的 ReaderLM-v2 论文截图。

{"model":"jina-reranker-m0","usage":{"total_tokens":2829},"results":[{"index":1,"relevance_score":0.9587112551898949},{"index":3,"relevance_score":0.9337408271911014},{"index":7,"relevance_score":0.8922925217195924},{"index":2,"relevance_score":0.8891905997562045},{"index":0,"relevance_score":0.8827516945848907},{"index":4,"relevance_score":0.8701035914834407},{"index":6,"relevance_score":0.8676828987527296},{"index":5,"relevance_score":0.8455347349164652}]}

tag通过云服务提供商市场

jina-reranker-m0 很快将直接在 AWS、Azure 和 GCP 上提供，价格将在那里列出。

tag通过 HuggingFace

你也可以从我们的 Hugging Face 页面本地使用该模型。我们准备了一个 Google Colab 笔记本来演示它是如何工作的。与我们的 Web API 相比，本地使用模型提供了更大的灵活性，比如能够使用图像作为查询并处理多模态文档。

tag评估

tagBEIR（文本到文本，仅英语）

BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models

现有的神经信息检索（IR）模型通常在同质且狭窄的设置中进行研究，这极大地限制了对它们分布外（OOD）泛化能力的洞察。为了解决这个问题，并帮助研究人员广泛评估其模型的有效性，我们引入了 Benchmarking-IR（BEIR），一个稳健且异构的信息检索评估基准。我们精心选择了 18 个来自不同文本检索任务和领域的公开数据集，并在 BEIR 基准上评估了 10 个最先进的检索系统，包括词法、稀疏、密集、后期交互和重排序架构。我们的结果表明，BM25 是一个稳健的基线，重排序和基于后期交互的模型平均实现了最佳零样本性能，但计算成本较高。相比之下，密集和稀疏检索模型在计算效率上更高，但通常表现不如其他方法，这突显了它们在泛化能力方面有相当大的改进空间。我们希望这个框架能让我们更好地评估和理解现有的检索系统，并有助于加速向更稳健和可泛化系统的发展。BEIR 在 https://github.com/UKPLab/beir 上公开可用。

arXiv.orgNandan Thakur

BEIR 是一个异构的信息检索基准，旨在评估 IR 模型的通用性和稳健性。它包含来自各个领域的多样化数据集，并专注于零样本评估。使用标准化的评估指标，如 NDCG、Recall@K 和 MRR。

Model	AVG (NDCG@10)	TREC-COVID	NFCorpus	NQ	HotpotQA	FiQA	ArguAna	Touche-2020	DBPedia	SCIDOCS	FEVER	Climate-FEVER	SciFact	Quora
jina-reranker-m0	58.95	84.17	41.03	72.25	76.99	51.62	40.69	31.79	49.34	22.91	91.14	36.42	79.94	88.01
jina-embeddings-v3 (1024 tokens)	55.81	77.81	36.65	64.31	64.63	47.47	54.31	26.55	41.07	19.91	89.00	42.33	72.4	89.06
bge-reranker-v2-m3	56.51	82.19	34.33	69.52	77.89	45.45	36.21	33.12	46.72	17.79	91.03	38.69	72.64	89.10
jina-reranker-v2-multilingual	57.06	80.53	37.17	67.39	76.17	46.48	39.28	32.35	47.81	20.03	93.02	37.17	76.50	87.83

tagMIRACL（文本到文本，多语言，18 种语言）

创造 MIRACL：跨语言连续体的多语言信息检索

MIRACL（跨语言连续体的多语言信息检索）是我们为 WSDM 2023 Cup 挑战赛构建的多语言数据集，专注于 18 种不同语言的即席检索，这些语言的母语使用者总数超过 30 亿。这些语言具有不同的类型学特征，来自多个语系，并且具有不同程度的可用资源——包括研究人员通常称为高资源和低资源的语言。我们的数据集旨在支持创建和评估单语检索模型，其中查询和语料库使用相同的语言。总共，我们为这 18 种语言的维基百科收集了超过 77k 个查询的 70 万多个高质量相关性判断，所有评估都由我们团队聘请的母语者完成。我们的目标是促进能够改进跨语言连续体检索的研究，从而提升全球各地人群的信息访问能力，特别是那些传统上服务不足的人群。本概述论文描述了我们与社区共享的数据集和基线。MIRACL 网站已上线，地址为 http://miracl.ai/。

arXiv.orgXinyu Zhang

MIRACL 是一个大规模的多语言信息检索数据集，覆盖了 18 种语言。它涵盖了超过 30 亿母语使用者，并具有完整的人工标注。该数据集主要关注单语言检索任务。

Model	AVG (NDCG@10)	ar	bn	en	es	fa	fi	fr	hi	id	ja	ko	ru	sw	te	th	zh	de	yo
jina-reranker-m0	66.75	79.78	78.01	59.21	53.56	58.80	78.00	56.66	62.83	54.92	66.51	72.86	67.26	59.04	70.19	80.37	64.51	58.50	80.44
jina-embeddings-v3 (8192 tokens)	58.90	71.53	69.86	48.37	46.91	54.13	71.15	50.90	55.05	47.83	56.46	64.76	55.63	54.07	70.48	73.56	55.29	49.18	65.01
bge-reranker-v2-m3	69.32	80.51	81.85	57.67	57.64	61.92	80.38	59.60	67.66	58.86	67.37	75.14	67.61	68.92	76.69	82.29	64.46	58.32	80.85
jina-reranker-v2-multilingual	63.65	72.50	79.42	46.66	51.54	57.81	73.05	50.90	60.94	56.66	59.15	72.60	53.43	66.47	74.62	77.75	62.49	53.06	76.69

tagMLDR（Text2Text，多语言长文档，13 种语言）

BGE M3-Embedding：通过自知识蒸馏实现多语言、多功能、多粒度的文本嵌入

本文介绍了一个新的嵌入模型，称为 M3-Embedding，它以多语言性、多功能性和多粒度性为特色。该模型支持超过 100 种工作语言，在多语言和跨语言检索任务上达到了新的最优性能。它可以同时执行嵌入模型的三种常见检索功能：密集检索、多向量检索和稀疏检索，为实际的 IR 应用提供了统一的模型基础。它能够处理不同粒度的输入，从短句到最多 8192 个 token 的长文档。M3-Embedding 的有效训练包含以下技术贡献。我们提出了一种新的自知识蒸馏方法，其中来自不同检索功能的相关性分数可以作为教师信号集成，以提高训练质量。我们还优化了批处理策略，实现大批量和高训练吞吐量，确保嵌入的区分性。据我们所知，M3-Embedding 是第一个实现如此强大通用性的嵌入模型。模型和代码将在 https://github.com/FlagOpen/FlagEmbedding 上公开。

arXiv.orgJianlv Chen

MLDR 是一个专门为长文档检索设计的多语言数据集，涵盖 13 种语言。它使用 GPT-3.5 为文档生成问题。该数据集基于 Wikipedia、Wudao 和 mC4 构建。

Model	AVG (NDCG@10)	ar	de	en	es	fr	hi	it	ja	ko	pt	ru	th	zh
jina-reranker-m0	59.83	55.86	51.25	54.67	87.63	82.59	32.76	73.25	58.93	55.73	86.08	66.73	39.17	33.14
jina-embeddings-v3 (8192 tokens)	39.71	28.44	31.57	29.07	62.08	59.79	25.47	53.72	38.36	32.37	63.26	49.65	25.15	17.26
bge-reranker-v2-m3	53.53	49.19	45.39	43.92	74.57	68.67	44.75	62.79	49.27	48.24	76.45	62.84	38.82	31.02
jina-reranker-v2-multilingual	59.50	51.96	50.13	46.85	86.34	82.25	49.50	69.00	59.07	52.19	85.26	68.06	38.73	34.15

tagMKQA（Text2Text，多语言问答，24 种语言，中文有 3 种变体）

MKQA：一个语言多样性的多语言开放域问答基准测试

跨语言建模的进展依赖于具有挑战性、真实性和多样性的评估集。我们推出了多语言知识问答（MKQA），这是一个开放域问答评估集，包含 10k 个问答对，跨越 26 种类型学多样性语言（总共 26 万个问答对）。答案基于经过严格审核的、与语言无关的数据表示，使结果在不同语言之间具有可比性，且独立于特定语言的文本段落。该数据集以其 26 种语言的规模，为问答评估提供了迄今为止最广泛的语言范围。我们对各种最先进的方法和基线进行了基准测试，这些方法和基线是在 Natural Questions 上训练的生成式和抽取式问答，包括零样本和翻译设置。结果表明，即使在英语中这个数据集也具有挑战性，在低资源语言中尤其具有挑战性

arXiv.orgShayne Longpre

MKQA 是一个开放域问答评估集，包含了 10k 个问答对，这些问答对在 26 种具有不同类型特征的语言之间进行了对齐。问答对是从 Google Natural Questions 中采样得到的。

Model	AVG (recall@10)	ar	da	de	es	en	fi	fr	he	hu	it	ja	km	ko	ms	nl	no	pl	pt	ru	sv	th	tr	vi	zh_cn	zh_hk	zh_tw
jina-reranker-m0	68.19	63.88	70.57	70.52	71.26	73.47	64.10	71.11	63.68	63.23	70.30	69.13	50.43	64.30	70.78	71.73	70.25	69.72	70.57	70.78	70.69	69.80	67.90	69.68	69.12	68.23	67.79
jina-embeddings-v3 (8192 tokens)	65.63	59.00	69.12	68.27	68.15	71.14	65.66	68.30	59.51	63.23	68.30	64.36	56.13	58.98	68.30	69.53	68.65	67.26	67.93	67.06	68.68	66.32	66.97	66.87	63.38	63.59	61.55
bge-reranker-v2-m3	67.88	63.09	70.15	68.91	68.92	73.00	68.71	68.71	70.27	64.00	68.15	68.47	60.43	63.95	68.80	70.77	69.10	67.44	67.40	69.77	70.03	69.68	66.04	68.29	67.84	66.70	66.34
jina-reranker-v2-multilingual	67.90	63.88	70.31	70.09	70.51	73.09	67.50	70.38	63.00	64.59	69.90	67.34	57.79	62.14	70.36	71.58	69.51	68.61	70.13	70.07	70.15	68.80	68.02	69.39	67.23	65.77	65.37

tagCoIR（文本到文本，代码信息检索）

CoIR：代码信息检索模型的综合基准

尽管信息检索（IR）在各种 NLP 任务中取得了显著成功，但大多数 IR 系统主要处理自然语言的查询和语料库，忽视了代码检索领域。代码检索至关重要但仍未得到充分探索，现有方法和基准测试不能充分代表各个领域和任务中代码的多样性。为解决这一问题，我们提出了 COIR（代码信息检索基准），这是一个专门设计用于评估代码检索能力的健壮而全面的基准。COIR 包含了十个精心策划的代码数据集，涵盖了七个不同领域的八个独特检索任务。我们首先讨论了 COIR 的构建和其多样化的数据集组成。此外，我们使用 COIR 评估了九个广泛使用的检索模型，发现即使是最先进的系统在执行代码检索任务时也存在显著困难。为了便于现有研究工作流程中的轻松采用和集成，COIR 已开发为一个用户友好的 Python 框架，可通过 pip 轻松安装。它与其他流行的基准测试（如 MTEB 和 BEIR）共享相同的数据模式，实现了跨基准评估的无缝衔接。通过 COIR，我们旨在激发代码检索领域的研究，提供一个多功能的基准测试工具，鼓励进一步开发和探索代码检索系统 https://github.com/CoIR-team/coir。

arXiv.orgXiangyang Li

CoIR 是一个综合性基准测试，旨在评估模型在代码检索方面的能力。它包含 10 个精选的代码数据集，涵盖 7 个不同领域的 8 个检索任务。该基准测试提供了一个 Python 框架。

Model Name	Avg (NDCG@10)	Text-to-Code			Code-to-Text							Code-to-Code									Hybrid Code
		Apps	CosQA	SQL	CSN							CSN-CCR							CodeTransOcean		StackOver Flow	CodeFeedBack
		Apps	CosQA	SQL	AVG	python	javascript	go	ruby	java	php	AVG	python	javascript	go	ruby	java	php	-Contest	-DL	StackOver Flow	-MT	-ST
jina-reranker-m0	63.55	26.21	37.75	57.92	80.76	98.37	71.16	86.14	72.74	79.02	77.14	74.57	81.66	77.92	68.71	75.44	77.54	66.13	79.79	31.89	90.41	72.25	83.95
jina-embeddings-v2-base-code (top 100)	56.90	16.34	41.72	49.79	83.95	94.71	76.35	87.39	78.23	82.69	84.35	59.65	68.23	62.31	49.15	65.40	63.89	48.92	79.20	30.35	89.42	49.62	68.93
bge-reranker-v2-m3	35.97	8.33	30.06	50.63	49.26	67.62	39.55	58.11	41.37	44.77	44.13	40.81	42.57	42.75	38.04	38.04	41.73	41.73	34.93	5.09	60.12	16.44	64.05
jina-reranker-v2-multilingual	56.14	21.90	37.26	53.56	78.88	97.83	67.43	84.64	68.93	75.73	78.71	63.59	72.62	67.80	55.07	67.25	64.25	54.54	73.67	25.74	91.24	42.03	73.59

tagViDoRe（文本到图像、视觉文档检索基准）

ColPali：利用视觉语言模型进行高效文档检索

文档是富有视觉信息的结构，不仅通过文本传递信息，还通过图表、页面布局、表格，甚至字体来传递信息。由于现代检索系统主要依赖于从文档页面提取的文本信息来建立索引（通常通过耗时且脆弱的过程），它们难以有效利用关键的视觉线索。这限制了它们在许多实际文档检索应用中的能力，如检索增强生成（RAG）。为了对当前系统在视觉丰富的文档检索方面进行基准测试，我们引入了视觉文档检索基准 ViDoRe，它由跨越多个领域、语言和实际场景的各种页面级检索任务组成。现代系统固有的复杂性和性能不足促使我们提出一个新概念：通过直接嵌入文档页面的图像来进行文档检索。我们发布了 ColPali，这是一个经过训练的视觉语言模型，可以从文档页面的图像生成高质量的多向量嵌入。结合后期交互匹配机制，ColPali 在性能上大大超过现代文档检索流程，同时更加简单、快速，并且可以端到端训练。我们在 https://hf.co/vidore 以开放许可的方式发布模型、数据、代码和基准测试。

arXiv.orgManuel Faysse

ViDoRe 是一个专门设计的基准测试，用于评估检索系统在使用视觉特征匹配查询与相关文档的能力。它涵盖了多个领域和语言的各种页面级检索任务。该基准测试重点关注文档的视觉元素。

Model Name	AVG (NDCG@5)	TAT-DQA	Shift Project	Artificial Intelligence	Government Reports	ArxivQA	DocVQA	Healthcare Industry	InfoVQA	Energy	TabFQuad
jina-reranker-m0	91.02	81.83	93.22	99.63	97.59	89.82	62.58	99.26	92.88	96.06	97.32
MrLight/dse-qwen2-2b-mr1-v1	84.48	66.64	79.39	96.45	95.30	84.53	55.47	96.85	86.39	91.80	92.03
MonoQwen2-VL-v0.1	87.64	79.50	76.38	98.39	93.63	89.50	57.47	98.39	92.12	95.29	95.75

tagM-BEIR（文本到图像、图像到文本、多模态指令检索基准）

UniIR: Training and Benchmarking Universal Multimodal Information Retrievers

现有的信息检索 (IR) 模型通常假设单一格式，限制了它们在满足不同用户需求方面的应用，例如使用文本描述搜索图像、使用标题图像搜索新闻文章或使用查询图像寻找类似照片。为了应对这些不同的信息搜索需求，我们推出了 UniIR，这是一个统一的指令引导多模态检索器，能够处理跨模态的八种不同检索任务。UniIR 是一个在十个不同多模态 IR 数据集上联合训练的单一检索系统，它能够解释用户指令来执行各种检索任务，在现有数据集上展示出强大的性能，并能零样本泛化到新任务。我们的实验强调，多任务训练和指令调优是 UniIR 泛化能力的关键。此外，我们构建了 M-BEIR，这是一个具有全面结果的多模态检索基准，用于标准化通用多模态信息检索的评估。

arXiv.orgCong Wei

M-BEIR 是一个全面的大规模检索基准，旨在训练和评估多模态检索模型。它包含八个多模态检索任务和来自各种领域和来源的十个数据集。该基准测试重点关注指令遵循检索。

Model	MBEIR t2i VisualNews Recall@5	MBEIR t2i MSCOCO Recall@5	MBEIR t2i Fashion200K Recall@10	MBEIR i2t VisualNews Recall@5	MBEIR i2t MSCOCO Recall@5	MBEIR i2t Fashion200K Recall@10
jina-reranker-m0	23.89	72.19	9.79	17.61	41.21	11.56
jinaai/jina-clip-v2	15.42	52.28	7.03	11.63	28.80	8.78
MonoQwen2-VL-v0.1	22.74	71.29	10.00	15.08	42.24	11.25

tagWinoground（文本到文本、文本到图像）

Winoground: Probing Vision and Language Models for Visio-Linguistic Compositionality

我们提出了一个新颖的任务和数据集，用于评估视觉和语言模型进行视觉语言组合推理的能力，我们称之为 Winoground。给定两张图像和两个标题，目标是正确匹配它们——但关键的是，两个标题包含完全相同的词集，只是顺序不同。该数据集由专家注释者精心策划，并标注了丰富的细粒度标签，以帮助分析模型性能。我们测试了一系列最先进的视觉和语言模型，令人惊讶的是，发现它们都没有比随机猜测表现得更好。显然，这些模型在视觉语言组合推理方面的技能并不如我们期望的那样出色。我们进行了广泛的分析，以获得洞见，了解未来的工作如何尝试减轻这些模型的缺陷。我们期望 Winoground 能够作为一个有用的评估集，推动该领域的技术进步和进一步发展。该数据集可在 https://huggingface.co/datasets/facebook/winoground 获取。

arXiv.orgTristan Thrush

Winoground 是一个新颖的任务和数据集，用于评估视觉和语言模型进行视觉语言组合推理的能力。它使用具有相同词汇内容的双胞胎标题，并采用对比性的图像-标题配对。其重点在于组合推理。

Model	Text	Image	Group	Avg
jina-reranker-m0	57.00	40.75	34.00	43.92
MrLight/dse-qwen2-2b-mrl-v1	7.50	9.25	1.75	6.17
MonoQwen2-VL-v0.1	52.00	36.25	31.50	39.92

Winoground 使用三个关键指标来评估视觉语言模型：文本得分、图像得分和组合得分。文本得分衡量模型是否正确地将标题与图像匹配，而图像得分评估模型是否为标题选择了正确的图像。组合得分是最严格的指标，要求所有标题-图像关系都被正确识别。得分以百分比表示准确率，分数越高表示推理能力越强。

tag结论

jina-reranker-m0 是我们首次尝试在单个仅解码器模型中统一文本和视觉模态。这种新架构吸收了我们之前仅编码器检索模型的经验教训，包括 jina-clip-v2、jina-embeddings-v3、jina-reranker-v2-base-multilingual 和 jina-embeddings-v2-base-code。

新模型不仅解锁了多模态检索任务的能力，如文本到图像重排序和视觉文档重排序，而且在文本到文本和文本到代码重排序任务上相比 jina-reranker-v2-base-multilingual 展现出更好的性能。我们将这个新模型系列命名为"m 系列"以突出其多模态特性。

在比较 jina-reranker-m0 与 jina-reranker-v2-base-multilingual 时，我们对 m 系列的目标是在实现多模态的同时，在纯文本任务上达到与专门的纯文本模型相当的性能提升。有人可能会质疑，如果在纯文本任务上性能提升看似不大，使用 8 倍大的模型是否值得。虽然目前对于纯文本应用来说，m0 相比 v2 可能没有提供显著的附加价值，但仅解码器架构开启了许多在仅编码器架构下无法实现的新可能性，包括：

真正的混合模态重排序
列表式重排序和文档去重
通过注意力机制实现排序分数可解释性

我们未来的工作将专注于进一步升级纯文本重排序器，并充分利用这种多模态架构开启的新特性，以实现更好且更加广泛的搜索。