JinaVDR：全新视觉文档检索基准，包含 20 种语言的 95 个任务

我们发布了 JinaVDR (Visual Document Retrieval，即可视化文档检索)，这是一个新的基准，用于评估模型检索视觉上复杂文档的能力。JinaVDR 包含具有复杂布局的多语言文档——结合了图表、表格、文本和图像以及扫描副本和屏幕截图。该基准将这些不同的可视化文档与有针对性的文本查询配对，从而能够全面评估在真实文档复杂性和更广泛领域覆盖范围内的检索性能。

Benchmark	Task focus	Languages	Number of tasks
JinaVDR	Visually rich documents	20 languages	95
MIEB	Mostly natural images	38 languages	130
ViDoRe v1	Visually rich documents	English	5
ViDoRe v2	Visually rich documents	English, French, Spanish, German	4

JinaVDR 涵盖了不同的语言、领域和文档格式，以反映真实的检索场景。虽然英语仍然在查询和文档中占主导地位，但该基准包含了十几种其他语言，提供了更广泛的多语言覆盖。这些领域包括历史文档、软件文档、医疗记录、法律文本和科学论文，涵盖了各种专业的用例。文档格式范围从网页和 PDF 到扫描材料、演示幻灯片和独立图像。许多数据集都有意混合了语言和格式，从而创建了现实条件，挑战模型以处理它们在实际应用中遇到的复杂性。

tagHow We Build JinaVDR

JinaVDR 基准提供了一个评估框架，涵盖 20 种语言的 95 个任务，包括领域多样且布局丰富的文档，如图表、地图、传统扫描文档、Markdown 文件和复杂表格。它通过视觉问答（例如，“How many civil lawsuits were dismissed at the Valladolid audience in 1855?”）和关键词查询（例如，“growth of the LED market across different regions”）来评估模型，从而更清晰地评估真实世界中不同文档类型的检索能力。

我们使用了四种技术来构建 JinaVDR，重点关注数据多样性和任务真实性：

首先，我们通过使用基于规则的查询模板将 OCR 数据集转换为检索任务（例如转换 MPMQA 数据）以及将问答数据集重新格式化为检索场景来重新利用现有基准：

其次，我们手动注释了现有的 PDF 数据集，包括 StanfordSlides、TextbookQA 和 ShanghaiMasterPlan，以创建高质量的检索对：

我们的第三种方法涉及合成查询和/或文档生成，我们使用来自 Europeana 等来源的现有文档集合，通过 Qwen2-VL-7B-Instruct 创建上下文相关的查询，以及 EasyOCR 文本描述：

JinaVDR 基准中的 Europeana 文档和查询示例，包括英文查询翻译以供参考

我们还将表格数据集呈现为可视化表格，并通过从原始文本数据派生的模板生成相应的查询，如我们的 AirBnBRetrieval 任务所示。

最后，我们重新利用了现有的爬取数据集，其中包含文章-图表对，我们使用文章中的文本片段作为查询，并将相应的图表作为目标文档，如我们的 OWIDRetrieval 数据集所示：

这种多方面的方法使我们能够全面覆盖文档类型、语言和检索场景。

tagExisting Benchmarks

开发真正多模态的模型（可以处理视觉上复杂的文档）需要超越传统纯文本评估方法的基准。像 MTEB（大规模文本向量模型基准）这样的框架可能非常适合评估跨不同领域和语言的文本检索，但它们不是为搜索通过视觉布局、图表、表格和格式化来依赖准确检索的文档而构建的。这就是可视化文档检索基准（如 ViDoRe 系列）和图像检索基准（如 MIEB，即大规模图像向量模型基准）的用武之地。

ColPali 论文介绍了 ViDoRe v1，它结合了五个英语数据集，包括学术数据集和合成数据集。该基准侧重于适用于光学字符识别 (OCR) 的单页文档，涵盖科学论文和医疗保健等狭窄领域，并使用抽取式查询，其中搜索词通常直接出现在目标文档中。

在像 ColPali 这样的模型在 ViDoRe v1 上达到 90% nDCG@5 的分数后，就需要一个新的基准。ViDoRe v2 通过支持更长和跨文档的查询、盲上下文查询以及更多语言（英语之上的法语、德语和西班牙语）改进了 v1。这两个基准仍然具有有限的语言多样性和狭窄的领域覆盖范围，为评估新的检索系统留下了空白。

MIEB 采取了不同的方法，专注于跨 130 个任务的视觉向量模型，包括检索之外的其他任务。然而，它主要评估没有太多文本内容的图像，而不是视觉上丰富的文档。虽然该基准测试在测试视觉理解能力方面表现出色，但在需要根据视觉布局和文本内容检索文档时，其表现不佳。

我们推出 JinaVDR（视觉文档检索）基准测试的目的是扩展这些先前基准测试的工作，纳入具有复杂布局（如图表和表格，以及文本和图像混合）的、视觉上丰富的多语种文档，并添加真实世界的查询和问题。

tag在 JinaVDR 上评估向量模型

💡

您可以使用我们 GitHub 仓库上的代码自行运行基准测试。

我们的基准测试结果表明，许多最新的向量模型在 JinaVDR 的各种视觉文档任务中表现不佳，而基于 OCR 的基线模型和较旧的模型表现甚至更差，尤其是在非英语和结构化文档数据集上。对于简单的文本提取可行的所有数据集，我们都包含了带有 OCR 的 BM25。

jina-embeddings-v4 是一个例外。我们的结果表明，与早期模型或传统的基于 OCR 的流程相比，它的多模态向量模型方法可以更好地处理复杂的多语种文档检索。 该模型的多向量功能提供了最佳性能，因为它避免了单向量方法的压缩限制 —— 单向量必须将整个页面的内容塞进一个表示中（这使得捕获特定细节变得困难），而多向量方法则保持了精细的信息，从而可以精确检索相似的文档。

	平均值	medical-prescriptions	DonutVQA	TableVQA	europeana-de-news	europeana-es-news	europeana-it-scans	europeana-nl-legal	hindi-gov-vqa	jdocqa_jp	wikimedia-commons-documents (ar)	github-readme-retrieval-ml-filtered (ru)
BM25 + OCR	26.67%	38.18%	19.39%	35.64%	11.26%	51.99%	39.11%	34.97%	1.83%	1.64%	19.60%	39.78%
`jina-embeddings-v3 + OCR`	27.49%	37.25%	2.60%	34.24%	12.05%	44.03%	38.69%	29.07%	7.52%	7.79%	38.06%	51.07%
jina-clip-v2	17.79%	15.66%	1.63%	21.06%	11.19%	13.14%	16.23%	9.79%	5.02%	19.91%	45.29%	36.80%
`colpali-v1.2`	46.44%	83.91%	32.53%	54.66%	34.64%	44.74%	54.32%	30.89%	13.04%	39.45%	41.96%	80.67%
`colqwen2-v0.1`	58.26%	77.72%	46.34%	57.52%	53.42%	74.28%	71.23%	46.13%	20.53%	74.38%	36.94%	0.82388
`MrLight/dse-qwen2-2b-mrl-v1`	47.95%	38.22%	25.31%	57.39%	44.75%	60.58%	53.92%	29.50%	9.80%	66.73%	62.47%	78.77%
`jina-embeddings-v4 (single-vector)`	61.39%	81.17%	78.48%	58.90%	49.05%	60.10%	57.88%	37.14%	15.40%	75.57%	72.07%	89.55%
`jina-embeddings-v4 (multivector)`	70.89%	97.95%	73.55%	60.91%	65.65%	80.58%	73.14%	54.15%	21.94%	82.34%	81.19%	88.39%

tagMTEB 集成

由于 MTEB 已成为检索基准测试的事实标准，我们将 JinaVDR 直接集成到 MTEB 框架中，以最大限度地提高采用率和易用性。这使得研究人员可以使用熟悉的评估基础设施，更轻松地在我们的基准测试上运行视觉检索模型。然而，将我们的数据迁移到 BEIR 格式确实需要一些权衡，例如不在 MTEB 版本中包含 OCR 结果。这意味着像 BM25 这样的传统基于文本的方法不能直接作为 MTEB 的一部分运行，这加强了对视觉文档理解的关注，而不是退回到基于文本的检索方法。

tag局限性

为了从广泛的来源构建一个全面的基准，我们必须执行仔细的预处理，以确保实际可用性和评估质量：我们应用了大小归一化，通过将每个数据集子采样到最多 1,000 个示例（从数千个或数万个减少），使基准测试真正可运行，同时保持跨任务的良好覆盖率。考虑到我们需要处理高分辨率视觉文档的大量计算，这种约束尤其重要。

我们使用质量过滤来解决现实世界文档集合中常见的几个挑战。虽然扫描文档中较差的图像质量通常反映了真实的使用案例，但这使得控制合成数据的质量变得更加困难。我们实施了一致性过滤以删除重复项（这在大型文档集合中很常见），并使用大模型过滤掉低质量的查询，这些查询不会提供有用的评估信号，例如过于通用的问题，如 "What can you see in the chart?"。对于合成数据生成，尽管使用了各种提示策略，但我们在查询多样性方面遇到了限制，并且需要执行手动管理，以确保在不同的检索场景中进行足够的评估覆盖。

tag结论

视觉文档检索评估现在面临着这样一种情况：传统的基于文本的基准测试不再能捕捉到人类实际搜索和消费信息的复杂性。 JinaVDR 通过在远超先前基准测试的一系列任务和语言中提供全面的评估，克服了这一障碍。

展望未来，业界需要能够反映真正检索挑战的基准测试，而不是人为的约束。随着各组织越来越依赖视觉文档检索来完成从法律研究到医疗诊断的任务，评估框架必须超越狭隘的学术数据集，朝着我们在现实世界中发现的混乱、多语种和视觉上复杂的文档发展。 JinaVDR 只是构建真正理解视觉和文本信息如何在实践中协同工作的检索系统的第一步。