jina-embeddings-v4

用于多模态和多语言检索的通用向量模型

发行说明

许可证

CC-BY-NC-4.0

发布日期

2025-06-24

输入

文本

图片

PDF

输出

向量

多向量

模型详细信息

参数: 3.8B

输入词元长度: 32K

输入图片大小: 768×28×28

输出维度: 2048

语言支持

🌍 多语言支持

概述

Jina Embeddings V4 是一个拥有 38 亿参数的多模态向量模型，提供统一的文本和图像表示能力。该模型基于 Qwen2.5-VL-3B-Instruct 主干网络构建，其架构支持后期交互风格的单向量和多向量，从而突破了传统 CLIP 式双编码器模型的局限性。该模型集成了三个专门针对特定任务的 LoRA 适配器（每个适配器 60M 参数），可在不修改冻结的主干网络权重的情况下优化不同检索场景（包括非对称查询文档检索、语义文本相似度和代码搜索）的性能。该模型通过统一的处理路径，在处理表格、图表、示意图、屏幕截图和混合媒体格式等视觉丰富的内容方面表现出色，从而缩小了传统架构中存在的模态差距。该模型支持多语言功能，可以处理多达 32,768 个标记的输入文本，并将图像调整为 20 兆像素，使其适用于跨不同语言和领域的各种文档检索和跨模式搜索应用程序。

方法

Jina Embeddings V4 实现了统一的多模态语言模型架构，不同于 CLIP 风格的双编码器方法。该模型通过共享路径处理输入，首先通过视觉编码器将图像转换为 token 序列，然后通过带有上下文注意层的语言模型解码器将文本和图像模态一起处理。该架构支持两种输出模式，以适应不同的用例：单向量，通过 Matryoshka 表征学习生成可截断至 128 维的 2048 维向量，并通过均值池化生成以实现高效的相似性搜索；多向量，通过投影层输出每个 token 128 维，用于后期交互风格检索。该模型包含三个特定于任务的 LoRA 适配器，可提供专门的优化：检索适配器使用基于前缀的非对称编码和硬负样本训练来处理查询文档场景；文本匹配适配器使用 CoSENT 损失函数来处理语义相似性任务；代码适配器则专注于自然语言到代码的检索应用。训练分为两个阶段：初始配对训练使用来自 300 多个来源的文本-文本和文本-图像对的对比 InfoNCE 损失进行，然后使用基于三元组的方法和根据每个领域要求定制的专门损失函数对三个 LoRA 适配器进行特定任务的微调。

性能

Jina Embeddings V4 在多个基准测试类别中均取得了极具竞争力的性能。在视觉文档检索方面，它在 JinaVDR 基准测试中的平均得分为 72.19，而 ColPali-v1.2 为 64.50；在 ViDoRe 基准测试中的平均得分为 84.11，而 ColPali 为 83.90；多向量模式在 ViDoRe 上的得分高达 90.17。在跨模态检索方面，该模型在 CLIP 基准测试中的得分为 84.11，而 jina-clip-v2 为 81.12，nllb-clip-large-siglip 为 83.19。在文本检索任务中，它在 MTEB-en 上取得了 55.97 的成绩，在 MMTEB 上取得了 66.49 的成绩，在长文档处理方面表现出色，在 LongEmbed 上取得了 67.11 的成绩，而其前代产品仅为 55.66。该模型展现出扎实的语义文本相似度性能，在英语STS任务上得分为85.89，在多语言STS基准测试中得分为72.70。代码检索能力在CoIR基准测试中达到71.59，尽管像voyage-code-3（77.33）这样的专用模型在此领域取得了更高的分数。该模型的跨模态对齐性能有所提升，得分为0.71，而OpenAI CLIP仅为0.15，从而解决了多模态模型中的模态差距问题。在视觉丰富的任务上，多向量模式始终优于单向量模式，而单向量模式则在标准检索场景下提供了高效的性能。

最佳实践

为了有效利用 Jina Embeddings V4，请根据您的具体应用需求选择合适的 LoRA 适配器。对于查询和文档结构不同的非对称查询文档检索场景，请使用“检索”适配器，并确保使用适当的前缀来区分查询和段落内容。“文本匹配”适配器适用于语义相似性任务和对称检索，其目标是查找相似内容而非查询的答案，因此非常适合文档聚类、重复检测和内容推荐系统。对于编程相关的应用，“代码”适配器针对自然语言到代码检索、代码到代码相似性搜索以及技术问答场景进行了优化。根据您的性能和效率要求选择输出模式：单向量提供高效的相似性搜索，适用于存储受限的环境，其可截断维度允许在可接受的质量权衡下将维度从 2048 减少到 128-512；而多向量则为复杂的检索任务提供更高的精度，尤其是在处理视觉内容丰富的文档时，其中后期交互评分可以捕捉详细的关系。该模型的统一架构允许处理混合文本图像输入，而无需单独的编码器或视觉文档的 OCR 预处理。该模型的跨模态对齐功能和多语言支持使其非常适合国际应用。对于生产部署，在规划内存需求时请考虑每个 LoRA 适配器 60M 的参数开销，并注意所有三个适配器可以同时维护，额外内存占用不到 2%，从而可以在推理过程中灵活地切换任务。

提及此模型的博客

六月 30, 2025 • 8 分钟的读取量

jina-embeddings-v4 的量化感知训练

量化可以得到更小的向量模型 (Embeddings)。我们将向您展示经过微调的量化，甚至可以为您提供无损的向量模型 (Embeddings)。