jina-clip-v2

文本和图片的多语言多模态向量模型

许可证

CC-BY-NC-4.0

发布日期

2024-11-05

输入

图片

文本

输出

向量

支持的俄罗斯套娃维度

128

256

512

768

1024

模型详细信息

参数: 865M

输入词元长度: 8K

输入图片大小: 512×512

输出维度: 1024

底座模型

XLM-RoBERTa Large

训练过的语言

32 语言

支持的语言

108 语言

概述

Jina CLIP v2 彻底改变了多模态 AI，它弥合了 89 种语言中视觉和文本理解之间的差距。该模型通过实现准确的图片文本匹配，解决了全球电子商务、内容管理和跨文化交流中的关键挑战，不受语言障碍的影响。对于在国际上扩张或管理多语言内容的企业来说，它消除了对每种语言单独使用模型或复杂翻译流程的需求。该模型在需要跨语言边界进行精确视觉搜索的场景中尤其出色，例如全球市场产品发现或多语言数字资产管理。

方法

Jina CLIP v2 的核心是采用复杂的双编码器架构，将 Jina XLM-RoBERTa 文本编码器（561M 参数）与 EVA02-L14 视觉编码器（304M 参数）相结合。文本编码器使用 696,320 个词元的海量上下文窗口处理 89 种语言的内容，而视觉编码器则处理高达 512x512 像素的高分辨率图片。该模型引入了创新的 Matryoshka 表示学习，可在保持性能的同时实现动态向量维度从 1024 维到 64 维的调整。该架构通过各自的编码器处理文本和图片，将它们投射到共享语义空间中，无论其原始模态或语言如何，相似的概念都可以对齐。

性能

该模型在 Flickr30k 图片到文本检索任务中实现了 98.0% 的准确率，超越了其前身和 NLLB-CLIP-SigLIP，达到了最佳性能。在多语言场景中，尽管参数比其最大的竞争对手少，但在跨语言图片检索任务中，该模型比 NLLB-CLIP-SigLIP 提高了 4%。即使向量被压缩，该模型仍能保持强劲的性能 - 将尺寸减少 75% 仍可在文本、图片和跨模态任务中保持 99% 以上的性能。在综合多语言 MTEB 基准测试中，它在检索任务中实现了 69.86%，在语义相似性任务中实现了 67.77%，与专门的文本向量模型相比具有竞争力。

最佳实践

为了实现最佳部署，用户应考虑几个关键因素。该模型需要支持 CUDA 的硬件才能高效处理，内存需求会根据批次大小和图片分辨率进行调整。为了优化 API 成本和性能，请在处理之前将图片大小调整为 512x512 像素 - 较大的图片会自动平铺，从而增加词元使用量和处理时间。该模型擅长跨语言匹配带有描述性文本的图片，但可能难以处理抽象概念或高度专业化的特定领域内容。它对于电子商务产品搜索、内容推荐系统和视觉搜索应用程序特别有效，但可能不适合需要细粒度视觉细节分析或高度专业化领域专业知识的任务。使用 Matryoshka 表示功能时，请考虑降维和性能之间的权衡 - 虽然 64 维向量保持了强大的性能，但关键应用程序可能会受益于更高的维度。

提及此模型的博客

七月 31, 2025 • 12 分钟的读取量

图像分辨率如何影响视觉文档检索

图像分辨率对于嵌入视觉内容丰富的文档至关重要。分辨率太小，模型会遗漏关键细节；分辨率太大，则无法将各个部分联系起来。