新闻
模型
API
keyboard_arrow_down
读取器
读取URL或搜索为大模型提供更好的依据。
向量模型
世界一流的多模态多语言向量模型。
重排器
世界一流的重排器,最大限度地提高搜索相关性。
弹性推理服务
在 Elasticsearch 中原生运行 Jina 模型。
MCP terminal命令行articlellms.txtsmart_toy代理人data_object模式menu_book文档



登录
login
向量模型
copyright CC BY-NC 4.0
open_in_new 发行说明

jina-clip-v2

文本和图片的多语言多模态向量模型
许可证
copyright CC-BY-NC-4.0
发布日期
calendar_month
2024-11-05
输入
image
图片
abc
文本
arrow_forward
输出
more_horiz
向量
支持的俄罗斯套娃维度 help_outline
64
128
256
512
768
1024
模型详细信息
参数: 865M
输入词元长度: 8K
输入图片大小: 512×512
输出维度: 1024
底座模型 help_outline
open_in_new
XLM-RoBERTa Large
训练过的语言 help_outline
32 语言
支持的语言 help_outline
108 语言
相关模型
link
jina-clip-v1
标签
multimodal-embedding
image-text-alignment
multilingual
large-context
instruction-tuned
masked-region-learning
production
cross-lingual-retrieval
zero-shot-classification
modality-gap-aware
可通过以下方式获取
弹性推理服务Jina API亚马逊云微软云谷歌云抱抱脸
I/O 图 1

文本

jina-clip-v2

向量

I/O 图 2

图像

jina-clip-v2

向量

选择要比较的模型
论文 (1)
ICLR 2025
十二月 12, 2024
jina-clip-v2: Multilingual Multimodal Embeddings for Text and Images

概述

Jina CLIP v2 彻底改变了多模态 AI,它弥合了 89 种语言中视觉和文本理解之间的差距。该模型通过实现准确的图片文本匹配,解决了全球电子商务、内容管理和跨文化交流中的关键挑战,不受语言障碍的影响。对于在国际上扩张或管理多语言内容的企业来说,它消除了对每种语言单独使用模型或复杂翻译流程的需求。该模型在需要跨语言边界进行精确视觉搜索的场景中尤其出色,例如全球市场产品发现或多语言数字资产管理。

方法

Jina CLIP v2 的核心是采用复杂的双编码器架构,将 Jina XLM-RoBERTa 文本编码器(561M 参数)与 EVA02-L14 视觉编码器(304M 参数)相结合。文本编码器使用 696,320 个词元的海量上下文窗口处理 89 种语言的内容,而视觉编码器则处理高达 512x512 像素的高分辨率图片。该模型引入了创新的 Matryoshka 表示学习,可在保持性能的同时实现动态向量维度从 1024 维到 64 维的调整。该架构通过各自的编码器处理文本和图片,将它们投射到共享语义空间中,无论其原始模态或语言如何,相似的概念都可以对齐。

性能

该模型在 Flickr30k 图片到文本检索任务中实现了 98.0% 的准确率,超越了其前身和 NLLB-CLIP-SigLIP,达到了最佳性能。在多语言场景中,尽管参数比其最大的竞争对手少,但在跨语言图片检索任务中,该模型比 NLLB-CLIP-SigLIP 提高了 4%。即使向量被压缩,该模型仍能保持强劲的性能 - 将尺寸减少 75% 仍可在文本、图片和跨模态任务中保持 99% 以上的性能。在综合多语言 MTEB 基准测试中,它在检索任务中实现了 69.86%,在语义相似性任务中实现了 67.77%,与专门的文本向量模型相比具有竞争力。

最佳实践

为了实现最佳部署,用户应考虑几个关键因素。该模型需要支持 CUDA 的硬件才能高效处理,内存需求会根据批次大小和图片分辨率进行调整。为了优化 API 成本和性能,请在处理之前将图片大小调整为 512x512 像素 - 较大的图片会自动平铺,从而增加词元使用量和处理时间。该模型擅长跨语言匹配带有描述性文本的图片,但可能难以处理抽象概念或高度专业化的特定领域内容。它对于电子商务产品搜索、内容推荐系统和视觉搜索应用程序特别有效,但可能不适合需要细粒度视觉细节分析或高度专业化领域专业知识的任务。使用 Matryoshka 表示功能时,请考虑降维和性能之间的权衡 - 虽然 64 维向量保持了强大的性能,但关键应用程序可能会受益于更高的维度。
提及此模型的博客
七月 31, 2025 • 12 分钟的读取量
图像分辨率如何影响视觉文档检索
图像分辨率对于嵌入视觉内容丰富的文档至关重要。分辨率太小,模型会遗漏关键细节;分辨率太大,则无法将各个部分联系起来。
Maximilian Werk
Michael Günther
Scott Martens
Abstract composition with a dark background featuring a flower-like design, radiant eye-like feature, rainbow-colored curved
七月 25, 2025 • 8 分钟的读取量
JinaVDR:全新视觉文档检索基准,包含 20 种语言的 95 个任务
JinaVDR 是一个全新的基准,涵盖 20 种语言的 95 项视觉文档检索任务,即将登陆 MTEB。
Maximilian Werk
Alex C-G
Black-and-white design for "Jinavor Benchmark" with bold text. Below, "Visual Docs: 95 Tasks: 20 Languages" appears; an abstr
六月 25, 2025 • 12 分钟的读取量
Jina 向量模型 (Embeddings) v4:用于多模态多语言检索的通用向量模型 (Embeddings)
Jina 向量模型 (Embeddings) v4 是一个拥有 38 亿参数的通用向量模型 (embedding model),用于多模态和多语言检索,支持单向量和多向量向量模型 (embedding) 输出。
Jina AI
Word "Embeddings" followed by a numeric or symbol representation, displayed in multiple colors on a technology-themed, colorf
五月 28, 2025 • 4 分钟的读取量
相关性:在 GUI 中进行向量模型 (Embeddings) 的氛围测试
虽然我们对 MTEB 非常重视,但我们也喜欢进行体验测试。 Correlations 是一个简单的 GUI,我们用它来验证 DeepSearch 中的引用、调试延迟分块以及体验测试向量模型 (Embeddings)。现在它是开源的。
Jina AI
Technical screen showing green and yellow visual data, including charts in the lower half and a heat-map-like visualization a
五月 25, 2025 • 21 分钟的读取量
我们在 ICLR2025 上学到了什么
我们收集了一些 ICLR 2025 中最有趣的论文,包括 TIPS、FlexPrefill、零样本重排器 (Zero-Shot Rerankers)、SVD-LLM、Hymba 等。
Jina AI
Three people smiling on a stage at a conference with an ICLR banner visible, suggesting a warm and lively event atmosphere.
办公室
location_on
加利福尼亚州桑尼维尔
710 Lakeway Dr, Ste 200, 桑尼维尔, 加州 94085, 美国
location_on
德国柏林
Prinzessinnenstraße 19-20,10969 柏林,德国
搜索底座
读取器
向量模型
重排器
弹性推理服务
open_in_new
获取 Jina API 密钥
速率限制
API 状态
公司
关于我们
联系销售
新闻
实习生项目
下载 Jina 标志
open_in_new
下载 Elastic 徽标
open_in_new
条款
安全
条款及条件
隐私
管理 Cookie
email
Elastic Jina AI © 2020-2026.