

jina-clip-v2 API 可在"Embeddings"标签页下使用。
多模态嵌入通过统一的表示方式实现了跨不同模态数据的搜索和理解。它们是神经信息检索和多模态生成式 AI 应用的基础。今天,我们很高兴发布 jina-clip-v2,这是一个基于 jina-clip-v1 和我们最近发布的 jina-embeddings-3
构建的新型通用多语言多模态嵌入,具有以下几个关键改进:
- 性能提升:v2 在文本-图像和文本-文本检索任务中相比 v1 提升了 3% 的性能。与 v1 类似,v2 的文本编码器可以作为有效的多语言长文本密集检索器。它的性能与我们的前沿模型 jina-embeddings-v3(目前在 MTEB 上参数量低于 1B 的最佳多语言嵌入)相当。
- 多语言支持:以 jina-embeddings-v3 作为文本塔,jina-clip-v2 支持 89 种语言的多语言图像检索,在多语言图像检索任务上相比
nllb-clip-large-siglip
提升了高达 4% 的性能。 - 更高图像分辨率:v2 现在支持 512x512 的输入图像分辨率,相比 v1 的 224x224 有显著提升。这种更高的分辨率能够更好地处理细节图像,提升特征提取能力,并更准确地识别细粒度视觉元素。
- 套娃式表示:v2 允许用户将文本和图像嵌入的输出维度从 1024 截断到 64,在保持强大性能的同时减少存储和处理开销。
tag模型架构
jina-clip-v2 是一个 0.9B 参数的 CLIP 风格模型,它结合了两个强大的编码器:文本编码器 Jina XLM-RoBERTa
(jina-embeddings-v3 的骨干网络)和视觉编码器 EVA02-L14
(由 BAAI 开发的高效视觉 Transformer)。这些编码器经过联合训练,创建图像和文本的对齐表示。
Feature | Text Encoder | Image Encoder |
---|---|---|
Base Model | Jina XLM-RoBERTa | EVA02-L |
Parameters | 561M | 304M |
Input Specification | 8,192 tokens (max) | 512×512 pixels |
Min Output Dimensions | 64 | 64 |
Max Output Dimensions | 1,024 | 1,024 |
Layers | 24 | 24 |
Attention Mechanism | FlashAttention2 | xFormers |
Pooling Strategy | Mean pooling | CLS pooling |
Additional Features | 89 languages supported | Patch size 14x14 |
tag跨模态检索性能
Jina CLIP v2 支持 89 种语言,在主要语言(包括阿拉伯语、中文、英语、法语、德语、日语、俄语和西班牙语)中都表现出色。在多语言图像检索基准测试中,它的性能能够匹配或超过 NLLB-CLIP-SigLIP,后者是一个稍大的(1.3B,比 jina-clip-v2 大 44%)最先进的 CLIP 风格模型,使用来自 NLLB 模型的预训练文本编码器。
tag仅英语文本和图像
在标准跨模态检索基准(Flickr30k 和 COCO)上,jina-clip-v2 展现了全面的性能提升。它在 Flickr30k 图像到文本检索上达到了 98.0% 的最先进性能,超过了其前身和 NLLB-CLIP-SigLIP。该模型在所有检索场景中都显示出一致的提升,在 COCO 图像到文本检索上相比 v1 提升了高达 3.3%,同时在不同基准和模态方向上保持与 NLLB-CLIP-SigLIP 的竞争性能。
Flickr30k Recall@5 性能:
Task | Model | Score | Relative to v1 | Relative to NLLB |
---|---|---|---|---|
Image-to-text | jina-clip-v2 | 98.0 | +1.7% | +0.9% |
jina-clip-v1 | 96.4 | - | -0.7% | |
nllb-siglip-large | 97.1 | - | - | |
Text-to-image | jina-clip-v2 | 89.8 | +0.9% | -2.6% |
jina-clip-v1 | 89.0 | - | -3.5% | |
nllb-siglip-large | 92.2 | - | - |
COCO Recall@5 性能:
Task | Model | Score | Relative to v1 | Relative to NLLB |
---|---|---|---|---|
Image-to-text | jina-clip-v2 | 81.5 | +3.3% | +2.9% |
jina-clip-v1 | 78.9 | - | -0.4% | |
nllb-siglip-large | 79.2 | - | - | |
Text-to-image | jina-clip-v2 | 68.4 | +2.9% | -3.4% |
jina-clip-v1 | 66.5 | - | -6.1% | |
nllb-siglip-large | 70.8 | - | - |
tag多语言文本和图像
在多语言跨模态基准测试中,jina-clip-v2 展现了强大的性能,特别是在图像到文本检索方面表现出色,在所有数据集上都优于 NLLB-SigLIP,在 Crossmodal 3600 上提升高达 3.8%。虽然 NLLB-SigLIP 在文本到图像检索能力上略强,但性能差距仍然很小,通常在 3% 以内。
图像到文本召回率@5 性能:
基准测试 | 模型 | 得分 | 相比 NLLB |
---|---|---|---|
Crossmodal 3600 | jina-clip-v2 | 83.23 | +3.8% |
nllb-siglip-large | 80.16 | - | |
Multilingual MS Coco | jina-clip-v2 | 86.03 | +0.8% |
nllb-siglip-large | 85.37 | - | |
XTD10 | jina-clip-v2 | 85.98 | +0.7% |
nllb-siglip-large | 85.41 | - |
文本到图像召回率@5 性能:
基准测试 | 模型 | 得分 | 相比 NLLB |
---|---|---|---|
Crossmodal 3600 | jina-clip-v2 | 81.43 | -0.8% |
nllb-siglip-large | 82.07 | - | |
Multilingual MS Coco | jina-clip-v2 | 84.87 | -3.1% |
nllb-siglip-large | 87.60 | - | |
XTD10 | jina-clip-v2 | 85.03 | -3.0% |
nllb-siglip-large | 87.63 | - |
tag纯文本密集检索器性能
与其前代产品类似,jina-clip-v2 的文本编码器可以作为一个有效的多语言密集检索器。在综合性的多语言 MTEB 基准测试中,它表现出色,在检索任务中达到 69.86%,在语义相似度任务中达到 67.77%。这些结果展示了它的多功能性,与我们专门的文本嵌入模型 jina-embeddings-v3 相比表现具有竞争力:
任务 | 模型 | 得分 | 相比 v3 |
---|---|---|---|
检索 | jina-clip-v2 | 69.86 | -3.8% |
jina-embeddings-v3 | 72.59 | - | |
语义相似度 | jina-clip-v2 | 67.77 | -2.9% |
jina-embeddings-v3 | 69.81 | - |
在英语任务中,jina-clip-v2 相比其前代产品和 NLLB-SigLIP 都显示出持续的改进,在检索性能方面表现尤为突出(几乎是 NLLB-SigLIP 分数的两倍)。
任务 | 模型 | 得分 | 相比 v1 |
---|---|---|---|
STS | jina-clip-v2 | 81.29 | +0.5% |
jina-clip-v1 | 80.92 | - | |
nllb-siglip-large | 74.65 | - | |
检索 | jina-clip-v2 | 49.33 | +2.1% |
jina-clip-v1 | 48.33 | - | |
nllb-siglip-large | 24.92 | - |
tag套娃表示性能
文本和图像编码器都支持 MRL,它们的输出维度可以被截断至 64 维度的同时保持强劲的性能。我们的嵌入截断评估显示出显著的压缩潜力。即使是激进的 75% 维度削减也能在文本、图像和跨模态任务中保持超过 99% 的性能。
tag图像分类
在 37 个多样化的图像分类基准测试中,图像编码器表现出对维度截断的强大适应性。从 1024 维压缩到 64 维(94% 的压缩率)仅导致 top-5 准确率下降 8%,top-1 准确率下降 12.5%,突显了其在最小性能损失下高效部署的潜力。
tag跨模态检索
尽管维度大幅减少了 94%(降至仅 64 维),使用截断后的图像和文本嵌入进行的跨模态检索仍然表现出色,保持了 93% 的图像到文本和 90% 的文本到图像性能。
tag纯文本检索
在仅英语的 MTEB 基准测试中,64 维文本嵌入(从 1024 维压缩而来)很好地保持了语义相似性,仅下降 2.1%,而检索性能则适度降低了 17.5%。
tag快速开始
tag通过 API
以下代码演示了如何使用 Python 的 requests
生成嵌入。传入文本字符串和 base64 图像或 URL,以及所需的维度大小(默认 1024,下面示例中为 768)。
import requests
import numpy as np
from numpy.linalg import norm
cos_sim = lambda a,b: (a @ b.T) / (norm(a)*norm(b))
url = 'https://api.jina.ai/v1/embeddings'
headers = {
'Content-Type': 'application/json',
'Authorization': 'Bearer <YOUR_JINA_AI_API_KEY>'
}
data = {
'input': [
{"text": "Bridge close-shot"},
{"url": "https://fastly.picsum.photos/id/84/1280/848.jpg?hmac=YFRYDI4UsfbeTzI8ZakNOR98wVU7a-9a2tGF542539s"}],
'model': 'jina-clip-v2',
'encoding_type': 'float',
'dimensions': '768'
}
response = requests.post(url, headers=headers, json=data)
sim = cos_sim(np.array(response.json()['data'][0]['embedding']), np.array(response.json()['data'][1]['embedding']))
print(f"Cosine text<->image: {sim}")
请记得将 <YOUR_JINA_AI_API_KEY> 替换为已激活的 Jina API 密钥。您可以在这里获取一个包含一百万个免费令牌的 API 密钥。
tag图像令牌定价
我们的 API 会计算文本和图像令牌。对于图像,令牌消耗基于覆盖整个图像区域所需的 512x512 像素切片数量。每个切片需要 4,000 个令牌来处理,包括部分填充的切片。为了获得最佳成本效益,我们建议 API 用户在发送请求前将图像调整为 512x512。
图像分辨率 | 所需切片数 | 令牌成本 |
---|---|---|
512x512 | 1 | 4,000 |
720x720 | 4 | 16,000 |
1080x1080 | 9 | 36,000 |
tag通过 CSP 市场
Jina CLIP v2 可直接在 AWS、Azure 和 GCP 上使用,价格以各平台列出的为准。

tag通过 VectorDB



tag结论
在 6 月发布的 jina-clip-v1(将 OpenAI 的 CLIP 模型文本输入扩展到 8,192 个 token)和前沿多语言模型 jina-embeddings-v3 的基础上,jina-clip-v2 带来了三个主要进展:支持 89 种语言的多语言功能、提升到 512x512 的图像分辨率,以及用于更多截断嵌入的套娃表示学习。
类 CLIP 模型已经成为通用多模态应用的基础。通过 jina-clip-v2,我们将这些功能提升到了新的水平,打破语言障碍,实现更准确的跨模态理解和检索。我们相信这次发布兑现了承诺,让全球开发者能够使用更强大、更易用的多模态搜索和检索功能。