Jina CLIP v2：用于文本和图像的多语言多模态嵌入

多模态嵌入通过统一的表示方式实现了跨不同模态数据的搜索和理解。它们是神经信息检索和多模态生成式 AI 应用的基础。今天，我们很高兴发布 jina-clip-v2，这是一个基于 jina-clip-v1 和我们最近发布的 jina-embeddings-3 构建的新型通用多语言多模态嵌入，具有以下几个关键改进：

性能提升：v2 在文本-图像和文本-文本检索任务中相比 v1 提升了 3% 的性能。与 v1 类似，v2 的文本编码器可以作为有效的多语言长文本密集检索器。它的性能与我们的前沿模型 jina-embeddings-v3（目前在 MTEB 上参数量低于 1B 的最佳多语言嵌入）相当。
多语言支持：以 jina-embeddings-v3 作为文本塔，jina-clip-v2 支持 89 种语言的多语言图像检索，在多语言图像检索任务上相比 nllb-clip-large-siglip 提升了高达 4% 的性能。
更高图像分辨率：v2 现在支持 512x512 的输入图像分辨率，相比 v1 的 224x224 有显著提升。这种更高的分辨率能够更好地处理细节图像，提升特征提取能力，并更准确地识别细粒度视觉元素。
套娃式表示：v2 允许用户将文本和图像嵌入的输出维度从 1024 截断到 64，在保持强大性能的同时减少存储和处理开销。

tag模型架构

jina-clip-v2 是一个 0.9B 参数的 CLIP 风格模型，它结合了两个强大的编码器：文本编码器 Jina XLM-RoBERTa（jina-embeddings-v3 的骨干网络）和视觉编码器 EVA02-L14（由 BAAI 开发的高效视觉 Transformer）。这些编码器经过联合训练，创建图像和文本的对齐表示。

Feature	Text Encoder	Image Encoder
Base Model	Jina XLM-RoBERTa	EVA02-L
Parameters	561M	304M
Input Specification	8,192 tokens (max)	512×512 pixels
Min Output Dimensions	64	64
Max Output Dimensions	1,024	1,024
Layers	24	24
Attention Mechanism	FlashAttention2	xFormers
Pooling Strategy	Mean pooling	CLS pooling
Additional Features	89 languages supported	Patch size 14x14

Jina CLIP v2 支持 89 种语言，在主要语言（包括阿拉伯语、中文、英语、法语、德语、日语、俄语和西班牙语）中都表现出色。在多语言图像检索基准测试中，它的性能能够匹配或超过 NLLB-CLIP-SigLIP，后者是一个稍大的（1.3B，比 jina-clip-v2 大 44%）最先进的 CLIP 风格模型，使用来自 NLLB 模型的预训练文本编码器。

tag仅英语文本和图像

在标准跨模态检索基准（Flickr30k 和 COCO）上，jina-clip-v2 展现了全面的性能提升。它在 Flickr30k 图像到文本检索上达到了 98.0% 的最先进性能，超过了其前身和 NLLB-CLIP-SigLIP。该模型在所有检索场景中都显示出一致的提升，在 COCO 图像到文本检索上相比 v1 提升了高达 3.3%，同时在不同基准和模态方向上保持与 NLLB-CLIP-SigLIP 的竞争性能。

Flickr30k Recall@5 性能：

Task	Model	Score	Relative to v1	Relative to NLLB
Image-to-text	jina-clip-v2	98.0	+1.7%	+0.9%
	jina-clip-v1	96.4	-	-0.7%
	nllb-siglip-large	97.1	-	-
Text-to-image	jina-clip-v2	89.8	+0.9%	-2.6%
	jina-clip-v1	89.0	-	-3.5%
	nllb-siglip-large	92.2	-	-

COCO Recall@5 性能：

Task	Model	Score	Relative to v1	Relative to NLLB
Image-to-text	jina-clip-v2	81.5	+3.3%	+2.9%
	jina-clip-v1	78.9	-	-0.4%
	nllb-siglip-large	79.2	-	-
Text-to-image	jina-clip-v2	68.4	+2.9%	-3.4%
	jina-clip-v1	66.5	-	-6.1%
	nllb-siglip-large	70.8	-	-

tag多语言文本和图像

在多语言跨模态基准测试中，jina-clip-v2 展现了强大的性能，特别是在图像到文本检索方面表现出色，在所有数据集上都优于 NLLB-SigLIP，在 Crossmodal 3600 上提升高达 3.8%。虽然 NLLB-SigLIP 在文本到图像检索能力上略强，但性能差距仍然很小，通常在 3% 以内。

图像到文本召回率@5 性能：

基准测试	模型	得分	相比 NLLB
Crossmodal 3600	jina-clip-v2	83.23	+3.8%
	nllb-siglip-large	80.16	-
Multilingual MS Coco	jina-clip-v2	86.03	+0.8%
	nllb-siglip-large	85.37	-
XTD10	jina-clip-v2	85.98	+0.7%
	nllb-siglip-large	85.41	-

文本到图像召回率@5 性能：

基准测试	模型	得分	相比 NLLB
Crossmodal 3600	jina-clip-v2	81.43	-0.8%
	nllb-siglip-large	82.07	-
Multilingual MS Coco	jina-clip-v2	84.87	-3.1%
	nllb-siglip-large	87.60	-
XTD10	jina-clip-v2	85.03	-3.0%
	nllb-siglip-large	87.63	-

tag纯文本密集检索器性能

与其前代产品类似，jina-clip-v2 的文本编码器可以作为一个有效的多语言密集检索器。在综合性的多语言 MTEB 基准测试中，它表现出色，在检索任务中达到 69.86%，在语义相似度任务中达到 67.77%。这些结果展示了它的多功能性，与我们专门的文本嵌入模型 jina-embeddings-v3 相比表现具有竞争力：

任务	模型	得分	相比 v3
检索	jina-clip-v2	69.86	-3.8%
	jina-embeddings-v3	72.59	-
语义相似度	jina-clip-v2	67.77	-2.9%
	jina-embeddings-v3	69.81	-

在英语任务中，jina-clip-v2 相比其前代产品和 NLLB-SigLIP 都显示出持续的改进，在检索性能方面表现尤为突出（几乎是 NLLB-SigLIP 分数的两倍）。

任务	模型	得分	相比 v1
STS	jina-clip-v2	81.29	+0.5%
	jina-clip-v1	80.92	-
	nllb-siglip-large	74.65	-
检索	jina-clip-v2	49.33	+2.1%
	jina-clip-v1	48.33	-
	nllb-siglip-large	24.92	-

tag套娃表示性能

文本和图像编码器都支持 MRL，它们的输出维度可以被截断至 64 维度的同时保持强劲的性能。我们的嵌入截断评估显示出显著的压缩潜力。即使是激进的 75% 维度削减也能在文本、图像和跨模态任务中保持超过 99% 的性能。

tag图像分类

在 37 个多样化的图像分类基准测试中，图像编码器表现出对维度截断的强大适应性。从 1024 维压缩到 64 维（94% 的压缩率）仅导致 top-5 准确率下降 8%，top-1 准确率下降 12.5%，突显了其在最小性能损失下高效部署的潜力。

对于图像分类，我们使用了 VTAB 数据集中的 19 个基准测试、VOC 2007、SUN397、STL10、Rendered SST2、ObjectNet、MNIST、德国交通标志识别基准（GTSRB）、飞机细粒度视觉分类（FGVC-Aircraft）、FER 2013、Country211、Cars196、ImageNet-A、ImageNet-O、ImageNet1k、ImageNet Sketch和ImageNet v2。

尽管维度大幅减少了 94%（降至仅 64 维），使用截断后的图像和文本嵌入进行的跨模态检索仍然表现出色，保持了 93% 的图像到文本和 90% 的文本到图像性能。

我们使用了六个基准测试，其中三个是多语言的：Crossmodal-3600（36 种语言）、flickr30k（仅英语）、flickr8k（仅英语）、MS COCO Captions（仅英语）、Multilingual MS COCO Captions（10 种语言）、XTD 200（27 种语言）

tag纯文本检索

在仅英语的 MTEB 基准测试中，64 维文本嵌入（从 1024 维压缩而来）很好地保持了语义相似性，仅下降 2.1%，而检索性能则适度降低了 17.5%。

tag快速开始

tag通过 API

以下代码演示了如何使用 Python 的 requests 生成嵌入。传入文本字符串和 base64 图像或 URL，以及所需的维度大小（默认 1024，下面示例中为 768）。

import requests
import numpy as np
from numpy.linalg import norm

cos_sim = lambda a,b: (a @ b.T) / (norm(a)*norm(b))

url = 'https://api.jina.ai/v1/embeddings'

headers = {
  'Content-Type': 'application/json',
  'Authorization': 'Bearer <YOUR_JINA_AI_API_KEY>'
}

data = {
  'input': [
     {"text": "Bridge close-shot"},
     {"url": "https://fastly.picsum.photos/id/84/1280/848.jpg?hmac=YFRYDI4UsfbeTzI8ZakNOR98wVU7a-9a2tGF542539s"}],
  'model': 'jina-clip-v2',
  'encoding_type': 'float',
  'dimensions': '768' 
}

response = requests.post(url, headers=headers, json=data)
sim = cos_sim(np.array(response.json()['data'][0]['embedding']), np.array(response.json()['data'][1]['embedding']))
print(f"Cosine text<->image: {sim}")

请记得将 <YOUR_JINA_AI_API_KEY> 替换为已激活的 Jina API 密钥。您可以在这里获取一个包含一百万个免费令牌的 API 密钥。

tag图像令牌定价

我们的 API 会计算文本和图像令牌。对于图像，令牌消耗基于覆盖整个图像区域所需的 512x512 像素切片数量。每个切片需要 4,000 个令牌来处理，包括部分填充的切片。为了获得最佳成本效益，我们建议 API 用户在发送请求前将图像调整为 512x512。

图像分辨率	所需切片数	令牌成本
512x512	1	4,000
720x720	4	16,000
1080x1080	9	36,000

对于方形图像，调整为 512x512 可获得最佳成本效益。对于需要保持宽高比的任务，将最长边缩放到 512，居中图像，并用黑色填充。对于一般用途，直接调整为 512x512 效果很好。

tag通过 CSP 市场

Jina CLIP v2 可直接在 AWS、Azure 和 GCP 上使用，价格以各平台列出的为准。

Microsoft Azure Marketplace

Google Cloud console

在 Google Cloud Marketplace 上明智消费、快速采购并利用 Google Cloud 承诺的支出。浏览目录中超过 2000 个优化运行在 Google Cloud 上的 SaaS、VM、开发堆栈和 Kubernetes 应用。

tag通过 VectorDB

tag结论

在 6 月发布的 jina-clip-v1（将 OpenAI 的 CLIP 模型文本输入扩展到 8,192 个 token）和前沿多语言模型 jina-embeddings-v3 的基础上，jina-clip-v2 带来了三个主要进展：支持 89 种语言的多语言功能、提升到 512x512 的图像分辨率，以及用于更多截断嵌入的套娃表示学习。

类 CLIP 模型已经成为通用多模态应用的基础。通过 jina-clip-v2，我们将这些功能提升到了新的水平，打破语言障碍，实现更准确的跨模态理解和检索。我们相信这次发布兑现了承诺，让全球开发者能够使用更强大、更易用的多模态搜索和检索功能。