Jina CLIP v2：文本與影像的多語言多模態嵌入表示

多模態嵌入能夠通過統一的表示方式實現跨不同模態的數據搜索和理解。它們是神經資訊檢索和多模態 GenAI 應用的骨幹。今天，我們很高興發布 jina-clip-v2，這是一個建立在 jina-clip-v1 和我們最近發布的 jina-embeddings-3 基礎上的新型通用多語言多模態嵌入，具有以下幾個關鍵改進：

性能提升：v2 在文本-圖像和文本-文本檢索任務中比 v1 提高了 3% 的性能。與 v1 類似，v2 的文本編碼器可以作為有效的多語言長文本密集檢索器。它的表現與我們的前沿模型 jina-embeddings-v3（目前在 MTEB 上參數量低於 1B 的最佳多語言嵌入）不相上下。
多語言支援：以 jina-embeddings-v3 作為文本塔，jina-clip-v2 支援 89 種語言的多語言圖像檢索，在多語言圖像檢索任務上比 nllb-clip-large-siglip 提高了高達 4% 的性能。
更高的圖像解析度：v2 現在支援 512x512 輸入圖像解析度，相比 v1 的 224x224 有顯著提升。這種更高的解析度能夠更好地處理細節圖像，提升特徵提取，並更準確地識別細緻的視覺元素。
套娃表示法：v2 允許用戶將文本和圖像嵌入的輸出維度從 1024 降至 64，減少存儲和處理開銷的同時保持強大的性能。

tag模型架構

jina-clip-v2 是一個 0.9B 的 CLIP 風格模型，結合了兩個強大的編碼器：文本編碼器 Jina XLM-RoBERTa（jina-embeddings-v3 的骨幹）和視覺編碼器 EVA02-L14（由 BAAI 開發的高效視覺 Transformer）。這些編碼器經過聯合訓練以創建圖像和文本的對齊表示。

Feature	Text Encoder	Image Encoder
Base Model	Jina XLM-RoBERTa	EVA02-L
Parameters	561M	304M
Input Specification	8,192 tokens (max)	512×512 pixels
Min Output Dimensions	64	64
Max Output Dimensions	1,024	1,024
Layers	24	24
Attention Mechanism	FlashAttention2	xFormers
Pooling Strategy	Mean pooling	CLS pooling
Additional Features	89 languages supported	Patch size 14x14

Jina CLIP v2 支援 89 種語言，並在主要語言（包括阿拉伯語、中文、英語、法語、德語、日語、俄語和西班牙語）中都有頂級表現。在多語言圖像檢索基準測試中，它的表現與或超過 NLLB-CLIP-SigLIP，這是一個稍大（1.3B，比 jina-clip-v2 大 44%）的最先進 CLIP 風格模型，使用了來自 NLLB 模型的預訓練文本編碼器。

tag純英語文本和圖像

在標準跨模態檢索基準（Flickr30k 和 COCO）上，jina-clip-v2 展示了全面的強大改進。它在 Flickr30k 圖像到文本檢索上達到了 98.0% 的最優性能，超過了其前身和 NLLB-CLIP-SigLIP。該模型在所有檢索場景中都表現出一致的提升，在 COCO 圖像到文本檢索上比 v1 提高了高達 3.3%，同時在不同基準和模態方向上都保持與 NLLB-CLIP-SigLIP 相當的競爭力。

Flickr30k Recall@5 性能：

Task	Model	Score	Relative to v1	Relative to NLLB
Image-to-text	jina-clip-v2	98.0	+1.7%	+0.9%
	jina-clip-v1	96.4	-	-0.7%
	nllb-siglip-large	97.1	-	-
Text-to-image	jina-clip-v2	89.8	+0.9%	-2.6%
	jina-clip-v1	89.0	-	-3.5%
	nllb-siglip-large	92.2	-	-

COCO Recall@5 性能：

Task	Model	Score	Relative to v1	Relative to NLLB
Image-to-text	jina-clip-v2	81.5	+3.3%	+2.9%
	jina-clip-v1	78.9	-	-0.4%
	nllb-siglip-large	79.2	-	-
Text-to-image	jina-clip-v2	68.4	+2.9%	-3.4%
	jina-clip-v1	66.5	-	-6.1%
	nllb-siglip-large	70.8	-	-

tag多語言文本和圖像

在多語言跨模態基準測試中，jina-clip-v2 展現出強健的性能，特別是在圖像到文本檢索方面表現出色，在所有數據集上都優於 NLLB-SigLIP，在 Crossmodal 3600 上提升高達 3.8%。雖然 NLLB-SigLIP 在文本到圖像檢索方面表現略優，但性能差距仍然很小，通常在 3% 以內。

圖像轉文字 Recall@5 效能：

Benchmark	Model	Score	Relative to NLLB
Crossmodal 3600	jina-clip-v2	83.23	+3.8%
	nllb-siglip-large	80.16	-
Multilingual MS Coco	jina-clip-v2	86.03	+0.8%
	nllb-siglip-large	85.37	-
XTD10	jina-clip-v2	85.98	+0.7%
	nllb-siglip-large	85.41	-

文字轉圖像 Recall@5 效能：

Benchmark	Model	Score	Relative to NLLB
Crossmodal 3600	jina-clip-v2	81.43	-0.8%
	nllb-siglip-large	82.07	-
Multilingual MS Coco	jina-clip-v2	84.87	-3.1%
	nllb-siglip-large	87.60	-
XTD10	jina-clip-v2	85.03	-3.0%
	nllb-siglip-large	87.63	-

tag純文字密集檢索器效能

與其前代產品類似，jina-clip-v2 的文字編碼器可作為高效的多語言密集檢索器。在全面的多語言 MTEB 基準測試中，它展現出強勁的效能，在檢索任務中達到 69.86%，在語義相似度任務中達到 67.77%。這些結果展示了它的多功能性，可與我們專門的文字嵌入模型 jina-embeddings-v3 相媲美：

Task	Model	Score	Relative to v3
Retrieval	jina-clip-v2	69.86	-3.8%
	jina-embeddings-v3	72.59	-
Semantic Similarity	jina-clip-v2	67.77	-2.9%
	jina-embeddings-v3	69.81	-

在英語任務中，jina-clip-v2 相較於其前代產品和 NLLB-SigLIP 都顯示出持續的改進，在檢索效能上尤其突出（幾乎是 NLLB-SigLIP 分數的兩倍）。

Task	Model	Score	Relative to v1
STS	jina-clip-v2	81.29	+0.5%
	jina-clip-v1	80.92	-
	nllb-siglip-large	74.65	-
Retrieval	jina-clip-v2	49.33	+2.1%
	jina-clip-v1	48.33	-
	nllb-siglip-large	24.92	-

tag俄羅斯套娃表示效能

文字和圖像編碼器都支援 MRL，它們的輸出維度可以被截斷至 64，同時仍保持強勁的效能。我們的嵌入截斷評估揭示了顯著的壓縮潛力。即使是 75% 的維度減少，在文字、圖像和跨模態任務中仍能保持超過 99% 的效能。

tag圖像分類

在 37 個多樣化的圖像分類基準測試中，圖像編碼器對維度截斷表現出強大的韌性。從 1024 壓縮到 64 維度（減少 94%）僅導致 top-5 準確率下降 8%，top-1 下降 12.5%，凸顯了其在最小效能損失下進行高效部署的潛力。

對於圖像分類，我們使用了 VTAB 數據集中的 19 個基準測試，VOC 2007、SUN397、STL10、Rendered SST2、ObjectNet、MNIST、德國交通標誌識別基準（GTSRB）、飛機細粒度視覺分類（FGVC-Aircraft）、FER 2013、Country211、Cars196、ImageNet-A、ImageNet-O、IxmageNet1k、ImageNet Sketch 以及 ImageNet v2。

儘管維度劇烈縮減 94% 至僅 64 維，使用截斷的圖像和文本嵌入進行的跨模態檢索仍然保持remarkably穩健，保留了 93% 的圖像到文本和 90% 的文本到圖像性能。

我們使用了六個基準測試，其中三個是多語言的：Crossmodal-3600（36 種語言）、flickr30k（僅英語）、flickr8k（僅英語）、MS COCO Captions（僅英語）、Multilingual MS COCO Captions（10 種語言）、XTD 200（27 種語言）

tag純文本檢索

在純英語 MTEB 基準測試中，64 維文本嵌入（從 1024 維壓縮）remarkably良好地保留了語義相似性，僅下降 2.1%，而檢索性能適度下降了 17.5%。

tag入門指南

tag通過 API

此代碼展示如何使用 Python 的 requests 生成嵌入。傳入文本字串和 base64 圖像或 URL，以及所需的維度大小（預設 1024，下面顯示為 768）。

import requests
import numpy as np
from numpy.linalg import norm

cos_sim = lambda a,b: (a @ b.T) / (norm(a)*norm(b))

url = 'https://api.jina.ai/v1/embeddings'

headers = {
  'Content-Type': 'application/json',
  'Authorization': 'Bearer <YOUR_JINA_AI_API_KEY>'
}

data = {
  'input': [
     {"text": "Bridge close-shot"},
     {"url": "https://fastly.picsum.photos/id/84/1280/848.jpg?hmac=YFRYDI4UsfbeTzI8ZakNOR98wVU7a-9a2tGF542539s"}],
  'model': 'jina-clip-v2',
  'encoding_type': 'float',
  'dimensions': '768' 
}

response = requests.post(url, headers=headers, json=data)
sim = cos_sim(np.array(response.json()['data'][0]['embedding']), np.array(response.json()['data'][1]['embedding']))
print(f"Cosine text<->image: {sim}")

記得將 <YOUR_JINA_AI_API_KEY> 替換為已激活的 Jina API 金鑰。您可以從這裡獲得一個包含一百萬免費代幣的免費 API 金鑰。

tag圖像代幣定價

我們的 API 同時計算文本和圖像代幣。對於圖像，代幣消耗基於覆蓋整個圖像區域所需的 512x512 像素塊數量。每個塊需要 4,000 個代幣來處理，包括部分填充的塊。為了獲得最佳成本效益，我們建議 API 用戶在發送請求前將圖像調整為 512x512。

圖像解析度	所需塊數	代幣成本
512x512	1	4,000
720x720	4	16,000
1080x1080	9	36,000

對於正方形圖像，調整為 512x512 可獲得最佳成本效益。對於需要保持長寬比的任務，將最長邊調整為 512，將圖像居中，並用黑色填充。對於一般用途，直接調整為 512x512 效果良好。

tag通過 CSP 市場

Jina CLIP v2 可直接在 AWS、Azure 和 GCP 上使用，價格如其所列。

Microsoft Azure Marketplace

Google Cloud console

透過 Google Cloud Marketplace 進行明智的消費、更快地採購，並兌現對 Google Cloud 的承諾支出。瀏覽超過 2000 個優化於 Google Cloud 運行的 SaaS、VM、開發堆疊和 Kubernetes 應用程式目錄。

tag透過 VectorDB

tag結論

在我們六月發布的 jina-clip-v1（將 OpenAI 的 CLIP 模型文本輸入擴展至 8,192 個令牌）以及前沿的多語言 jina-embeddings-v3 的基礎上，jina-clip-v2 帶來了三個重大進步：支援 89 種語言的多語言功能、提升至 512x512 的圖像解析度，以及用於更多截斷嵌入的套娃式表示學習。

類 CLIP 模型已經成為通用多模態應用程序的骨幹。透過 jina-clip-v2，我們將這些功能提升到新的層次，打破語言障礙，提供更準確的跨模態理解和檢索。我們相信這個版本實現了讓多模態搜尋和檢索變得更強大且更容易被全球開發者使用的承諾。