

jina-clip-v2 API 可在「Embeddings」分頁下使用。
多模態嵌入能夠通過統一的表示方式實現跨不同模態的數據搜索和理解。它們是神經資訊檢索和多模態 GenAI 應用的骨幹。今天,我們很高興發布 jina-clip-v2,這是一個建立在 jina-clip-v1 和我們最近發布的 jina-embeddings-3
基礎上的新型通用多語言多模態嵌入,具有以下幾個關鍵改進:
- 性能提升:v2 在文本-圖像和文本-文本檢索任務中比 v1 提高了 3% 的性能。與 v1 類似,v2 的文本編碼器可以作為有效的多語言長文本密集檢索器。它的表現與我們的前沿模型 jina-embeddings-v3(目前在 MTEB 上參數量低於 1B 的最佳多語言嵌入)不相上下。
- 多語言支援:以 jina-embeddings-v3 作為文本塔,jina-clip-v2 支援 89 種語言的多語言圖像檢索,在多語言圖像檢索任務上比
nllb-clip-large-siglip
提高了高達 4% 的性能。 - 更高的圖像解析度:v2 現在支援 512x512 輸入圖像解析度,相比 v1 的 224x224 有顯著提升。這種更高的解析度能夠更好地處理細節圖像,提升特徵提取,並更準確地識別細緻的視覺元素。
- 套娃表示法:v2 允許用戶將文本和圖像嵌入的輸出維度從 1024 降至 64,減少存儲和處理開銷的同時保持強大的性能。
tag模型架構
jina-clip-v2 是一個 0.9B 的 CLIP 風格模型,結合了兩個強大的編碼器:文本編碼器 Jina XLM-RoBERTa
(jina-embeddings-v3 的骨幹)和視覺編碼器 EVA02-L14
(由 BAAI 開發的高效視覺 Transformer)。這些編碼器經過聯合訓練以創建圖像和文本的對齊表示。
Feature | Text Encoder | Image Encoder |
---|---|---|
Base Model | Jina XLM-RoBERTa | EVA02-L |
Parameters | 561M | 304M |
Input Specification | 8,192 tokens (max) | 512×512 pixels |
Min Output Dimensions | 64 | 64 |
Max Output Dimensions | 1,024 | 1,024 |
Layers | 24 | 24 |
Attention Mechanism | FlashAttention2 | xFormers |
Pooling Strategy | Mean pooling | CLS pooling |
Additional Features | 89 languages supported | Patch size 14x14 |
tag跨模態檢索性能
Jina CLIP v2 支援 89 種語言,並在主要語言(包括阿拉伯語、中文、英語、法語、德語、日語、俄語和西班牙語)中都有頂級表現。在多語言圖像檢索基準測試中,它的表現與或超過 NLLB-CLIP-SigLIP,這是一個稍大(1.3B,比 jina-clip-v2 大 44%)的最先進 CLIP 風格模型,使用了來自 NLLB 模型的預訓練文本編碼器。
tag純英語文本和圖像
在標準跨模態檢索基準(Flickr30k 和 COCO)上,jina-clip-v2 展示了全面的強大改進。它在 Flickr30k 圖像到文本檢索上達到了 98.0% 的最優性能,超過了其前身和 NLLB-CLIP-SigLIP。該模型在所有檢索場景中都表現出一致的提升,在 COCO 圖像到文本檢索上比 v1 提高了高達 3.3%,同時在不同基準和模態方向上都保持與 NLLB-CLIP-SigLIP 相當的競爭力。
Flickr30k Recall@5 性能:
Task | Model | Score | Relative to v1 | Relative to NLLB |
---|---|---|---|---|
Image-to-text | jina-clip-v2 | 98.0 | +1.7% | +0.9% |
jina-clip-v1 | 96.4 | - | -0.7% | |
nllb-siglip-large | 97.1 | - | - | |
Text-to-image | jina-clip-v2 | 89.8 | +0.9% | -2.6% |
jina-clip-v1 | 89.0 | - | -3.5% | |
nllb-siglip-large | 92.2 | - | - |
COCO Recall@5 性能:
Task | Model | Score | Relative to v1 | Relative to NLLB |
---|---|---|---|---|
Image-to-text | jina-clip-v2 | 81.5 | +3.3% | +2.9% |
jina-clip-v1 | 78.9 | - | -0.4% | |
nllb-siglip-large | 79.2 | - | - | |
Text-to-image | jina-clip-v2 | 68.4 | +2.9% | -3.4% |
jina-clip-v1 | 66.5 | - | -6.1% | |
nllb-siglip-large | 70.8 | - | - |
tag多語言文本和圖像
在多語言跨模態基準測試中,jina-clip-v2 展現出強健的性能,特別是在圖像到文本檢索方面表現出色,在所有數據集上都優於 NLLB-SigLIP,在 Crossmodal 3600 上提升高達 3.8%。雖然 NLLB-SigLIP 在文本到圖像檢索方面表現略優,但性能差距仍然很小,通常在 3% 以內。
圖像轉文字 Recall@5 效能:
Benchmark | Model | Score | Relative to NLLB |
---|---|---|---|
Crossmodal 3600 | jina-clip-v2 | 83.23 | +3.8% |
nllb-siglip-large | 80.16 | - | |
Multilingual MS Coco | jina-clip-v2 | 86.03 | +0.8% |
nllb-siglip-large | 85.37 | - | |
XTD10 | jina-clip-v2 | 85.98 | +0.7% |
nllb-siglip-large | 85.41 | - |
文字轉圖像 Recall@5 效能:
Benchmark | Model | Score | Relative to NLLB |
---|---|---|---|
Crossmodal 3600 | jina-clip-v2 | 81.43 | -0.8% |
nllb-siglip-large | 82.07 | - | |
Multilingual MS Coco | jina-clip-v2 | 84.87 | -3.1% |
nllb-siglip-large | 87.60 | - | |
XTD10 | jina-clip-v2 | 85.03 | -3.0% |
nllb-siglip-large | 87.63 | - |
tag純文字密集檢索器效能
與其前代產品類似,jina-clip-v2 的文字編碼器可作為高效的多語言密集檢索器。在全面的多語言 MTEB 基準測試中,它展現出強勁的效能,在檢索任務中達到 69.86%,在語義相似度任務中達到 67.77%。這些結果展示了它的多功能性,可與我們專門的文字嵌入模型 jina-embeddings-v3 相媲美:
Task | Model | Score | Relative to v3 |
---|---|---|---|
Retrieval | jina-clip-v2 | 69.86 | -3.8% |
jina-embeddings-v3 | 72.59 | - | |
Semantic Similarity | jina-clip-v2 | 67.77 | -2.9% |
jina-embeddings-v3 | 69.81 | - |
在英語任務中,jina-clip-v2 相較於其前代產品和 NLLB-SigLIP 都顯示出持續的改進,在檢索效能上尤其突出(幾乎是 NLLB-SigLIP 分數的兩倍)。
Task | Model | Score | Relative to v1 |
---|---|---|---|
STS | jina-clip-v2 | 81.29 | +0.5% |
jina-clip-v1 | 80.92 | - | |
nllb-siglip-large | 74.65 | - | |
Retrieval | jina-clip-v2 | 49.33 | +2.1% |
jina-clip-v1 | 48.33 | - | |
nllb-siglip-large | 24.92 | - |
tag俄羅斯套娃表示效能
文字和圖像編碼器都支援 MRL,它們的輸出維度可以被截斷至 64,同時仍保持強勁的效能。我們的嵌入截斷評估揭示了顯著的壓縮潛力。即使是 75% 的維度減少,在文字、圖像和跨模態任務中仍能保持超過 99% 的效能。
tag圖像分類
在 37 個多樣化的圖像分類基準測試中,圖像編碼器對維度截斷表現出強大的韌性。從 1024 壓縮到 64 維度(減少 94%)僅導致 top-5 準確率下降 8%,top-1 下降 12.5%,凸顯了其在最小效能損失下進行高效部署的潛力。
tag跨模態檢索
儘管維度劇烈縮減 94% 至僅 64 維,使用截斷的圖像和文本嵌入進行的跨模態檢索仍然保持remarkably穩健,保留了 93% 的圖像到文本和 90% 的文本到圖像性能。
tag純文本檢索
在純英語 MTEB 基準測試中,64 維文本嵌入(從 1024 維壓縮)remarkably良好地保留了語義相似性,僅下降 2.1%,而檢索性能適度下降了 17.5%。
tag入門指南
tag通過 API
此代碼展示如何使用 Python 的 requests
生成嵌入。傳入文本字串和 base64 圖像或 URL,以及所需的維度大小(預設 1024,下面顯示為 768)。
import requests
import numpy as np
from numpy.linalg import norm
cos_sim = lambda a,b: (a @ b.T) / (norm(a)*norm(b))
url = 'https://api.jina.ai/v1/embeddings'
headers = {
'Content-Type': 'application/json',
'Authorization': 'Bearer <YOUR_JINA_AI_API_KEY>'
}
data = {
'input': [
{"text": "Bridge close-shot"},
{"url": "https://fastly.picsum.photos/id/84/1280/848.jpg?hmac=YFRYDI4UsfbeTzI8ZakNOR98wVU7a-9a2tGF542539s"}],
'model': 'jina-clip-v2',
'encoding_type': 'float',
'dimensions': '768'
}
response = requests.post(url, headers=headers, json=data)
sim = cos_sim(np.array(response.json()['data'][0]['embedding']), np.array(response.json()['data'][1]['embedding']))
print(f"Cosine text<->image: {sim}")
記得將 <YOUR_JINA_AI_API_KEY> 替換為已激活的 Jina API 金鑰。您可以從這裡獲得一個包含一百萬免費代幣的免費 API 金鑰。
tag圖像代幣定價
我們的 API 同時計算文本和圖像代幣。對於圖像,代幣消耗基於覆蓋整個圖像區域所需的 512x512 像素塊數量。每個塊需要 4,000 個代幣來處理,包括部分填充的塊。為了獲得最佳成本效益,我們建議 API 用戶在發送請求前將圖像調整為 512x512。
圖像解析度 | 所需塊數 | 代幣成本 |
---|---|---|
512x512 | 1 | 4,000 |
720x720 | 4 | 16,000 |
1080x1080 | 9 | 36,000 |
tag通過 CSP 市場
Jina CLIP v2 可直接在 AWS、Azure 和 GCP 上使用,價格如其所列。

tag透過 VectorDB



tag結論
在我們六月發布的 jina-clip-v1(將 OpenAI 的 CLIP 模型文本輸入擴展至 8,192 個令牌)以及前沿的多語言 jina-embeddings-v3 的基礎上,jina-clip-v2 帶來了三個重大進步:支援 89 種語言的多語言功能、提升至 512x512 的圖像解析度,以及用於更多截斷嵌入的套娃式表示學習。
類 CLIP 模型已經成為通用多模態應用程序的骨幹。透過 jina-clip-v2,我們將這些功能提升到新的層次,打破語言障礙,提供更準確的跨模態理解和檢索。我們相信這個版本實現了讓多模態搜尋和檢索變得更強大且更容易被全球開發者使用的承諾。