新聞
模型
產品
keyboard_arrow_down
深度搜索
搜索、讀取並推理直到找到最佳答案。
讀取器
讀取URL或搜索為大模型提供更好的依據。
向量模型
世界一流的多模態多語言向量模型。
重排器
世界一流的重排器,最大限度地提高搜索相關性。
更多的
keyboard_arrow_down
分類器
圖片和文本的零樣本和少樣本分類。
切分器
將長文本切分成塊或詞元。

API 文檔
為您的AI 編程助手 IDE 或大模型自動生成代碼
open_in_new


公司
keyboard_arrow_down
關於我們
聯繫銷售
實習生計劃
加入我們
open_in_new
下載Logo
open_in_new
條款及條件


登錄
login
模型架構
跨模態檢索性能
純文字密集檢索器效能
俄羅斯套娃表示效能
入門指南
結論
star
甄選
新聞稿
十一月 21, 2024

Jina CLIP v2:文本與影像的多語言多模態嵌入表示

Jina-CLIP v2,一個規模為 0.9B 的多模態嵌入模型,支援 89 種語言的多語言功能、512x512 的高解析度圖像處理能力,以及具備 Matryoshka 表示法。
Jina AI
Jina AI • 8 分鐘的讀取量
jinaai/jina-clip-v2 · Hugging Face
我們正在努力通過開源和開放科學來推進和民主化人工智能。
Jina AI - 您的搜尋基礎,超級加速。
同類最佳的嵌入、重排序器、LLM 閱讀器、網頁爬蟲、分類器。最佳的多語言和多模態資料搜尋 AI。
您的搜尋基礎,超級加速。

jina-clip-v2 API 可在「Embeddings」分頁下使用。

多模態嵌入能夠通過統一的表示方式實現跨不同模態的數據搜索和理解。它們是神經資訊檢索和多模態 GenAI 應用的骨幹。今天,我們很高興發布 jina-clip-v2,這是一個建立在 jina-clip-v1 和我們最近發布的 jina-embeddings-3 基礎上的新型通用多語言多模態嵌入,具有以下幾個關鍵改進:

  • 性能提升:v2 在文本-圖像和文本-文本檢索任務中比 v1 提高了 3% 的性能。與 v1 類似,v2 的文本編碼器可以作為有效的多語言長文本密集檢索器。它的表現與我們的前沿模型 jina-embeddings-v3(目前在 MTEB 上參數量低於 1B 的最佳多語言嵌入)不相上下。
  • 多語言支援:以 jina-embeddings-v3 作為文本塔,jina-clip-v2 支援 89 種語言的多語言圖像檢索,在多語言圖像檢索任務上比 nllb-clip-large-siglip 提高了高達 4% 的性能。
  • 更高的圖像解析度:v2 現在支援 512x512 輸入圖像解析度,相比 v1 的 224x224 有顯著提升。這種更高的解析度能夠更好地處理細節圖像,提升特徵提取,並更準確地識別細緻的視覺元素。
  • 套娃表示法:v2 允許用戶將文本和圖像嵌入的輸出維度從 1024 降至 64,減少存儲和處理開銷的同時保持強大的性能。

tag模型架構

jina-clip-v2 是一個 0.9B 的 CLIP 風格模型,結合了兩個強大的編碼器:文本編碼器 Jina XLM-RoBERTa(jina-embeddings-v3 的骨幹)和視覺編碼器 EVA02-L14(由 BAAI 開發的高效視覺 Transformer)。這些編碼器經過聯合訓練以創建圖像和文本的對齊表示。

Feature Text Encoder Image Encoder
Base Model Jina XLM-RoBERTa EVA02-L
Parameters 561M 304M
Input Specification 8,192 tokens (max) 512×512 pixels
Min Output Dimensions 64 64
Max Output Dimensions 1,024 1,024
Layers 24 24
Attention Mechanism FlashAttention2 xFormers
Pooling Strategy Mean pooling CLS pooling
Additional Features 89 languages supported Patch size 14x14

tag跨模態檢索性能

Jina CLIP v2 支援 89 種語言,並在主要語言(包括阿拉伯語、中文、英語、法語、德語、日語、俄語和西班牙語)中都有頂級表現。在多語言圖像檢索基準測試中,它的表現與或超過 NLLB-CLIP-SigLIP,這是一個稍大(1.3B,比 jina-clip-v2 大 44%)的最先進 CLIP 風格模型,使用了來自 NLLB 模型的預訓練文本編碼器。

tag純英語文本和圖像

在標準跨模態檢索基準(Flickr30k 和 COCO)上,jina-clip-v2 展示了全面的強大改進。它在 Flickr30k 圖像到文本檢索上達到了 98.0% 的最優性能,超過了其前身和 NLLB-CLIP-SigLIP。該模型在所有檢索場景中都表現出一致的提升,在 COCO 圖像到文本檢索上比 v1 提高了高達 3.3%,同時在不同基準和模態方向上都保持與 NLLB-CLIP-SigLIP 相當的競爭力。

Flickr30k Recall@5 性能:

Task Model Score Relative to v1 Relative to NLLB
Image-to-text jina-clip-v2 98.0 +1.7% +0.9%
jina-clip-v1 96.4 - -0.7%
nllb-siglip-large 97.1 - -
Text-to-image jina-clip-v2 89.8 +0.9% -2.6%
jina-clip-v1 89.0 - -3.5%
nllb-siglip-large 92.2 - -

COCO Recall@5 性能:

Task Model Score Relative to v1 Relative to NLLB
Image-to-text jina-clip-v2 81.5 +3.3% +2.9%
jina-clip-v1 78.9 - -0.4%
nllb-siglip-large 79.2 - -
Text-to-image jina-clip-v2 68.4 +2.9% -3.4%
jina-clip-v1 66.5 - -6.1%
nllb-siglip-large 70.8 - -

tag多語言文本和圖像

在多語言跨模態基準測試中,jina-clip-v2 展現出強健的性能,特別是在圖像到文本檢索方面表現出色,在所有數據集上都優於 NLLB-SigLIP,在 Crossmodal 3600 上提升高達 3.8%。雖然 NLLB-SigLIP 在文本到圖像檢索方面表現略優,但性能差距仍然很小,通常在 3% 以內。

圖像轉文字 Recall@5 效能:

Benchmark Model Score Relative to NLLB
Crossmodal 3600 jina-clip-v2 83.23 +3.8%
nllb-siglip-large 80.16 -
Multilingual MS Coco jina-clip-v2 86.03 +0.8%
nllb-siglip-large 85.37 -
XTD10 jina-clip-v2 85.98 +0.7%
nllb-siglip-large 85.41 -

文字轉圖像 Recall@5 效能:

Benchmark Model Score Relative to NLLB
Crossmodal 3600 jina-clip-v2 81.43 -0.8%
nllb-siglip-large 82.07 -
Multilingual MS Coco jina-clip-v2 84.87 -3.1%
nllb-siglip-large 87.60 -
XTD10 jina-clip-v2 85.03 -3.0%
nllb-siglip-large 87.63 -

tag純文字密集檢索器效能

與其前代產品類似,jina-clip-v2 的文字編碼器可作為高效的多語言密集檢索器。在全面的多語言 MTEB 基準測試中,它展現出強勁的效能,在檢索任務中達到 69.86%,在語義相似度任務中達到 67.77%。這些結果展示了它的多功能性,可與我們專門的文字嵌入模型 jina-embeddings-v3 相媲美:

Task Model Score Relative to v3
Retrieval jina-clip-v2 69.86 -3.8%
jina-embeddings-v3 72.59 -
Semantic Similarity jina-clip-v2 67.77 -2.9%
jina-embeddings-v3 69.81 -

在英語任務中,jina-clip-v2 相較於其前代產品和 NLLB-SigLIP 都顯示出持續的改進,在檢索效能上尤其突出(幾乎是 NLLB-SigLIP 分數的兩倍)。

Task Model Score Relative to v1
STS jina-clip-v2 81.29 +0.5%
jina-clip-v1 80.92 -
nllb-siglip-large 74.65 -
Retrieval jina-clip-v2 49.33 +2.1%
jina-clip-v1 48.33 -
nllb-siglip-large 24.92 -

tag俄羅斯套娃表示效能

文字和圖像編碼器都支援 MRL,它們的輸出維度可以被截斷至 64,同時仍保持強勁的效能。我們的嵌入截斷評估揭示了顯著的壓縮潛力。即使是 75% 的維度減少,在文字、圖像和跨模態任務中仍能保持超過 99% 的效能。

tag圖像分類

在 37 個多樣化的圖像分類基準測試中,圖像編碼器對維度截斷表現出強大的韌性。從 1024 壓縮到 64 維度(減少 94%)僅導致 top-5 準確率下降 8%,top-1 下降 12.5%,凸顯了其在最小效能損失下進行高效部署的潛力。

對於圖像分類,我們使用了 VTAB 數據集中的 19 個基準測試,VOC 2007、SUN397、STL10、Rendered SST2、ObjectNet、MNIST、德國交通標誌識別基準(GTSRB)、飛機細粒度視覺分類(FGVC-Aircraft)、FER 2013、Country211、Cars196、ImageNet-A、ImageNet-O、IxmageNet1k、ImageNet Sketch 以及 ImageNet v2。

tag跨模態檢索

儘管維度劇烈縮減 94% 至僅 64 維,使用截斷的圖像和文本嵌入進行的跨模態檢索仍然保持remarkably穩健,保留了 93% 的圖像到文本和 90% 的文本到圖像性能。

我們使用了六個基準測試,其中三個是多語言的:Crossmodal-3600(36 種語言)、flickr30k(僅英語)、flickr8k(僅英語)、MS COCO Captions(僅英語)、Multilingual MS COCO Captions(10 種語言)、XTD 200(27 種語言)

tag純文本檢索

在純英語 MTEB 基準測試中,64 維文本嵌入(從 1024 維壓縮)remarkably良好地保留了語義相似性,僅下降 2.1%,而檢索性能適度下降了 17.5%。

tag入門指南

tag通過 API

此代碼展示如何使用 Python 的 requests 生成嵌入。傳入文本字串和 base64 圖像或 URL,以及所需的維度大小(預設 1024,下面顯示為 768)。

import requests
import numpy as np
from numpy.linalg import norm

cos_sim = lambda a,b: (a @ b.T) / (norm(a)*norm(b))

url = 'https://api.jina.ai/v1/embeddings'

headers = {
  'Content-Type': 'application/json',
  'Authorization': 'Bearer <YOUR_JINA_AI_API_KEY>'
}

data = {
  'input': [
     {"text": "Bridge close-shot"},
     {"url": "https://fastly.picsum.photos/id/84/1280/848.jpg?hmac=YFRYDI4UsfbeTzI8ZakNOR98wVU7a-9a2tGF542539s"}],
  'model': 'jina-clip-v2',
  'encoding_type': 'float',
  'dimensions': '768' 
}

response = requests.post(url, headers=headers, json=data)
sim = cos_sim(np.array(response.json()['data'][0]['embedding']), np.array(response.json()['data'][1]['embedding']))
print(f"Cosine text<->image: {sim}")

記得將 <YOUR_JINA_AI_API_KEY> 替換為已激活的 Jina API 金鑰。您可以從這裡獲得一個包含一百萬免費代幣的免費 API 金鑰。

tag圖像代幣定價

我們的 API 同時計算文本和圖像代幣。對於圖像,代幣消耗基於覆蓋整個圖像區域所需的 512x512 像素塊數量。每個塊需要 4,000 個代幣來處理,包括部分填充的塊。為了獲得最佳成本效益,我們建議 API 用戶在發送請求前將圖像調整為 512x512。

圖像解析度 所需塊數 代幣成本
512x512 1 4,000
720x720 4 16,000
1080x1080 9 36,000
對於正方形圖像,調整為 512x512 可獲得最佳成本效益。對於需要保持長寬比的任務,將最長邊調整為 512,將圖像居中,並用黑色填充。對於一般用途,直接調整為 512x512 效果良好。

tag通過 CSP 市場

Jina CLIP v2 可直接在 AWS、Azure 和 GCP 上使用,價格如其所列。

AWS Marketplace: Jina CLIP v2
Microsoft Azure Marketplace
Google Cloud console
透過 Google Cloud Marketplace 進行明智的消費、更快地採購,並兌現對 Google Cloud 的承諾支出。瀏覽超過 2000 個優化於 Google Cloud 運行的 SaaS、VM、開發堆疊和 Kubernetes 應用程式目錄。

tag透過 VectorDB

建構具知識的 AI 向量資料庫 | Pinecone
在數毫秒內搜尋數十億個項目中與任何物件相似的匹配。這是下一代的搜尋技術,只需一個 API 呼叫即可。
Pinecone Docs
多模態嵌入 | Weaviate
Weaviate 與 Jina AI 的 API 整合讓您能直接從 Weaviate 存取他們的模型功能。
Weaviate
Jina Embeddings - Qdrant
Qdrant 是一個使用 Rust 編寫的開源向量資料庫和向量搜尋引擎。它提供快速且可擴展的向量相似度搜尋服務,具有便利的 API。
editQdrant

tag結論

在我們六月發布的 jina-clip-v1(將 OpenAI 的 CLIP 模型文本輸入擴展至 8,192 個令牌)以及前沿的多語言 jina-embeddings-v3 的基礎上,jina-clip-v2 帶來了三個重大進步:支援 89 種語言的多語言功能、提升至 512x512 的圖像解析度,以及用於更多截斷嵌入的套娃式表示學習。

類 CLIP 模型已經成為通用多模態應用程序的骨幹。透過 jina-clip-v2,我們將這些功能提升到新的層次,打破語言障礙,提供更準確的跨模態理解和檢索。我們相信這個版本實現了讓多模態搜尋和檢索變得更強大且更容易被全球開發者使用的承諾。

類別:
star
甄選
新聞稿
rss_feed
辦公室
location_on
加利福尼亞州桑尼維爾
710 Lakeway Dr, Ste 200, 桑尼維爾, CA 94085, 美國
location_on
德國柏林(總部)
Prinzessinnenstraße 19-20,10969 柏林,德國
location_on
中國北京
中國北京市海淀區西大街48號6號樓5層
location_on
中國深圳
中國深圳市賦安科技大廈4樓402
搜索底座
深度搜索
讀取器
向量模型
重排器
分類器
切分器
API 文檔
獲取 Jina API 密鑰
速率限制
API 狀態
公司
關於我們
聯繫銷售
新聞
實習生計劃
加入我們
open_in_new
下載Logo
open_in_new
條款
安全
條款及條件
隱私
管理 Cookie
email
Jina AI © 2020-2025.