jina-clip-v2

向量模型

CC BY-NC 4.0

發行説明

jina-clip-v2

文本和圖片的多語言多模態向量模型

許可證

CC-BY-NC-4.0

發佈日期

2024-11-05

輸入

圖片

文本

輸出

向量

支持的俄羅斯套娃維度

128

256

512

768

1024

模型詳細信息

參數: 865M

輸入詞元長度: 8K

輸入圖片大小: 512×512

輸出維度: 1024

底座模型

XLM-RoBERTa Large

訓練過的語言

32 語言

支持的語言

108 語言

相關模型

jina-clip-v1

標籤

multimodal-embedding

image-text-alignment

multilingual

large-context

instruction-tuned

masked-region-learning

production

cross-lingual-retrieval

zero-shot-classification

modality-gap-aware

可通過以下方式獲取

Elastic Inference Service Jina API 亞馬遜雲微軟雲谷歌雲抱抱臉

I/O 圖 1

I/O 圖 2

選擇要比較的模型

jina-clip-v2

jina-clip-v1

論文 (1)

ICLR 2025

十二月 12, 2024

jina-clip-v2: Multilingual Multimodal Embeddings for Text and Images

概述

Jina CLIP v2 徹底改變了多模態 AI，它彌合了 89 種語言中視覺和文本理解之間的差距。該模型通過實現準確的圖片文本匹配，解決了全球電子商務、內容管理和跨文化交流中的關鍵挑戰，不受語言障礙的影響。對於在國際上擴張或管理多語言內容的企業來説，它消除了對每種語言單獨使用模型或複雜翻譯流程的需求。該模型在需要跨語言邊界進行精確視覺搜索的場景中尤其出色，例如全球市場產品發現或多語言數字資產管理。

方法

Jina CLIP v2 的核心是採用複雜的雙編碼器架構，將 Jina XLM-RoBERTa 文本編碼器（561M 參數）與 EVA02-L14 視覺編碼器（304M 參數）相結合。文本編碼器使用 696,320 個詞元的海量上下文窗口處理 89 種語言的內容，而視覺編碼器則處理高達 512x512 像素的高分辨率圖片。該模型引入了創新的 Matryoshka 表示學習，可在保持性能的同時實現動態向量維度從 1024 維到 64 維的調整。該架構通過各自的編碼器處理文本和圖片，將它們投射到共享語義空間中，無論其原始模態或語言如何，相似的概念都可以對齊。

性能

該模型在 Flickr30k 圖片到文本檢索任務中實現了 98.0% 的準確率，超越了其前身和 NLLB-CLIP-SigLIP，達到了最佳性能。在多語言場景中，儘管參數比其最大的競爭對手少，但在跨語言圖片檢索任務中，該模型比 NLLB-CLIP-SigLIP 提高了 4%。即使向量被壓縮，該模型仍能保持強勁的性能 - 將尺寸減少 75% 仍可在文本、圖片和跨模態任務中保持 99% 以上的性能。在綜合多語言 MTEB 基準測試中，它在檢索任務中實現了 69.86%，在語義相似性任務中實現了 67.77%，與專門的文本向量模型相比具有競爭力。

最佳實踐

為了實現最佳部署，用户應考慮幾個關鍵因素。該模型需要支持 CUDA 的硬件才能高效處理，內存需求會根據批次大小和圖片分辨率進行調整。為了優化 API 成本和性能，請在處理之前將圖片大小調整為 512x512 像素 - 較大的圖片會自動平鋪，從而增加詞元使用量和處理時間。該模型擅長跨語言匹配帶有描述性文本的圖片，但可能難以處理抽象概念或高度專業化的特定領域內容。它對於電子商務產品搜索、內容推薦系統和視覺搜索應用程序特別有效，但可能不適合需要細粒度視覺細節分析或高度專業化領域專業知識的任務。使用 Matryoshka 表示功能時，請考慮降維和性能之間的權衡 - 雖然 64 維向量保持了強大的性能，但關鍵應用程序可能會受益於更高的維度。

提及此模型的博客

七月 31, 2025 • 12 分鐘的讀取量

圖像解析度如何影響視覺文件檢索

圖像解析度對於嵌入視覺上豐富的文件至關重要。解析度太小，模型會錯失關鍵細節；解析度太大，則無法連接各個部分。