I/O 圖 1
I/O 圖 2
選擇要比較的模型
論文 (1)
概述
Jina CLIP v2 徹底改變了多模態 AI,它彌合了 89 種語言中視覺和文本理解之間的差距。該模型通過實現準確的圖片文本匹配,解決了全球電子商務、內容管理和跨文化交流中的關鍵挑戰,不受語言障礙的影響。對於在國際上擴張或管理多語言內容的企業來説,它消除了對每種語言單獨使用模型或複雜翻譯流程的需求。該模型在需要跨語言邊界進行精確視覺搜索的場景中尤其出色,例如全球市場產品發現或多語言數字資產管理。
方法
Jina CLIP v2 的核心是採用複雜的雙編碼器架構,將 Jina XLM-RoBERTa 文本編碼器(561M 參數)與 EVA02-L14 視覺編碼器(304M 參數)相結合。文本編碼器使用 696,320 個詞元的海量上下文窗口處理 89 種語言的內容,而視覺編碼器則處理高達 512x512 像素的高分辨率圖片。該模型引入了創新的 Matryoshka 表示學習,可在保持性能的同時實現動態向量維度從 1024 維到 64 維的調整。該架構通過各自的編碼器處理文本和圖片,將它們投射到共享語義空間中,無論其原始模態或語言如何,相似的概念都可以對齊。
性能
該模型在 Flickr30k 圖片到文本檢索任務中實現了 98.0% 的準確率,超越了其前身和 NLLB-CLIP-SigLIP,達到了最佳性能。在多語言場景中,儘管參數比其最大的競爭對手少,但在跨語言圖片檢索任務中,該模型比 NLLB-CLIP-SigLIP 提高了 4%。即使向量被壓縮,該模型仍能保持強勁的性能 - 將尺寸減少 75% 仍可在文本、圖片和跨模態任務中保持 99% 以上的性能。在綜合多語言 MTEB 基準測試中,它在檢索任務中實現了 69.86%,在語義相似性任務中實現了 67.77%,與專門的文本向量模型相比具有競爭力。
最佳實踐
為了實現最佳部署,用户應考慮幾個關鍵因素。該模型需要支持 CUDA 的硬件才能高效處理,內存需求會根據批次大小和圖片分辨率進行調整。為了優化 API 成本和性能,請在處理之前將圖片大小調整為 512x512 像素 - 較大的圖片會自動平鋪,從而增加詞元使用量和處理時間。該模型擅長跨語言匹配帶有描述性文本的圖片,但可能難以處理抽象概念或高度專業化的特定領域內容。它對於電子商務產品搜索、內容推薦系統和視覺搜索應用程序特別有效,但可能不適合需要細粒度視覺細節分析或高度專業化領域專業知識的任務。使用 Matryoshka 表示功能時,請考慮降維和性能之間的權衡 - 雖然 64 維向量保持了強大的性能,但關鍵應用程序可能會受益於更高的維度。
提及此模型的博客










