新聞
模型
API
keyboard_arrow_down
讀取器
讀取URL或搜索為大模型提供更好的依據。
向量模型
世界一流的多模態多語言向量模型。
重排器
世界一流的重排器,最大限度地提高搜索相關性。
Elastic Inference Service
在 Elasticsearch 中原生運行 Jina 模型。
MCP terminal命令行articlellms.txtsmart_toy代理人data_object模式menu_book文檔



登錄
login
向量模型
copyright CC BY-NC 4.0
open_in_new 發行説明

jina-clip-v2

文本和圖片的多語言多模態向量模型
許可證
copyright CC-BY-NC-4.0
發佈日期
calendar_month
2024-11-05
輸入
image
圖片
abc
文本
arrow_forward
輸出
more_horiz
向量
支持的俄羅斯套娃維度 help_outline
64
128
256
512
768
1024
模型詳細信息
參數: 865M
輸入詞元長度: 8K
輸入圖片大小: 512×512
輸出維度: 1024
底座模型 help_outline
open_in_new
XLM-RoBERTa Large
訓練過的語言 help_outline
32 語言
支持的語言 help_outline
108 語言
相關模型
link
jina-clip-v1
標籤
multimodal-embedding
image-text-alignment
multilingual
large-context
instruction-tuned
masked-region-learning
production
cross-lingual-retrieval
zero-shot-classification
modality-gap-aware
可通過以下方式獲取
Elastic Inference ServiceJina API亞馬遜雲微軟雲谷歌雲抱抱臉
I/O 圖 1

文本

jina-clip-v2

向量

I/O 圖 2

圖像

jina-clip-v2

向量

選擇要比較的模型
論文 (1)
ICLR 2025
十二月 12, 2024
jina-clip-v2: Multilingual Multimodal Embeddings for Text and Images

概述

Jina CLIP v2 徹底改變了多模態 AI,它彌合了 89 種語言中視覺和文本理解之間的差距。該模型通過實現準確的圖片文本匹配,解決了全球電子商務、內容管理和跨文化交流中的關鍵挑戰,不受語言障礙的影響。對於在國際上擴張或管理多語言內容的企業來説,它消除了對每種語言單獨使用模型或複雜翻譯流程的需求。該模型在需要跨語言邊界進行精確視覺搜索的場景中尤其出色,例如全球市場產品發現或多語言數字資產管理。

方法

Jina CLIP v2 的核心是採用複雜的雙編碼器架構,將 Jina XLM-RoBERTa 文本編碼器(561M 參數)與 EVA02-L14 視覺編碼器(304M 參數)相結合。文本編碼器使用 696,320 個詞元的海量上下文窗口處理 89 種語言的內容,而視覺編碼器則處理高達 512x512 像素的高分辨率圖片。該模型引入了創新的 Matryoshka 表示學習,可在保持性能的同時實現動態向量維度從 1024 維到 64 維的調整。該架構通過各自的編碼器處理文本和圖片,將它們投射到共享語義空間中,無論其原始模態或語言如何,相似的概念都可以對齊。

性能

該模型在 Flickr30k 圖片到文本檢索任務中實現了 98.0% 的準確率,超越了其前身和 NLLB-CLIP-SigLIP,達到了最佳性能。在多語言場景中,儘管參數比其最大的競爭對手少,但在跨語言圖片檢索任務中,該模型比 NLLB-CLIP-SigLIP 提高了 4%。即使向量被壓縮,該模型仍能保持強勁的性能 - 將尺寸減少 75% 仍可在文本、圖片和跨模態任務中保持 99% 以上的性能。在綜合多語言 MTEB 基準測試中,它在檢索任務中實現了 69.86%,在語義相似性任務中實現了 67.77%,與專門的文本向量模型相比具有競爭力。

最佳實踐

為了實現最佳部署,用户應考慮幾個關鍵因素。該模型需要支持 CUDA 的硬件才能高效處理,內存需求會根據批次大小和圖片分辨率進行調整。為了優化 API 成本和性能,請在處理之前將圖片大小調整為 512x512 像素 - 較大的圖片會自動平鋪,從而增加詞元使用量和處理時間。該模型擅長跨語言匹配帶有描述性文本的圖片,但可能難以處理抽象概念或高度專業化的特定領域內容。它對於電子商務產品搜索、內容推薦系統和視覺搜索應用程序特別有效,但可能不適合需要細粒度視覺細節分析或高度專業化領域專業知識的任務。使用 Matryoshka 表示功能時,請考慮降維和性能之間的權衡 - 雖然 64 維向量保持了強大的性能,但關鍵應用程序可能會受益於更高的維度。
提及此模型的博客
七月 31, 2025 • 12 分鐘的讀取量
圖像解析度如何影響視覺文件檢索
圖像解析度對於嵌入視覺上豐富的文件至關重要。解析度太小,模型會錯失關鍵細節;解析度太大,則無法連接各個部分。
Maximilian Werk
Michael Günther
Scott Martens
Abstract composition with a dark background featuring a flower-like design, radiant eye-like feature, rainbow-colored curved
七月 25, 2025 • 8 分鐘的讀取量
JinaVDR:全新視覺文件檢索基準,包含 20 種語言的 95 個任務
JinaVDR 是一個新的基準測試,涵蓋 20 種語言的 95 個視覺文件檢索任務,即將在 MTEB 上推出。
Maximilian Werk
Alex C-G
Black-and-white design for "Jinavor Benchmark" with bold text. Below, "Visual Docs: 95 Tasks: 20 Languages" appears; an abstr
六月 25, 2025 • 12 分鐘的讀取量
Jina 向量模型 v4:適用於多模態多語檢索的通用向量模型 (Embeddings)
Jina 向量模型 (Embeddings) v4 是一個 38 億參數的通用向量模型 (Embedding model),適用於多模和多語言檢索,支援單一向量和多向量向量模型 (Embedding) 輸出。
Jina AI
Word "Embeddings" followed by a numeric or symbol representation, displayed in multiple colors on a technology-themed, colorf
五月 28, 2025 • 4 分鐘的讀取量
關聯性:在 GUI 中進行向量模型 (Embeddings) 的氛圍測試
雖然我們對 MTEB 非常重視,但我們也很喜歡做氛圍測試 (vibe-testing)。Correlations 是一個簡單的 GUI,我們用它來驗證 DeepSearch 中的引用、偵錯延遲分塊 (late chunking) 以及氛圍測試 向量模型 (Embeddings)。現在它已經開源了。
Jina AI
Technical screen showing green and yellow visual data, including charts in the lower half and a heat-map-like visualization a
五月 25, 2025 • 21 分鐘的讀取量
ICLR2025 大會心得
我們整理了一些 ICLR 2025 中最有趣的論文,包括 TIPS、FlexPrefill、零樣本重排器 (Zero-Shot Rerankers)、SVD-LLM、Hymba 等。
Jina AI
Three people smiling on a stage at a conference with an ICLR banner visible, suggesting a warm and lively event atmosphere.
搜索底座
讀取器
向量模型
重排器
Elastic Inference Service
open_in_new
獲取 Jina API 密鑰
速率限制
API 狀態
公司
關於我們
聯繫銷售
新聞
實習生項目
下載 Jina 標誌
open_in_new
下載 Elastic 徽標
open_in_new
條款
安全
條款及條件
隱私
管理 Cookie
email
Elastic © 2020-2026.