新聞
模型
產品
keyboard_arrow_down
讀取器
讀取URL或搜索為大模型提供更好的依據。
向量模型
世界一流的多模態多語言向量模型。
重排器
世界一流的重排器,最大限度地提高搜索相關性。
深度搜索
搜索、讀取並推理直到找到最佳答案。
更多的
keyboard_arrow_down
分類器
圖片和文本的零樣本和少樣本分類。
切分器
將長文本切分成塊或詞元。

API 文檔
為您的AI 編程助手 IDE 或大模型自動生成代碼
open_in_new


公司
keyboard_arrow_down
關於我們
聯繫銷售
實習生計劃
加入我們
open_in_new
下載Logo
open_in_new
條款及條件


登錄
login
copyright

jina-embeddings-v4

用於多模態和多語言檢索的通用向量模型
發行説明arrow_forward
許可證
copyright
CC-BY-NC-4.0
發佈日期
calendar_month
2025-06-24
輸入
abc
文本
image
圖片
picture_as_pdf
PDF
arrow_forward
輸出
more_horiz
向量
apps
多向量
模型詳細信息
參數: 3.8B
輸入詞元長度: 32K
輸入圖片大小: 768×28×28
輸出維度: 2048
語言支持
🌍 多語言支持
相關模型
link
jina-embeddings-v3
link
jina-clip-v2
標籤
multimodal-embedding
document retrieval
multilingual
multi-vector
long-context
production
matryoshka
可通過以下方式獲取
Jina API商業許可證亞馬遜雲微軟雲谷歌雲抱抱臉
I/O 圖 1
I/O 圖 2
I/O 圖 3
I/O 圖 4
選擇要比較的模型
出版物 (1)
arXiv
六月 24, 2025
jina-embeddings-v4: Universal Embeddings for Multimodal Multilingual Retrieval

概述

Jina Embeddings V4 是一個擁有 38 億參數的多模態向量模型,提供統一的文本和圖像表示能力。該模型基於 Qwen2.5-VL-3B-Instruct 主幹網絡構建,其架構支持後期交互風格的單向量和多向量,從而突破了傳統 CLIP 式雙編碼器模型的侷限性。該模型集成了三個專門針對特定任務的 LoRA 適配器(每個適配器 60M 參數),可在不修改凍結的主幹網絡權重的情況下優化不同檢索場景(包括非對稱查詢文檔檢索、語義文本相似度和代碼搜索)的性能。該模型通過統一的處理路徑,在處理表格、圖表、示意圖、屏幕截圖和混合媒體格式等視覺豐富的內容方面表現出色,從而縮小了傳統架構中存在的模態差距。該模型支持多語言功能,可以處理多達 32,768 個標記的輸入文本,並將圖像調整為 20 兆像素,使其適用於跨不同語言和領域的各種文檔檢索和跨模式搜索應用程序。

方法

Jina Embeddings V4 實現了統一的多模態語言模型架構,不同於 CLIP 風格的雙編碼器方法。該模型通過共享路徑處理輸入,首先通過視覺編碼器將圖像轉換為 token 序列,然後通過帶有上下文注意層的語言模型解碼器將文本和圖像模態一起處理。該架構支持兩種輸出模式,以適應不同的用例:單向量,通過 Matryoshka 表徵學習生成可截斷至 128 維的 2048 維向量,並通過均值池化生成以實現高效的相似性搜索;多向量,通過投影層輸出每個 token 128 維,用於後期交互風格檢索。該模型包含三個特定於任務的 LoRA 適配器,可提供專門的優化:檢索適配器使用基於前綴的非對稱編碼和硬負樣本訓練來處理查詢文檔場景;文本匹配適配器使用 CoSENT 損失函數來處理語義相似性任務;代碼適配器則專注於自然語言到代碼的檢索應用。訓練分為兩個階段:初始配對訓練使用來自 300 多個來源的文本-文本和文本-圖像對的對比 InfoNCE 損失進行,然後使用基於三元組的方法和根據每個領域要求定製的專門損失函數對三個 LoRA 適配器進行特定任務的微調。

性能

Jina Embeddings V4 在多個基準測試類別中均取得了極具競爭力的性能。在視覺文檔檢索方面,它在 JinaVDR 基準測試中的平均得分為 72.19,而 ColPali-v1.2 為 64.50;在 ViDoRe 基準測試中的平均得分為 84.11,而 ColPali 為 83.90;多向量模式在 ViDoRe 上的得分高達 90.17。在跨模態檢索方面,該模型在 CLIP 基準測試中的得分為 84.11,而 jina-clip-v2 為 81.12,nllb-clip-large-siglip 為 83.19。在文本檢索任務中,它在 MTEB-en 上取得了 55.97 的成績,在 MMTEB 上取得了 66.49 的成績,在長文檔處理方面表現出色,在 LongEmbed 上取得了 67.11 的成績,而其前代產品僅為 55.66。該模型展現出紮實的語義文本相似度性能,在英語STS任務上得分為85.89,在多語言STS基準測試中得分為72.70。代碼檢索能力在CoIR基準測試中達到71.59,儘管像voyage-code-3(77.33)這樣的專用模型在此領域取得了更高的分數。該模型的跨模態對齊性能有所提升,得分為0.71,而OpenAI CLIP僅為0.15,從而解決了多模態模型中的模態差距問題。在視覺豐富的任務上,多向量模式始終優於單向量模式,而單向量模式則在標準檢索場景下提供了高效的性能。

最佳實踐

為了有效利用 Jina Embeddings V4,請根據您的具體應用需求選擇合適的 LoRA 適配器。對於查詢和文檔結構不同的非對稱查詢文檔檢索場景,請使用“檢索”適配器,並確保使用適當的前綴來區分查詢和段落內容。“文本匹配”適配器適用於語義相似性任務和對稱檢索,其目標是查找相似內容而非查詢的答案,因此非常適合文檔聚類、重複檢測和內容推薦系統。對於編程相關的應用,“代碼”適配器針對自然語言到代碼檢索、代碼到代碼相似性搜索以及技術問答場景進行了優化。根據您的性能和效率要求選擇輸出模式:單向量提供高效的相似性搜索,適用於存儲受限的環境,其可截斷維度允許在可接受的質量權衡下將維度從 2048 減少到 128-512;而多向量則為複雜的檢索任務提供更高的精度,尤其是在處理視覺內容豐富的文檔時,其中後期交互評分可以捕捉詳細的關係。該模型的統一架構允許處理混合文本圖像輸入,而無需單獨的編碼器或視覺文檔的 OCR 預處理。該模型的跨模態對齊功能和多語言支持使其非常適合國際應用。對於生產部署,在規劃內存需求時請考慮每個 LoRA 適配器 60M 的參數開銷,並注意所有三個適配器可以同時維護,額外內存佔用不到 2%,從而可以在推理過程中靈活地切換任務。
提及此模型的博客
六月 30, 2025 • 8 分鐘的讀取量
jina-embeddings-v4 的量化感知訓練
量化可以產生更小的向量模型 (Embeddings)。我們將向您展示經過微調的量化,甚至可以產生無損的向量模型。
Andrei Ungureanu
Scott Martens
Bo Wang
Retro-style digital screen displaying four pixelated images: a cat, a woman, an abstract figure, and a man's portrait, with l
七月 14, 2025 • 11 分鐘的讀取量
用於文本選擇、段落重排器和上下文工程的次模優化
與其仰賴提示詞調整並祈禱一切順利,不如學習次模優化,它能提供一個有原則的框架,並具有理論保證,從而實現更好的上下文工程。
Han Xiao
Network illustration of interconnected hexagons, some solid and some hollow blue, connected by red lines indicating paths or
六月 25, 2025 • 12 分鐘的讀取量
Jina 向量模型 v4:適用於多模態多語檢索的通用向量模型 (Embeddings)
Jina 向量模型 (Embeddings) v4 是一個 38 億參數的通用向量模型 (Embedding model),適用於多模和多語言檢索,支援單一向量和多向量向量模型 (Embedding) 輸出。
Jina AI
Word "Embeddings" followed by a numeric or symbol representation, displayed in multiple colors on a technology-themed, colorf
三月 07, 2025 • 14 分鐘的讀取量
長文本嵌入模型在超過 4K Token 後就會失去效用
我們對嵌入模型在新的「大海撈針」任務上進行研究,發現在超過 4K token 後,它們的表現就像在擲骰子一樣——即使是精確的詞彙匹配或查詢擴展,它們也無法在長上下文中分辨出有效信號和噪音。
Saahil Ognawala
Alex C-G
Vertical repetition of the word 'HAYSTACK' with a solitary 'NEEDLE' on a yellowish background.
一月 22, 2025 • 10 分鐘的讀取量
從 ModernBERT 中我們應該學到什麼?
更大的訓練資料、高效的參數配置,以及深而窄的架構,ModernBERT 為未來類 BERT 模型指出了發展方向。
Nan Wang
Alex C-G
Futuristic illustration with a central white circle surrounded by white dots on a dotted background.
辦公室
location_on
加利福尼亞州桑尼維爾
710 Lakeway Dr, Ste 200, 桑尼維爾, CA 94085, 美國
location_on
德國柏林(總部)
Prinzessinnenstraße 19-20,10969 柏林,德國
location_on
中國北京
中國北京市海淀區西大街48號6號樓5層
location_on
中國深圳
中國深圳市賦安科技大廈4樓402
搜索底座
讀取器
向量模型
重排器
深度搜索
分類器
切分器
API 文檔
獲取 Jina API 密鑰
速率限制
API 狀態
公司
關於我們
聯繫銷售
新聞
實習生計劃
加入我們
open_in_new
下載Logo
open_in_new
條款
安全
條款及條件
隱私
管理 Cookie
email
Jina AI © 2020-2025.