新聞
模型
API
keyboard_arrow_down
讀取器
讀取URL或搜索為大模型提供更好的依據。
向量模型
世界一流的多模態多語言向量模型。
重排器
世界一流的重排器,最大限度地提高搜索相關性。
彈性推理服務
在 Elasticsearch 中原生運行 Jina 模型。
MCP terminal命令行articlellms.txtsmart_toy代理人data_object模式menu_book文檔



登錄
login
向量模型
Qwen 研究許可證
open_in_new 發行説明

jina-embeddings-v4

用於多模態和多語言檢索的通用向量模型
許可證
Qwen Research License
發佈日期
calendar_month
2025-06-24
輸入
abc
文本
image
圖片
picture_as_pdf
PDF
arrow_forward
輸出
more_horiz
向量
apps
多向量
支持的俄羅斯套娃維度 help_outline
128
256
512
1024
2048
遲分技術 help_outline
check_circle
Yes
模型詳細信息
參數: 3.8B
輸入詞元長度: 32K
輸入圖片大小: 768×28×28
輸出維度: 2048
底座模型 help_outline
open_in_new
Qwen2.5-VL-3B-Instruct
訓練過的語言 help_outline
34 語言
支持的語言 help_outline
29 語言
量化版本 help_outline
GGUF
相關模型
link
jina-embeddings-v3
link
jina-clip-v2
支持的任務
search 檢索
compare_arrows 文本匹配
code 代碼
標籤
multimodal-embedding
document retrieval
multilingual
multi-vector
long-context
production
matryoshka
可通過以下方式獲取
Jina API抱抱臉
I/O 圖 1

文本

jina-embeddings-v4

任務

向量

I/O 圖 2

圖像

jina-embeddings-v4

任務

向量

I/O 圖 3

多個

向量

文本

jina-embeddings-v4

任務

I/O 圖 4

多個

向量

圖像

jina-embeddings-v4

任務

選擇要比較的模型
論文 (1)
EMNLP 2025
六月 24, 2025
jina-embeddings-v4: Universal Embeddings for Multimodal Multilingual Retrieval

概述

Jina Embeddings V4 是一個擁有 38 億參數的多模態向量模型,提供統一的文本和圖像表示能力。該模型基於 Qwen2.5-VL-3B-Instruct 主幹網絡構建,其架構支持後期交互風格的單向量和多向量,從而突破了傳統 CLIP 式雙編碼器模型的侷限性。該模型集成了三個專門針對特定任務的 LoRA 適配器(每個適配器 60M 參數),可在不修改凍結的主幹網絡權重的情況下優化不同檢索場景(包括非對稱查詢文檔檢索、語義文本相似度和代碼搜索)的性能。該模型通過統一的處理路徑,在處理表格、圖表、示意圖、屏幕截圖和混合媒體格式等視覺豐富的內容方面表現出色,從而縮小了傳統架構中存在的模態差距。該模型支持多語言功能,可以處理多達 32,768 個標記的輸入文本,並將圖像調整為 20 兆像素,使其適用於跨不同語言和領域的各種文檔檢索和跨模式搜索應用程序。

方法

Jina Embeddings V4 實現了統一的多模態語言模型架構,不同於 CLIP 風格的雙編碼器方法。該模型通過共享路徑處理輸入,首先通過視覺編碼器將圖像轉換為 token 序列,然後通過帶有上下文注意層的語言模型解碼器將文本和圖像模態一起處理。該架構支持兩種輸出模式,以適應不同的用例:單向量,通過 Matryoshka 表徵學習生成可截斷至 128 維的 2048 維向量,並通過均值池化生成以實現高效的相似性搜索;多向量,通過投影層輸出每個 token 128 維,用於後期交互風格檢索。該模型包含三個特定於任務的 LoRA 適配器,可提供專門的優化:檢索適配器使用基於前綴的非對稱編碼和硬負樣本訓練來處理查詢文檔場景;文本匹配適配器使用 CoSENT 損失函數來處理語義相似性任務;代碼適配器則專注於自然語言到代碼的檢索應用。訓練分為兩個階段:初始配對訓練使用來自 300 多個來源的文本-文本和文本-圖像對的對比 InfoNCE 損失進行,然後使用基於三元組的方法和根據每個領域要求定製的專門損失函數對三個 LoRA 適配器進行特定任務的微調。

性能

Jina Embeddings V4 在多個基準測試類別中均取得了極具競爭力的性能。在視覺文檔檢索方面,它在 JinaVDR 基準測試中的平均得分為 72.19,而 ColPali-v1.2 為 64.50;在 ViDoRe 基準測試中的平均得分為 84.11,而 ColPali 為 83.90;多向量模式在 ViDoRe 上的得分高達 90.17。在跨模態檢索方面,該模型在 CLIP 基準測試中的得分為 84.11,而 jina-clip-v2 為 81.12,nllb-clip-large-siglip 為 83.19。在文本檢索任務中,它在 MTEB-en 上取得了 55.97 的成績,在 MMTEB 上取得了 66.49 的成績,在長文檔處理方面表現出色,在 LongEmbed 上取得了 67.11 的成績,而其前代產品僅為 55.66。該模型展現出紮實的語義文本相似度性能,在英語STS任務上得分為85.89,在多語言STS基準測試中得分為72.70。代碼檢索能力在CoIR基準測試中達到71.59,儘管像voyage-code-3(77.33)這樣的專用模型在此領域取得了更高的分數。該模型的跨模態對齊性能有所提升,得分為0.71,而OpenAI CLIP僅為0.15,從而解決了多模態模型中的模態差距問題。在視覺豐富的任務上,多向量模式始終優於單向量模式,而單向量模式則在標準檢索場景下提供了高效的性能。

最佳實踐

為了有效利用 Jina Embeddings V4,請根據您的具體應用需求選擇合適的 LoRA 適配器。對於查詢和文檔結構不同的非對稱查詢文檔檢索場景,請使用“檢索”適配器,並確保使用適當的前綴來區分查詢和段落內容。“文本匹配”適配器適用於語義相似性任務和對稱檢索,其目標是查找相似內容而非查詢的答案,因此非常適合文檔聚類、重複檢測和內容推薦系統。對於編程相關的應用,“代碼”適配器針對自然語言到代碼檢索、代碼到代碼相似性搜索以及技術問答場景進行了優化。根據您的性能和效率要求選擇輸出模式:單向量提供高效的相似性搜索,適用於存儲受限的環境,其可截斷維度允許在可接受的質量權衡下將維度從 2048 減少到 128-512;而多向量則為複雜的檢索任務提供更高的精度,尤其是在處理視覺內容豐富的文檔時,其中後期交互評分可以捕捉詳細的關係。該模型的統一架構允許處理混合文本圖像輸入,而無需單獨的編碼器或視覺文檔的 OCR 預處理。該模型的跨模態對齊功能和多語言支持使其非常適合國際應用。對於生產部署,在規劃內存需求時請考慮每個 LoRA 適配器 60M 的參數開銷,並注意所有三個適配器可以同時維護,額外內存佔用不到 2%,從而可以在推理過程中靈活地切換任務。
提及此模型的博客
六月 30, 2025 • 8 分鐘的讀取量
jina-embeddings-v4 的量化感知訓練
量化可以產生更小的向量模型 (Embeddings)。我們將向您展示經過微調的量化,甚至可以產生無損的向量模型。
Andrei Ungureanu
Scott Martens
Bo Wang
Retro-style digital screen displaying four pixelated images: a cat, a woman, an abstract figure, and a man's portrait, with l
三月 11, 2026 • 7 分鐘的讀取量
從多模態大模型引導音訊向量模型
將任何多模態大模型轉換為小型音訊向量模型,僅需 25 分之一的數據量,表現即可超越 CLAP。
Han Xiao
Abstract illustration of a sound wave or heartbeat, formed by blue, orange, and gray dots on a white background.
二月 19, 2026 • 7 分鐘的讀取量
jina-embeddings-v5-text: New SOTA Small Multilingual Embeddings
Two sub-1B multilingual embeddings with best-in-class performance, available on Elastic Inference Service, Llama.cpp and MLX.
Han Xiao
Abstract digital artwork in black and white, featuring scattered dots forming letters in a halftone effect. The central lette
九月 30, 2025 • 8 分鐘的讀取量
向量模型是 AI 界的灰姑娘
向量模型並不是人工智慧產業中最光鮮亮麗的一環,但如果沒有它們,圖片產生器和聊天機器人就不可能存在。
Scott Martens
Humorous office cartoon depicting a team gathered around robots; signs labeled "embeddings", "tools", "reasoning", and "lol"
九月 09, 2025 • 11 分鐘的讀取量
Llama.cpp 與 GGUF 中的多模態向量模型
我們將多模態向量模型引入了 llama.cpp 和 GGUF,並在此過程中發現了一些令人驚訝的問題。
Andrei Ungureanu
Alex C-G
Cartoon llama in the center of a white background, emitting laser-like beams from its eyes. The illustration creates a playfu
辦公室
location_on
加利福尼亞州桑尼維爾
710 Lakeway Dr, Ste 200, 桑尼維爾, 加州 94085, 美國
location_on
德國柏林
Prinzessinnenstraße 19-20,10969 柏林,德國
搜索底座
讀取器
向量模型
重排器
彈性推理服務
open_in_new
獲取 Jina API 密鑰
速率限制
API 狀態
公司
關於我們
聯繫銷售
新聞
實習生項目
下載 Jina 標誌
open_in_new
下載 Elastic 徽標
open_in_new
條款
安全
條款及條件
隱私
管理 Cookie
email
Elastic Jina AI © 2020-2026.