I/O 圖 1
I/O 圖 2
I/O 圖 3
I/O 圖 4
選擇要比較的模型
出版物 (1)
概述
Jina Embeddings V4 是一個擁有 38 億參數的多模態向量模型,提供統一的文本和圖像表示能力。該模型基於 Qwen2.5-VL-3B-Instruct 主幹網絡構建,其架構支持後期交互風格的單向量和多向量,從而突破了傳統 CLIP 式雙編碼器模型的侷限性。該模型集成了三個專門針對特定任務的 LoRA 適配器(每個適配器 60M 參數),可在不修改凍結的主幹網絡權重的情況下優化不同檢索場景(包括非對稱查詢文檔檢索、語義文本相似度和代碼搜索)的性能。該模型通過統一的處理路徑,在處理表格、圖表、示意圖、屏幕截圖和混合媒體格式等視覺豐富的內容方面表現出色,從而縮小了傳統架構中存在的模態差距。該模型支持多語言功能,可以處理多達 32,768 個標記的輸入文本,並將圖像調整為 20 兆像素,使其適用於跨不同語言和領域的各種文檔檢索和跨模式搜索應用程序。
方法
Jina Embeddings V4 實現了統一的多模態語言模型架構,不同於 CLIP 風格的雙編碼器方法。該模型通過共享路徑處理輸入,首先通過視覺編碼器將圖像轉換為 token 序列,然後通過帶有上下文注意層的語言模型解碼器將文本和圖像模態一起處理。該架構支持兩種輸出模式,以適應不同的用例:單向量,通過 Matryoshka 表徵學習生成可截斷至 128 維的 2048 維向量,並通過均值池化生成以實現高效的相似性搜索;多向量,通過投影層輸出每個 token 128 維,用於後期交互風格檢索。該模型包含三個特定於任務的 LoRA 適配器,可提供專門的優化:檢索適配器使用基於前綴的非對稱編碼和硬負樣本訓練來處理查詢文檔場景;文本匹配適配器使用 CoSENT 損失函數來處理語義相似性任務;代碼適配器則專注於自然語言到代碼的檢索應用。訓練分為兩個階段:初始配對訓練使用來自 300 多個來源的文本-文本和文本-圖像對的對比 InfoNCE 損失進行,然後使用基於三元組的方法和根據每個領域要求定製的專門損失函數對三個 LoRA 適配器進行特定任務的微調。
性能
Jina Embeddings V4 在多個基準測試類別中均取得了極具競爭力的性能。在視覺文檔檢索方面,它在 JinaVDR 基準測試中的平均得分為 72.19,而 ColPali-v1.2 為 64.50;在 ViDoRe 基準測試中的平均得分為 84.11,而 ColPali 為 83.90;多向量模式在 ViDoRe 上的得分高達 90.17。在跨模態檢索方面,該模型在 CLIP 基準測試中的得分為 84.11,而 jina-clip-v2 為 81.12,nllb-clip-large-siglip 為 83.19。在文本檢索任務中,它在 MTEB-en 上取得了 55.97 的成績,在 MMTEB 上取得了 66.49 的成績,在長文檔處理方面表現出色,在 LongEmbed 上取得了 67.11 的成績,而其前代產品僅為 55.66。該模型展現出紮實的語義文本相似度性能,在英語STS任務上得分為85.89,在多語言STS基準測試中得分為72.70。代碼檢索能力在CoIR基準測試中達到71.59,儘管像voyage-code-3(77.33)這樣的專用模型在此領域取得了更高的分數。該模型的跨模態對齊性能有所提升,得分為0.71,而OpenAI CLIP僅為0.15,從而解決了多模態模型中的模態差距問題。在視覺豐富的任務上,多向量模式始終優於單向量模式,而單向量模式則在標準檢索場景下提供了高效的性能。
最佳實踐
為了有效利用 Jina Embeddings V4,請根據您的具體應用需求選擇合適的 LoRA 適配器。對於查詢和文檔結構不同的非對稱查詢文檔檢索場景,請使用“檢索”適配器,並確保使用適當的前綴來區分查詢和段落內容。“文本匹配”適配器適用於語義相似性任務和對稱檢索,其目標是查找相似內容而非查詢的答案,因此非常適合文檔聚類、重複檢測和內容推薦系統。對於編程相關的應用,“代碼”適配器針對自然語言到代碼檢索、代碼到代碼相似性搜索以及技術問答場景進行了優化。根據您的性能和效率要求選擇輸出模式:單向量提供高效的相似性搜索,適用於存儲受限的環境,其可截斷維度允許在可接受的質量權衡下將維度從 2048 減少到 128-512;而多向量則為複雜的檢索任務提供更高的精度,尤其是在處理視覺內容豐富的文檔時,其中後期交互評分可以捕捉詳細的關係。該模型的統一架構允許處理混合文本圖像輸入,而無需單獨的編碼器或視覺文檔的 OCR 預處理。該模型的跨模態對齊功能和多語言支持使其非常適合國際應用。對於生產部署,在規劃內存需求時請考慮每個 LoRA 適配器 60M 的參數開銷,並注意所有三個適配器可以同時維護,額外內存佔用不到 2%,從而可以在推理過程中靈活地切換任務。
提及此模型的博客