可通過以下方式獲取
I/O 圖
選擇要比較的模型
論文 (1)
概述
jina-embeddings-v5-text-small 是一個基於 Qwen3-0.6B-Base 骨幹網絡的 0.6B 參數多語言文本嵌入模型。它通過末位詞池化生成 1024 維嵌入,並通過旋轉位置嵌入 (RoPE) 和調整後的基頻支持高達 32K 個詞的上下文長度。該模型包含四個針對特定任務的 LoRA 適配器,分別用於檢索、語義相似度、聚類和分類,這些適配器在固定的骨幹網絡權重上獨立訓練。Matryoshka 表示學習支持將嵌入截斷到低至 32 維的維度。該模型採用兩階段訓練:首先,從 Qwen3-Embedding-4B 進行嵌入蒸餾,以遷移來自大型教師模型的知識;然後,使用針對每個任務類別的專用損失函數訓練特定任務的適配器。它支持使用“Query:”和“Document:”前綴的非對稱檢索。
方法
訓練分為兩個階段。第一階段,嵌入蒸餾利用投影后的學生嵌入和教師嵌入之間的餘弦距離損失,將知識從 Qwen3-Embedding-4B(一個 4B 參數的教師模型)遷移到 Qwen3-0.6B-Base 學生模型。一個線性投影層將學生的 1024 維空間映射到教師的高維空間。通用蒸餾使用 30 多個數據集,涵蓋 30 多種語言,進行 50,000 步訓練,隨後在合成和自然的長文檔(1,000-4,096 個詞元)上進行長上下文訓練,並調整 RoPE 參數。第二階段,在凍結的主幹權重上訓練四個 LoRA 適配器:檢索適配器結合了 InfoNCE 對比損失、硬負樣本、持續蒸餾損失以及全局正則化器 (GOR),以增強量化魯棒性;文本匹配適配器使用 CoSENT 排序損失函數進行分級相似度計算,並對未評分的文本對進行知識蒸餾;聚類適配器使用重蒸餾,並結合聚類特定的教師指令;分類適配器使用雙向 InfoNCE 損失函數,並結合關係知識蒸餾正則化。最終檢索適配器的權重在各個檢查點取平均值。
性能
在 MMTEB(多語言)測試中,jina-embeddings-v5-text-small 的平均任務級得分為 67.0,平均類型級得分為 58.9,在所有參數量為 10 億的模型中名列前茅。其分類得分為 71.3,聚類得分為 53.4,配對分類得分為 82.9,重排序得分為 65.7,檢索得分為 64.9,STS 得分為 78.9。在英語 MTEB 測試中,其平均得分為 71.7,優於帶有指令的 Qwen3-0.6B(70.5)和 jina-embeddings-v3(65.7)。在檢索專用基準測試中,其 MTEB-M 檢索得分為 64.88,RTEB 為 66.84,BEIR 為 56.67,LongEmbed 為 66.39。該模型在配對分類方面超越了其教師 Qwen3-4B(MMTEB 上的 42.0 對 26.8),同時在所有其他類別中保持了具有競爭力的分數,儘管其體積只有教師的 6 倍。
最佳實踐
根據您的任務選擇合適的 LoRA 適配器:'retrieval' 用於非對稱查詢-文檔搜索(在查詢前添加 'Query:',在段落前添加 'Document:'),'text-matching' 用於對稱相似性任務,例如重複檢測和釋義識別(兩個輸入均使用 'Document:' 前綴),'clustering' 用於對相關文檔進行分組,'classification' 用於分類和情感分析。對於檢索任務,請務必使用正確的前綴,因為模型是使用非對稱編碼進行訓練的。Matryoshka 截斷允許將嵌入維度從 1024 降低到低至 32 維;在 256 維以上時性能仍然良好,但低於該閾值時性能會明顯下降,這與 Johnson-Lindenstrauss 極限一致。由於採用了 GOR 正則化,二進制量化支持性能損失極小。32K 上下文窗口可以原生處理長文檔,但該模型還使用長上下文數據進行了額外訓練,以實現穩健的長文檔檢索。使用餘弦相似度進行嵌入比較。該模型可通過 Jina AI API、Hugging Face(集成了 Sentence Transformers 和 vLLM)以及 llama.cpp 的量化版本獲取。
提及此模型的博客





