可通過以下方式獲取
I/O 圖
選擇要比較的模型
論文 (1)
概述
jina-embeddings-v5-text-nano 是一個基於 EuroBERT-210M 骨幹網構建的多語言文本嵌入模型,擁有 2.39 億個參數。EuroBERT-210M 是一個雙向編碼器,已在 15 種主要的歐洲和全球語言上進行預訓練。該模型通過最後一個詞元池化生成 768 維嵌入,並支持長度高達 3.2 萬個詞元的上下文。模型包含四個特定任務的 LoRA 適配器(每個適配器 670 萬個參數),分別用於檢索、語義相似度、聚類和分類。Matryoshka 表示學習技術支持將嵌入截斷到低至 32 維的維度。該模型使用 Qwen3-Embedding-4B 的嵌入蒸餾技術進行訓練,並結合特定任務的適配器訓練,其性能可與規模超過自身兩倍的模型相媲美,因此非常適合對延遲敏感和邊緣部署的應用場景。
方法
訓練過程與jina-embeddings-v5-text-small相同,採用兩階段流程,但應用於EuroBERT-210M骨幹網絡。第一階段是嵌入蒸餾,它使用餘弦距離損失函數,通過線性投影層將學生模型的768維嵌入映射到教師模型的空間,從而將知識從Qwen3-Embedding-4B遷移過來。訓練使用了來自300多個數據集的多種語言文本對。在第二階段,使用凍結的骨幹網絡權重訓練四個特定任務的LoRA適配器(每個適配器包含670萬個參數):檢索(InfoNCE + 知識蒸餾 + GOR)、文本匹配(CoSENT + 知識蒸餾)、聚類(使用特定任務的教師模型指令進行重蒸餾)和分類(雙向InfoNCE + 關係知識蒸餾)。EuroBERT骨幹網絡對包括英語、法語、德語、西班牙語、中文、日語、阿拉伯語和印地語在內的15種主要歐洲和全球語言提供了強大的多語言覆蓋。
性能
在 MMTEB(多語言)數據集上,jina-embeddings-v5-text-nano 模型僅使用 2.39 億個參數,就達到了任務級平均分 65.5 分和類型級平均分 57.7 分,優於所有參數量低於 5 億的模型,包括 KaLM-mini-v2.5(60.1 分,4.94 億個參數)、voyage-4-nano(58.9 分,4.8 億個參數)和 Gemma-300M(61.1 分,3.08 億個參數)。其分類得分為 69.2 分,聚類得分為 52.7 分,配對分類得分為 81.9 分,重排序得分為 64.6 分,檢索得分為 63.3 分,STS 得分為 78.2 分。在英語 MTEB 數據集上,其平均得分為 71.0 分,幾乎與參數量更大的 jina-embeddings-v5-text-small 模型(71.7 分)持平。在檢索基準測試中,該方法在 MTEB-M 上得分 63.26,在 RTEB 上得分 64.08,在 BEIR 上得分 56.06,在 LongEmbed 上得分 63.65。嵌入在二值量化下依然保持魯棒性,GOR 正則化將 MTEB 檢索的性能下降限制在 2 分以內。
最佳實踐
根據您的任務選擇合適的 LoRA 適配器:'retrieval' 用於非對稱查詢-文檔搜索(在查詢前添加 'Query:',在段落前添加 'Document:'),'text-matching' 用於對稱相似性任務(兩個輸入都使用 'Document:' 前綴),'clustering' 用於對相關文檔進行分組,'classification' 用於分類。該納米模型針對對延遲敏感和資源受限的部署進行了優化,同時保持了與規模超過其兩倍的模型相當的準確率。Matryoshka 截斷允許將嵌入維度從 768 維減少到低至 32 維;為獲得最佳結果,請將維度保持在 256 維以上。支持二進制量化。EuroBERT 骨幹網對包括英語、法語、德語、西班牙語、中文、日語、阿拉伯語和印地語在內的 15 種主要語言提供了強大的覆蓋。使用餘弦相似度進行嵌入比較。可通過 Jina AI API、Hugging Face(Sentence Transformers 和 vLLM)以及 llama.cpp 的量化變體獲得。
提及此模型的博客





