jina-embeddings-v5-text-small

向量模型

CC BY-NC 4.0

發行説明

jina-embeddings-v5-text-small

具有特定任務適配器的最先進的多語言向量

許可證

CC-BY-NC-4.0

發佈日期

2026-02-18

輸入

文本

輸出

向量

支持的俄羅斯套娃維度

128

256

512

1024

遲分技術

模型詳細信息

參數: 677M

輸入詞元長度: 32K

輸出維度: 1024

底座模型

Qwen3-0.6B-Base

訓練過的語言

32 語言

支持的語言

93 語言

量化版本

GGUF

蘋果芯片優化

MLX

相關模型

jina-embeddings-v3

jina-embeddings-v5-text-nano

支持的任務

檢索

文本匹配

聚類

分類

標籤

text-embedding

multilingual

long-context

production

matryoshka

last-token-pooling

可通過以下方式獲取

Elastic Inference Service Jina API 抱抱臉

I/O 圖

選擇要比較的模型

jina-embeddings-v5-text-small

jina-embeddings-v3

jina-embeddings-v5-text-nano

論文 (1)

SIGIR 2026

二月 17, 2026

jina-embeddings-v5-text: Task-Targeted Embedding Distillation

概述

jina-embeddings-v5-text-small 是一個基於 Qwen3-0.6B-Base 骨幹網絡的 0.6B 參數多語言文本嵌入模型。它通過末位詞池化生成 1024 維嵌入，並通過旋轉位置嵌入 (RoPE) 和調整後的基頻支持高達 32K 個詞的上下文長度。該模型包含四個針對特定任務的 LoRA 適配器，分別用於檢索、語義相似度、聚類和分類，這些適配器在固定的骨幹網絡權重上獨立訓練。Matryoshka 表示學習支持將嵌入截斷到低至 32 維的維度。該模型採用兩階段訓練：首先，從 Qwen3-Embedding-4B 進行嵌入蒸餾，以遷移來自大型教師模型的知識；然後，使用針對每個任務類別的專用損失函數訓練特定任務的適配器。它支持使用“Query:”和“Document:”前綴的非對稱檢索。

方法

訓練分為兩個階段。第一階段，嵌入蒸餾利用投影后的學生嵌入和教師嵌入之間的餘弦距離損失，將知識從 Qwen3-Embedding-4B（一個 4B 參數的教師模型）遷移到 Qwen3-0.6B-Base 學生模型。一個線性投影層將學生的 1024 維空間映射到教師的高維空間。通用蒸餾使用 30 多個數據集，涵蓋 30 多種語言，進行 50,000 步訓練，隨後在合成和自然的長文檔（1,000-4,096 個詞元）上進行長上下文訓練，並調整 RoPE 參數。第二階段，在凍結的主幹權重上訓練四個 LoRA 適配器：檢索適配器結合了 InfoNCE 對比損失、硬負樣本、持續蒸餾損失以及全局正則化器 (GOR)，以增強量化魯棒性；文本匹配適配器使用 CoSENT 排序損失函數進行分級相似度計算，並對未評分的文本對進行知識蒸餾；聚類適配器使用重蒸餾，並結合聚類特定的教師指令；分類適配器使用雙向 InfoNCE 損失函數，並結合關係知識蒸餾正則化。最終檢索適配器的權重在各個檢查點取平均值。

性能

在 MMTEB（多語言）測試中，jina-embeddings-v5-text-small 的平均任務級得分為 67.0，平均類型級得分為 58.9，在所有參數量為 10 億的模型中名列前茅。其分類得分為 71.3，聚類得分為 53.4，配對分類得分為 82.9，重排序得分為 65.7，檢索得分為 64.9，STS 得分為 78.9。在英語 MTEB 測試中，其平均得分為 71.7，優於帶有指令的 Qwen3-0.6B（70.5）和 jina-embeddings-v3（65.7）。在檢索專用基準測試中，其 MTEB-M 檢索得分為 64.88，RTEB 為 66.84，BEIR 為 56.67，LongEmbed 為 66.39。該模型在配對分類方面超越了其教師 Qwen3-4B（MMTEB 上的 42.0 對 26.8），同時在所有其他類別中保持了具有競爭力的分數，儘管其體積只有教師的 6 倍。

最佳實踐

根據您的任務選擇合適的 LoRA 適配器：'retrieval' 用於非對稱查詢-文檔搜索（在查詢前添加 'Query:'，在段落前添加 'Document:'），'text-matching' 用於對稱相似性任務，例如重複檢測和釋義識別（兩個輸入均使用 'Document:' 前綴），'clustering' 用於對相關文檔進行分組，'classification' 用於分類和情感分析。對於檢索任務，請務必使用正確的前綴，因為模型是使用非對稱編碼進行訓練的。Matryoshka 截斷允許將嵌入維度從 1024 降低到低至 32 維；在 256 維以上時性能仍然良好，但低於該閾值時性能會明顯下降，這與 Johnson-Lindenstrauss 極限一致。由於採用了 GOR 正則化，二進制量化支持性能損失極小。32K 上下文窗口可以原生處理長文檔，但該模型還使用長上下文數據進行了額外訓練，以實現穩健的長文檔檢索。使用餘弦相似度進行嵌入比較。該模型可通過 Jina AI API、Hugging Face（集成了 Sentence Transformers 和 vLLM）以及 llama.cpp 的量化版本獲取。

提及此模型的博客

五月 12, 2026 • 7 分鐘的讀取量

jina-embeddings-v5-omni：支援文字、圖片、音訊與影片的向量模型

單一模型，四種模態：文字、圖像、音訊、影片。同級最佳的 1.6B 與 0.9B 全能型向量模型。

三月 06, 2026 • 6 分鐘的讀取量

從原始數值辨識向量模型

一個透過讀取原始數值來對向量模型進行指紋識別的微型 Transformer。無需特徵工程。

二月 19, 2026 • 7 分鐘的讀取量

jina-embeddings-v5-text：全新的 SOTA 小型多語言向量模型

兩款效能領先的 1B 以下多語言向量模型，現已於 Elastic Inference Service、Llama.cpp 與 MLX 上架。