

我們發布了 jina-embeddings-v5-text,這是我們向量模型系列的第五代產品,推動了 1B 參數以下多語言向量模型的品質與效率極限:
- jina-embeddings-v5-text-small (677M 參數):MMTEB 得分 67.0,MTEB 英文得分 71.7
- jina-embeddings-v5-text-nano (239M 參數):MMTEB 得分 65.5,MTEB 英文得分 71.0
小模型支援 32K 詞元上下文(nano 為 8K),具備 4 個特定任務的 LoRA 配適器(檢索、文字匹配、分類、分群),並支援從 1024 到 32 的 Matryoshka 維度截斷。nano 模型僅有 239M 參數,卻能達到參數規模兩倍的模型所具備的檢索品質。
與我們的前幾代相比:v5-text-small 在檢索能力上與 jina-embeddings-v4 (3.8B) 持平,但體積縮小了 5.6 倍;且在相同參數規模下,全面超越了 jina-embeddings-v3 (572M) 的所有任務表現。
| 特性 | v5-text-small | v5-text-nano |
|---|---|---|
| 基礎模型 | Qwen3-0.6B-Base | EuroBERT-210m |
| 參數數量 | 677M | 239M |
| 向量維度 | 1024 | 768 |
| 上下文長度 | 32,768 | 8,192 |
| 支援語言 | 119 (Qwen3 詞元化器) | 15+ (EuroBERT 詞元化器) |
| 池化方式 (Pooling) | 最後詞元 (Last-token) | 最後詞元 (Last-token) |
| LoRA 配適器 | 4 (檢索、文字匹配、分類、分群) | |
| Matryoshka 維度 | 32-1024 | 32-768 |
| MMTEB 得分 | 67.0 | 65.5 |
| MTEB 英文得分 | 71.7 | 71.0 |
| 授權協議 | CC BY-NC 4.0 |
v5-text-small 在 MMTEB(橫跨 9 種任務類型的 131 個任務平均值)上獲得 67.0 分,領先次佳的 1B 以下模型(Qwen3-0.6B with instructions,得分 64.3)+2.7 分。nano 模型以 239M 的參數規模獲得 65.5 分,擊敗了參數兩倍於己的模型。v5-text-small 以 71.7 分(橫跨 7 種任務類型的 41 個任務平均值)領先所有 1B 以下的多語言向量模型,緊隨其後的是 KaLM-mini-v2.5 (71.3) 和 v5-text-nano (71.0)。239M 的 nano 模型以不到一半的尺寸達到了與 494M 的 KaLM 模型同等的效能。v5-text-small 在五個檢索基準測試(MTEB Multilingual、MTEB English、RTEB、BEIR 和 LongEmbed)中獲得了最高的任務級別平均分(63.28),在 4B 以下模型中表現最優,與 jina-embeddings-v4 (3.8B, 63.62) 持平,同時體積縮小了 5.6 倍。
jina-embeddings-v5-small(0.6B 參數,排名第 8)是 MTEB Multilingual v2 上最強的 1B 參數以下向量模型,在各項指標上均優於 Qwen3-Embedding-0.6b。jina-embeddings-v5-nano(0.2B 參數,排名第 11)以極小的體積實現了前 11 名的效能,該參數級別中沒有其他模型能與之匹敵。tag架構

v5-text 使用純解碼器(decoder-only)的主幹網絡,並採用最後詞元(last-token)池化而非平均池化。每個 Transformer 層中注入了四個輕量級 LoRA 配適器,分別處理檢索、文字匹配、分類和分群任務。使用者在推理時可選擇合適的配適器。對於檢索任務,查詢 (Query) 會加上「Query:」前綴,文件則加上「Document:」。小型模型的上下文長度為 32K 詞元(nano 為 8K),相較於 v3 提升了 4 倍。
tag快速入門
tagElastic Inference Service
這是將 v5-text 用於生產環境最快的方式。Elastic Inference Service (EIS) 提供受管的向量推理服務,內建擴展能力,讓您無需管理基礎設施即可直接在 Elastic 部署中生成向量。
PUT _inference/text_embedding/jina-v5
{
"service": "elastic",
"service_settings": {
"model_id": "jina-embeddings-v5-text-small"
}
}
請參閱 EIS 文件以了解詳細設定資訊。
tagJina Embedding API
我們提供按詞元付費(pay-per-token)的託管 API。支援任務選擇、維度截斷和批次處理功能,且無需配置 GPU。
curl https://api.jina.ai/v1/embeddings \
-H "Content-Type: application/json" \
-H "Authorization: Bearer YOUR_API_KEY" \
-d '{
"model": "jina-embeddings-v5-text-small",
"task": "retrieval.query",
"dimensions": 1024,
"input": ["What is knowledge distillation?"]
}'
請至 jina.ai/embeddings 獲取 API 金鑰。
tagHugging Face + sentence-transformers
透過本地端執行,完全掌控推論過程。權重已於 Hugging Face 上架,並開箱即用支援 sentence-transformers 整合。
from sentence_transformers import SentenceTransformer
import torch
model = SentenceTransformer(
"jinaai/jina-embeddings-v5-text-small-retrieval",
model_kwargs={"dtype": torch.bfloat16},
)
query_emb = model.encode("What is knowledge distillation?", prompt_name="query")
doc_embs = model.encode(["Knowledge distillation transfers...", "Venus is..."], prompt_name="document")
similarity = model.similarity(query_emb, doc_embs)
tagvLLM
為生產環境工作負載提供高吞吐量的服務。vLLM 原生支援 v5-text 並採用最後一個詞元 (last-token) 的池化方式。
from vllm import LLM
from vllm.config.pooler import PoolerConfig
model = LLM(
model="jinaai/jina-embeddings-v5-text-small-retrieval",
dtype="float16",
runner="pooling",
pooler_config=PoolerConfig(seq_pooling_type="LAST", normalize=True),
)
outputs = model.encode(["Query: climate change impacts"], pooling_task="embed")
為了透過 llama.cpp 和 MLX 進行優化的本地端推論,每個任務適配器 (task adapter) 的 LoRA 權重都會被合併到基礎模型中,以產生獨立的權重檔案。這就是為什麼您會看到每個任務(檢索、文字匹配、分類、分群)都有各自獨立的儲存庫——每個儲存庫都包含完整的合併權重,可直接載入,且推論時沒有 LoRA 的額外開銷。
tagllama.cpp (GGUF)
在 CPU 或邊緣裝置上執行量化模型。我們為每個模型提供 14 種 GGUF 量化版本,從 F16 到 IQ1_S 皆有涵蓋。
llama-server -hf jinaai/jina-embeddings-v5-text-small-retrieval-GGUF:Q4_K_M \
--embedding --pooling last -ub 32768
tagMLX
透過 MLX 在 Apple Silicon 上進行原生推論。所有任務適配器均提供完整精度、4-bit 及 8-bit 量化版本。
import mlx.core as mx
from tokenizers import Tokenizer
from model import JinaEmbeddingModel
import json
with open("config.json") as f:
config = json.load(f)
model = JinaEmbeddingModel(config)
weights = mx.load("model-4bit.safetensors") # 或 model.safetensors, model-8bit.safetensors
model.load_weights(list(weights.items()))
tokenizer = Tokenizer.from_file("tokenizer.json")
texts = ["Query: What is machine learning?"]
embeddings = model.encode(texts, tokenizer)
請從 Hugging Face 下載:jinaai/jina-embeddings-v5-text-small-retrieval-mlx(同時也提供文字匹配、分類及分群適配器)。
tag訓練
這兩款模型皆蒸餾自 Qwen3-Embedding-4B,這是一款體積大得多的訓練用向量模型。小型版本以 Qwen3-0.6B-Base 作為骨幹,而極小 (nano) 版本則使用 EuroBERT-210m。我們的訓練結合了兩種互補的訊號:
- 向量模型蒸餾:透過餘弦相似度損失函數,由 4B 的教師模型進行蒸餾。學生模型學會了在無需指令式提示詞 (instruction-style prompts) 的情況下,近似教師模型的向量空間。這對於標記資料稀缺的語言和任務特別有效。
- 任務特定對比損失 (
InfoNCE):在標記的查詢-文件對上,結合困難負樣本挖掘 (hard negative mining) 與批次內負樣本 (in-batch negatives)。在凍結蒸餾後的骨幹網路後,我們為每個任務類別訓練獨立的 LoRA 適配器。
我們的消融實驗顯示,這種組合方法始終優於單一方法。在 MTEB 英文檢索基準測試中,組合方法達到了 60.1 nDCG@10,而相同骨幹下的單純蒸餾法為 58.6,單純對比學習法為 54.3。
我們還在訓練期間應用了 GOR (廣義正交正則化),這能鼓勵向量分量分佈得更均勻。這雖然不會顯著提升標準基準測試分數,但卻使二值量化幾乎無損,這對於記憶體受限的部署環境來說至關重要。
訓練過程中幾個值得注意的觀察:
- 蒸餾與對比學習以我們最初未預料到的方式相互補充。
- 從我們的損失函數組合中移除任何單一組件,都會導致整體效能下降。
- 任務特定的 LoRA 適配器在參數開銷可忽略不計的情況下,表現優於多任務訓練。
- GOR 正則化使二值量化幾乎無損,這對於部署的重要性遠大於全精度模型帶來的些微效能增益。
tag結論
向量模型正越來越多地被用作大型系統內的工具鏈組件。大模型代理 (LLM agents) 在代理工作流中呼叫向量模型 API 來進行檢索、記憶和分類。像 OpenClaw 和 OpenViking 這樣的專案將向量模型視為代理上下文管理的核心基礎設施層,而非單純的搜尋終端。在這種機制下,每次呼叫的推論成本與延遲與基準測試分數同樣重要,因此輕量化模型成為了必然的選擇。
向量模型趨向輕量化的潮流反映了一個更廣泛的轉變。端側檢索、瀏覽器端搜尋以及邊緣部署,全都要求模型能適應受限的記憶體預算。Matryoshka 維度支援讓單一模型無需重新訓練,即可同時提供高精度和超快速的近似搜尋。結合低至 1-2 bit 的 GGUF 量化,生產環境向量服務的有效記憶體佔用量可降低一個數量級。
我們正在開發 jina-embeddings-v5-multimodal,將相同的架構延伸至視覺與跨模態檢索。早期結果顯示,在不降低文字效能的前提下,將視覺編碼器與微調後的文字向量模型進行對齊是可行的。敬請期待。






