jina-embeddings-v5-text：全新的 SOTA 小型多語言向量模型

jina-embeddings-v5-text：針對任務優化的向量模型蒸餾

文字向量模型廣泛應用於語意相似度任務，包括資訊檢索、分群和分類。通用模型通常透過單階段或多階段流程，並使用對比損失函數進行訓練。我們介紹了一種創新的訓練體系，將模型蒸餾技術與特定任務的對比損失相結合，以產生精簡且高效能的向量模型。研究結果顯示，相比單純使用對比學習或蒸餾訓練範式，這種方法對於訓練小模型更為有效。所產生的模型 jina-embeddings-v5-text-small 和 jina-embeddings-v5-text-nano 在評測分數上超越或持平於相同量級的現有頂尖模型。此外，jina-embeddings-v5-text 模型支援長文字（small 為 32K 詞元，nano 為 8K 詞元）且涵蓋多種語言，並能生成在截斷和二元量化下依然穩健的向量。模型權重已公開發布，期許能激發向量模型開發領域的進一步突破。

arXiv.orgMohammad Kalim Akram

我們發布了 jina-embeddings-v5-text，這是我們向量模型系列的第五代產品，推動了 1B 參數以下多語言向量模型的品質與效率極限：

jina-embeddings-v5-text-small (677M 參數)：MMTEB 得分 67.0，MTEB 英文得分 71.7
jina-embeddings-v5-text-nano (239M 參數)：MMTEB 得分 65.5，MTEB 英文得分 71.0

小模型支援 32K 詞元上下文（nano 為 8K），具備 4 個特定任務的 LoRA 配適器（檢索、文字匹配、分類、分群），並支援從 1024 到 32 的 Matryoshka 維度截斷。nano 模型僅有 239M 參數，卻能達到參數規模兩倍的模型所具備的檢索品質。

與我們的前幾代相比：v5-text-small 在檢索能力上與 jina-embeddings-v4 (3.8B) 持平，但體積縮小了 5.6 倍；且在相同參數規模下，全面超越了 jina-embeddings-v3 (572M) 的所有任務表現。

特性	v5-text-small	v5-text-nano
基礎模型	`Qwen3-0.6B-Base`	`EuroBERT-210m`
參數數量	677M	239M
向量維度	1024	768
上下文長度	32,768	8,192
支援語言	119 (Qwen3 詞元化器)	15+ (EuroBERT 詞元化器)
池化方式 (Pooling)	最後詞元 (Last-token)	最後詞元 (Last-token)
LoRA 配適器	4 (檢索、文字匹配、分類、分群)
Matryoshka 維度	32-1024	32-768
MMTEB 得分	67.0	65.5
MTEB 英文得分	71.7	71.0
授權協議	CC BY-NC 4.0

MMTEB Multilingual Benchmark — `v5-text-small` 在 MMTEB（橫跨 9 種任務類型的 131 個任務平均值）上獲得 **67.0** 分，領先次佳的 1B 以下模型（Qwen3-0.6B with instructions，得分 64.3）**+2.7 分**。nano 模型以 239M 的參數規模獲得 65.5 分，擊敗了參數兩倍於己的模型。

MTEB English Benchmark — 在僅限英文的評測中，`v5-text-small` 以 **71.7** 分（橫跨 7 種任務類型的 41 個任務平均值）領先所有 1B 以下的多語言向量模型，緊隨其後的是 `KaLM-mini-v2.5` (71.3) 和 `v5-text-nano` (71.0)。239M 的 nano 模型以不到一半的尺寸達到了與 494M 的 KaLM 模型同等的效能。

Retrieval Benchmark Results — `v5-text-small` 在五個檢索基準測試（MTEB Multilingual、MTEB English、RTEB、BEIR 和 LongEmbed）中獲得了最高的任務級別平均分（**63.28**），在 4B 以下模型中表現最優，與 jina-embeddings-v4 (3.8B, 63.62) 持平，同時體積縮小了 **5.6 倍**。

Table showing multilingual MTEB model performance metrics, rankings, and evaluations across various tasks and language benchm — 根據 2026/02/21 的 MTEB 排行榜，`jina-embeddings-v5-small`（0.6B 參數，排名第 8）是 MTEB Multilingual v2 上最強的 1B 參數以下向量模型，在各項指標上均優於 Qwen3-Embedding-0.6b。`jina-embeddings-v5-nano`（0.2B 參數，排名第 11）以極小的體積實現了前 11 名的效能，該參數級別中沒有其他模型能與之匹敵。

tag架構

<code>jina-embeddings-v5-text</code> Architecture

v5-text 使用純解碼器（decoder-only）的主幹網絡，並採用最後詞元（last-token）池化而非平均池化。每個 Transformer 層中注入了四個輕量級 LoRA 配適器，分別處理檢索、文字匹配、分類和分群任務。使用者在推理時可選擇合適的配適器。對於檢索任務，查詢 (Query) 會加上「Query:」前綴，文件則加上「Document:」。小型模型的上下文長度為 32K 詞元（nano 為 8K），相較於 v3 提升了 4 倍。

tag快速入門

tagElastic Inference Service

這是將 v5-text 用於生產環境最快的方式。Elastic Inference Service (EIS) 提供受管的向量推理服務，內建擴展能力，讓您無需管理基礎設施即可直接在 Elastic 部署中生成向量。

PUT _inference/text_embedding/jina-v5
{
  "service": "elastic",
  "service_settings": {
    "model_id": "jina-embeddings-v5-text-small"
  }
}

請參閱 EIS 文件以了解詳細設定資訊。

tagJina Embedding API

我們提供按詞元付費（pay-per-token）的託管 API。支援任務選擇、維度截斷和批次處理功能，且無需配置 GPU。

curl https://api.jina.ai/v1/embeddings \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -d '{
    "model": "jina-embeddings-v5-text-small",
    "task": "retrieval.query",
    "dimensions": 1024,
    "input": ["What is knowledge distillation?"]
  }'

請至 jina.ai/embeddings 獲取 API 金鑰。

tagHugging Face + sentence-transformers

透過本地端執行，完全掌控推論過程。權重已於 Hugging Face 上架，並開箱即用支援 sentence-transformers 整合。

from sentence_transformers import SentenceTransformer
import torch

model = SentenceTransformer(
    "jinaai/jina-embeddings-v5-text-small-retrieval",
    model_kwargs={"dtype": torch.bfloat16},
)

query_emb = model.encode("What is knowledge distillation?", prompt_name="query")
doc_embs = model.encode(["Knowledge distillation transfers...", "Venus is..."], prompt_name="document")
similarity = model.similarity(query_emb, doc_embs)

tagvLLM

為生產環境工作負載提供高吞吐量的服務。vLLM 原生支援 v5-text 並採用最後一個詞元 (last-token) 的池化方式。

from vllm import LLM
from vllm.config.pooler import PoolerConfig

model = LLM(
    model="jinaai/jina-embeddings-v5-text-small-retrieval",
    dtype="float16",
    runner="pooling",
    pooler_config=PoolerConfig(seq_pooling_type="LAST", normalize=True),
)
outputs = model.encode(["Query: climate change impacts"], pooling_task="embed")

為了透過 llama.cpp 和 MLX 進行優化的本地端推論，每個任務適配器 (task adapter) 的 LoRA 權重都會被合併到基礎模型中，以產生獨立的權重檔案。這就是為什麼您會看到每個任務（檢索、文字匹配、分類、分群）都有各自獨立的儲存庫——每個儲存庫都包含完整的合併權重，可直接載入，且推論時沒有 LoRA 的額外開銷。

tagllama.cpp (GGUF)

在 CPU 或邊緣裝置上執行量化模型。我們為每個模型提供 14 種 GGUF 量化版本，從 F16 到 IQ1_S 皆有涵蓋。

llama-server -hf jinaai/jina-embeddings-v5-text-small-retrieval-GGUF:Q4_K_M \
  --embedding --pooling last -ub 32768

tagMLX

透過 MLX 在 Apple Silicon 上進行原生推論。所有任務適配器均提供完整精度、4-bit 及 8-bit 量化版本。

import mlx.core as mx
from tokenizers import Tokenizer
from model import JinaEmbeddingModel
import json

with open("config.json") as f:
    config = json.load(f)

model = JinaEmbeddingModel(config)
weights = mx.load("model-4bit.safetensors")  # 或 model.safetensors, model-8bit.safetensors
model.load_weights(list(weights.items()))

tokenizer = Tokenizer.from_file("tokenizer.json")
texts = ["Query: What is machine learning?"]
embeddings = model.encode(texts, tokenizer)

請從 Hugging Face 下載：jinaai/jina-embeddings-v5-text-small-retrieval-mlx（同時也提供文字匹配、分類及分群適配器）。

tag訓練

這兩款模型皆蒸餾自 Qwen3-Embedding-4B，這是一款體積大得多的訓練用向量模型。小型版本以 Qwen3-0.6B-Base 作為骨幹，而極小 (nano) 版本則使用 EuroBERT-210m。我們的訓練結合了兩種互補的訊號：

向量模型蒸餾：透過餘弦相似度損失函數，由 4B 的教師模型進行蒸餾。學生模型學會了在無需指令式提示詞 (instruction-style prompts) 的情況下，近似教師模型的向量空間。這對於標記資料稀缺的語言和任務特別有效。
任務特定對比損失 (InfoNCE)：在標記的查詢-文件對上，結合困難負樣本挖掘 (hard negative mining) 與批次內負樣本 (in-batch negatives)。在凍結蒸餾後的骨幹網路後，我們為每個任務類別訓練獨立的 LoRA 適配器。

我們的消融實驗顯示，這種組合方法始終優於單一方法。在 MTEB 英文檢索基準測試中，組合方法達到了 60.1 nDCG@10，而相同骨幹下的單純蒸餾法為 58.6，單純對比學習法為 54.3。

我們還在訓練期間應用了 GOR (廣義正交正則化)，這能鼓勵向量分量分佈得更均勻。這雖然不會顯著提升標準基準測試分數，但卻使二值量化幾乎無損，這對於記憶體受限的部署環境來說至關重要。

訓練過程中幾個值得注意的觀察：

蒸餾與對比學習以我們最初未預料到的方式相互補充。
從我們的損失函數組合中移除任何單一組件，都會導致整體效能下降。
任務特定的 LoRA 適配器在參數開銷可忽略不計的情況下，表現優於多任務訓練。
GOR 正則化使二值量化幾乎無損，這對於部署的重要性遠大於全精度模型帶來的些微效能增益。

tag結論

向量模型正越來越多地被用作大型系統內的工具鏈組件。大模型代理 (LLM agents) 在代理工作流中呼叫向量模型 API 來進行檢索、記憶和分類。像 OpenClaw 和 OpenViking 這樣的專案將向量模型視為代理上下文管理的核心基礎設施層，而非單純的搜尋終端。在這種機制下，每次呼叫的推論成本與延遲與基準測試分數同樣重要，因此輕量化模型成為了必然的選擇。

向量模型趨向輕量化的潮流反映了一個更廣泛的轉變。端側檢索、瀏覽器端搜尋以及邊緣部署，全都要求模型能適應受限的記憶體預算。Matryoshka 維度支援讓單一模型無需重新訓練，即可同時提供高精度和超快速的近似搜尋。結合低至 1-2 bit 的 GGUF 量化，生產環境向量服務的有效記憶體佔用量可降低一個數量級。

我們正在開發 jina-embeddings-v5-multimodal，將相同的架構延伸至視覺與跨模態檢索。早期結果顯示，在不降低文字效能的前提下，將視覺編碼器與微調後的文字向量模型進行對齊是可行的。敬請期待。