新聞
模型
API
keyboard_arrow_down
讀取器
讀取URL或搜索為大模型提供更好的依據。
向量模型
世界一流的多模態多語言向量模型。
重排器
世界一流的重排器,最大限度地提高搜索相關性。
Elastic Inference Service
在 Elasticsearch 中原生運行 Jina 模型。
MCP terminal命令行articlellms.txtsmart_toy代理人data_object模式menu_book文檔



登錄
login
架構
快速入門
訓練
結論
star
甄選
新聞稿
二月 19, 2026

jina-embeddings-v5-text:全新的 SOTA 小型多語言向量模型

兩款效能領先的 1B 以下多語言向量模型,現已於 Elastic Inference Service、Llama.cpp 與 MLX 上架。
Abstract digital artwork in black and white, featuring scattered dots forming letters in a halftone effect. The central lette
Han Xiao
Han Xiao • 7 分鐘的讀取量
jina-embeddings-v5-text:針對任務優化的向量模型蒸餾
文字向量模型廣泛應用於語意相似度任務,包括資訊檢索、分群和分類。通用模型通常透過單階段或多階段流程,並使用對比損失函數進行訓練。我們介紹了一種創新的訓練體系,將模型蒸餾技術與特定任務的對比損失相結合,以產生精簡且高效能的向量模型。研究結果顯示,相比單純使用對比學習或蒸餾訓練範式,這種方法對於訓練小模型更為有效。所產生的模型 jina-embeddings-v5-text-small 和 jina-embeddings-v5-text-nano 在評測分數上超越或持平於相同量級的現有頂尖模型。此外,jina-embeddings-v5-text 模型支援長文字(small 為 32K 詞元,nano 為 8K 詞元)且涵蓋多種語言,並能生成在截斷和二元量化下依然穩健的向量。模型權重已公開發布,期許能激發向量模型開發領域的進一步突破。
arXiv.orgMohammad Kalim Akram
jina-embeddings-v5-text - jinaai 集合
我們的第五代向量模型:兩款輕量級多語言模型,在檢索、匹配、分群和分類任務上均達到 SOTA 效能。
a jinaai Collection

我們發布了 jina-embeddings-v5-text,這是我們向量模型系列的第五代產品,推動了 1B 參數以下多語言向量模型的品質與效率極限:

  • jina-embeddings-v5-text-small (677M 參數):MMTEB 得分 67.0,MTEB 英文得分 71.7
  • jina-embeddings-v5-text-nano (239M 參數):MMTEB 得分 65.5,MTEB 英文得分 71.0

小模型支援 32K 詞元上下文(nano 為 8K),具備 4 個特定任務的 LoRA 配適器(檢索、文字匹配、分類、分群),並支援從 1024 到 32 的 Matryoshka 維度截斷。nano 模型僅有 239M 參數,卻能達到參數規模兩倍的模型所具備的檢索品質。

與我們的前幾代相比:v5-text-small 在檢索能力上與 jina-embeddings-v4 (3.8B) 持平,但體積縮小了 5.6 倍;且在相同參數規模下,全面超越了 jina-embeddings-v3 (572M) 的所有任務表現。

特性v5-text-smallv5-text-nano
基礎模型Qwen3-0.6B-BaseEuroBERT-210m
參數數量677M239M
向量維度1024768
上下文長度32,7688,192
支援語言119 (Qwen3 詞元化器)15+ (EuroBERT 詞元化器)
池化方式 (Pooling)最後詞元 (Last-token)最後詞元 (Last-token)
LoRA 配適器4 (檢索、文字匹配、分類、分群)
Matryoshka 維度32-102432-768
MMTEB 得分67.065.5
MTEB 英文得分71.771.0
授權協議CC BY-NC 4.0
MMTEB Multilingual Benchmark
v5-text-small 在 MMTEB(橫跨 9 種任務類型的 131 個任務平均值)上獲得 67.0 分,領先次佳的 1B 以下模型(Qwen3-0.6B with instructions,得分 64.3)+2.7 分。nano 模型以 239M 的參數規模獲得 65.5 分,擊敗了參數兩倍於己的模型。
MTEB English Benchmark
在僅限英文的評測中,v5-text-small 以 71.7 分(橫跨 7 種任務類型的 41 個任務平均值)領先所有 1B 以下的多語言向量模型,緊隨其後的是 KaLM-mini-v2.5 (71.3) 和 v5-text-nano (71.0)。239M 的 nano 模型以不到一半的尺寸達到了與 494M 的 KaLM 模型同等的效能。
Retrieval Benchmark Results
v5-text-small 在五個檢索基準測試(MTEB Multilingual、MTEB English、RTEB、BEIR 和 LongEmbed)中獲得了最高的任務級別平均分(63.28),在 4B 以下模型中表現最優,與 jina-embeddings-v4 (3.8B, 63.62) 持平,同時體積縮小了 5.6 倍。
Table showing multilingual MTEB model performance metrics, rankings, and evaluations across various tasks and language benchm
根據 2026/02/21 的 MTEB 排行榜,jina-embeddings-v5-small(0.6B 參數,排名第 8)是 MTEB Multilingual v2 上最強的 1B 參數以下向量模型,在各項指標上均優於 Qwen3-Embedding-0.6b。jina-embeddings-v5-nano(0.2B 參數,排名第 11)以極小的體積實現了前 11 名的效能,該參數級別中沒有其他模型能與之匹敵。

tag架構

<code>jina-embeddings-v5-text</code> Architecture

v5-text 使用純解碼器(decoder-only)的主幹網絡,並採用最後詞元(last-token)池化而非平均池化。每個 Transformer 層中注入了四個輕量級 LoRA 配適器,分別處理檢索、文字匹配、分類和分群任務。使用者在推理時可選擇合適的配適器。對於檢索任務,查詢 (Query) 會加上「Query:」前綴,文件則加上「Document:」。小型模型的上下文長度為 32K 詞元(nano 為 8K),相較於 v3 提升了 4 倍。

tag快速入門

tagElastic Inference Service

這是將 v5-text 用於生產環境最快的方式。Elastic Inference Service (EIS) 提供受管的向量推理服務,內建擴展能力,讓您無需管理基礎設施即可直接在 Elastic 部署中生成向量。

PUT _inference/text_embedding/jina-v5
{
  "service": "elastic",
  "service_settings": {
    "model_id": "jina-embeddings-v5-text-small"
  }
}

請參閱 EIS 文件以了解詳細設定資訊。

tagJina Embedding API

我們提供按詞元付費(pay-per-token)的託管 API。支援任務選擇、維度截斷和批次處理功能,且無需配置 GPU。

curl https://api.jina.ai/v1/embeddings \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -d '{
    "model": "jina-embeddings-v5-text-small",
    "task": "retrieval.query",
    "dimensions": 1024,
    "input": ["What is knowledge distillation?"]
  }'

請至 jina.ai/embeddings 獲取 API 金鑰。

tagHugging Face + sentence-transformers

透過本地端執行,完全掌控推論過程。權重已於 Hugging Face 上架,並開箱即用支援 sentence-transformers 整合。

from sentence_transformers import SentenceTransformer
import torch

model = SentenceTransformer(
    "jinaai/jina-embeddings-v5-text-small-retrieval",
    model_kwargs={"dtype": torch.bfloat16},
)

query_emb = model.encode("What is knowledge distillation?", prompt_name="query")
doc_embs = model.encode(["Knowledge distillation transfers...", "Venus is..."], prompt_name="document")
similarity = model.similarity(query_emb, doc_embs)

tagvLLM

為生產環境工作負載提供高吞吐量的服務。vLLM 原生支援 v5-text 並採用最後一個詞元 (last-token) 的池化方式。

from vllm import LLM
from vllm.config.pooler import PoolerConfig

model = LLM(
    model="jinaai/jina-embeddings-v5-text-small-retrieval",
    dtype="float16",
    runner="pooling",
    pooler_config=PoolerConfig(seq_pooling_type="LAST", normalize=True),
)
outputs = model.encode(["Query: climate change impacts"], pooling_task="embed")

為了透過 llama.cpp 和 MLX 進行優化的本地端推論,每個任務適配器 (task adapter) 的 LoRA 權重都會被合併到基礎模型中,以產生獨立的權重檔案。這就是為什麼您會看到每個任務(檢索、文字匹配、分類、分群)都有各自獨立的儲存庫——每個儲存庫都包含完整的合併權重,可直接載入,且推論時沒有 LoRA 的額外開銷。

tagllama.cpp (GGUF)

在 CPU 或邊緣裝置上執行量化模型。我們為每個模型提供 14 種 GGUF 量化版本,從 F16 到 IQ1_S 皆有涵蓋。

llama-server -hf jinaai/jina-embeddings-v5-text-small-retrieval-GGUF:Q4_K_M \
  --embedding --pooling last -ub 32768

tagMLX

透過 MLX 在 Apple Silicon 上進行原生推論。所有任務適配器均提供完整精度、4-bit 及 8-bit 量化版本。

import mlx.core as mx
from tokenizers import Tokenizer
from model import JinaEmbeddingModel
import json

with open("config.json") as f:
    config = json.load(f)

model = JinaEmbeddingModel(config)
weights = mx.load("model-4bit.safetensors")  # 或 model.safetensors, model-8bit.safetensors
model.load_weights(list(weights.items()))

tokenizer = Tokenizer.from_file("tokenizer.json")
texts = ["Query: What is machine learning?"]
embeddings = model.encode(texts, tokenizer)

請從 Hugging Face 下載:jinaai/jina-embeddings-v5-text-small-retrieval-mlx(同時也提供文字匹配、分類及分群適配器)。

tag訓練

這兩款模型皆蒸餾自 Qwen3-Embedding-4B,這是一款體積大得多的訓練用向量模型。小型版本以 Qwen3-0.6B-Base 作為骨幹,而極小 (nano) 版本則使用 EuroBERT-210m。我們的訓練結合了兩種互補的訊號:

  1. 向量模型蒸餾:透過餘弦相似度損失函數,由 4B 的教師模型進行蒸餾。學生模型學會了在無需指令式提示詞 (instruction-style prompts) 的情況下,近似教師模型的向量空間。這對於標記資料稀缺的語言和任務特別有效。
  2. 任務特定對比損失 (InfoNCE):在標記的查詢-文件對上,結合困難負樣本挖掘 (hard negative mining) 與批次內負樣本 (in-batch negatives)。在凍結蒸餾後的骨幹網路後,我們為每個任務類別訓練獨立的 LoRA 適配器。

我們的消融實驗顯示,這種組合方法始終優於單一方法。在 MTEB 英文檢索基準測試中,組合方法達到了 60.1 nDCG@10,而相同骨幹下的單純蒸餾法為 58.6,單純對比學習法為 54.3。

我們還在訓練期間應用了 GOR (廣義正交正則化),這能鼓勵向量分量分佈得更均勻。這雖然不會顯著提升標準基準測試分數,但卻使二值量化幾乎無損,這對於記憶體受限的部署環境來說至關重要。

訓練過程中幾個值得注意的觀察:

  • 蒸餾與對比學習以我們最初未預料到的方式相互補充。
  • 從我們的損失函數組合中移除任何單一組件,都會導致整體效能下降。
  • 任務特定的 LoRA 適配器在參數開銷可忽略不計的情況下,表現優於多任務訓練。
  • GOR 正則化使二值量化幾乎無損,這對於部署的重要性遠大於全精度模型帶來的些微效能增益。

tag結論

向量模型正越來越多地被用作大型系統內的工具鏈組件。大模型代理 (LLM agents) 在代理工作流中呼叫向量模型 API 來進行檢索、記憶和分類。像 OpenClaw 和 OpenViking 這樣的專案將向量模型視為代理上下文管理的核心基礎設施層,而非單純的搜尋終端。在這種機制下,每次呼叫的推論成本與延遲與基準測試分數同樣重要,因此輕量化模型成為了必然的選擇。

向量模型趨向輕量化的潮流反映了一個更廣泛的轉變。端側檢索、瀏覽器端搜尋以及邊緣部署,全都要求模型能適應受限的記憶體預算。Matryoshka 維度支援讓單一模型無需重新訓練,即可同時提供高精度和超快速的近似搜尋。結合低至 1-2 bit 的 GGUF 量化,生產環境向量服務的有效記憶體佔用量可降低一個數量級。

我們正在開發 jina-embeddings-v5-multimodal,將相同的架構延伸至視覺與跨模態檢索。早期結果顯示,在不降低文字效能的前提下,將視覺編碼器與微調後的文字向量模型進行對齊是可行的。敬請期待。

類別:
star
甄選
新聞稿
rss_feed

更多新聞
五月 12, 2026 • 7 分鐘的讀取量
jina-embeddings-v5-omni:支援文字、圖片、音訊與影片的向量模型
Han Xiao
十二月 04, 2025 • 7 分鐘的讀取量
Jina-VLM:小型多語言視覺語言模型
Jina AI
Artistic representation of "Vln" in vibrant, rainbow-like colors on a minimalistic white background, with a focus on color di
十月 03, 2025 • 7 分鐘的讀取量
Jina Reranker v3:用於 SOTA 多語檢索的 0.6B Listwise 重排器
Jina AI
Light blue background with stylized text in the center, composed of small dots or squares, evoking a modern and minimalistic
搜索底座
讀取器
向量模型
重排器
Elastic Inference Service
open_in_new
獲取 Jina API 密鑰
速率限制
API 狀態
公司
關於我們
新聞
下載 Jina 標誌
open_in_new
下載 Elastic 徽標
open_in_new
條款
安全
條款及條件
隱私
管理 Cookie
Elastic © 2020-2026.