新闻
模型
API
keyboard_arrow_down
读取器
读取URL或搜索为大模型提供更好的依据。
向量模型
世界一流的多模态多语言向量模型。
重排器
世界一流的重排器,最大限度地提高搜索相关性。
弹性推理服务
在 Elasticsearch 中原生运行 Jina 模型。
MCP terminal命令行articlellms.txtsmart_toy代理人data_object模式menu_book文档



登录
login
向量模型
copyright CC BY-NC 4.0
open_in_new 发行说明

jina-embeddings-v5-text-small

具有特定任务适配器的最先进的多语言嵌入
许可证
copyright CC-BY-NC-4.0
发布日期
calendar_month
2026-02-18
输入
abc
文本
arrow_forward
输出
more_horiz
向量
支持的俄罗斯套娃维度 help_outline
32
64
128
256
512
1024
迟分技术 help_outline
cancel
No
模型详细信息
参数: 677M
输入词元长度: 32K
输出维度: 1024
底座模型 help_outline
open_in_new
Qwen3-0.6B-Base
训练过的语言 help_outline
32 语言
支持的语言 help_outline
93 语言
量化版本 help_outline
GGUF
苹果芯片优化 help_outline
MLX
相关模型
link
jina-embeddings-v3
link
jina-embeddings-v5-text-nano
支持的任务
search 检索
compare_arrows 文本匹配
bubble_chart 聚类
label 分类
标签
text-embedding
multilingual
long-context
production
matryoshka
last-token-pooling
可通过以下方式获取
弹性推理服务Jina API抱抱脸
I/O 图

文本

jina-embeddings-v5-text-small

任务

向量

选择要比较的模型
论文 (1)
arXiv
二月 17, 2026
jina-embeddings-v5-text: Task-Targeted Embedding Distillation

概述

jina-embeddings-v5-text-small 是一个基于 Qwen3-0.6B-Base 骨干网络的 0.6B 参数多语言文本嵌入模型。它通过末位词池化生成 1024 维嵌入,并通过旋转位置嵌入 (RoPE) 和调整后的基频支持高达 32K 个词的上下文长度。该模型包含四个针对特定任务的 LoRA 适配器,分别用于检索、语义相似度、聚类和分类,这些适配器在固定的骨干网络权重上独立训练。Matryoshka 表示学习支持将嵌入截断到低至 32 维的维度。该模型采用两阶段训练:首先,从 Qwen3-Embedding-4B 进行嵌入蒸馏,以迁移来自大型教师模型的知识;然后,使用针对每个任务类别的专用损失函数训练特定任务的适配器。它支持使用“Query:”和“Document:”前缀的非对称检索。

方法

训练分为两个阶段。第一阶段,嵌入蒸馏利用投影后的学生嵌入和教师嵌入之间的余弦距离损失,将知识从 Qwen3-Embedding-4B(一个 4B 参数的教师模型)迁移到 Qwen3-0.6B-Base 学生模型。一个线性投影层将学生的 1024 维空间映射到教师的高维空间。通用蒸馏使用 30 多个数据集,涵盖 30 多种语言,进行 50,000 步训练,随后在合成和自然的长文档(1,000-4,096 个词元)上进行长上下文训练,并调整 RoPE 参数。第二阶段,在冻结的主干权重上训练四个 LoRA 适配器:检索适配器结合了 InfoNCE 对比损失、硬负样本、持续蒸馏损失以及全局正则化器 (GOR),以增强量化鲁棒性;文本匹配适配器使用 CoSENT 排序损失函数进行分级相似度计算,并对未评分的文本对进行知识蒸馏;聚类适配器使用重蒸馏,并结合聚类特定的教师指令;分类适配器使用双向 InfoNCE 损失函数,并结合关系知识蒸馏正则化。最终检索适配器的权重在各个检查点取平均值。

性能

在 MMTEB(多语言)测试中,jina-embeddings-v5-text-small 的平均任务级得分为 67.0,平均类型级得分为 58.9,在所有参数量为 10 亿的模型中名列前茅。其分类得分为 71.3,聚类得分为 53.4,配对分类得分为 82.9,重排序得分为 65.7,检索得分为 64.9,STS 得分为 78.9。在英语 MTEB 测试中,其平均得分为 71.7,优于带有指令的 Qwen3-0.6B(70.5)和 jina-embeddings-v3(65.7)。在检索专用基准测试中,其 MTEB-M 检索得分为 64.88,RTEB 为 66.84,BEIR 为 56.67,LongEmbed 为 66.39。该模型在配对分类方面超越了其教师 Qwen3-4B(MMTEB 上的 42.0 对 26.8),同时在所有其他类别中保持了具有竞争力的分数,尽管其体积只有教师的 6 倍。

最佳实践

根据您的任务选择合适的 LoRA 适配器:'retrieval' 用于非对称查询-文档搜索(在查询前添加 'Query:',在段落前添加 'Document:'),'text-matching' 用于对称相似性任务,例如重复检测和释义识别(两个输入均使用 'Document:' 前缀),'clustering' 用于对相关文档进行分组,'classification' 用于分类和情感分析。对于检索任务,请务必使用正确的前缀,因为模型是使用非对称编码进行训练的。Matryoshka 截断允许将嵌入维度从 1024 降低到低至 32 维;在 256 维以上时性能仍然良好,但低于该阈值时性能会明显下降,这与 Johnson-Lindenstrauss 极限一致。由于采用了 GOR 正则化,二进制量化支持性能损失极小。32K 上下文窗口可以原生处理长文档,但该模型还使用长上下文数据进行了额外训练,以实现稳健的长文档检索。使用余弦相似度进行嵌入比较。该模型可通过 Jina AI API、Hugging Face(集成了 Sentence Transformers 和 vLLM)以及 llama.cpp 的量化版本获取。
提及此模型的博客
三月 06, 2026 • 6 分钟的读取量
通过原始数值识别向量模型
一个通过读取原始数字来为向量模型提取指纹的微型 Transformer。无需特征工程。
Han Xiao
Fingerprint illustration made from numbers, showcasing digital and high-tech design on a light background.
二月 19, 2026 • 7 分钟的读取量
jina-embeddings-v5-text: New SOTA Small Multilingual Embeddings
Two sub-1B multilingual embeddings with best-in-class performance, available on Elastic Inference Service, Llama.cpp and MLX.
Han Xiao
Abstract digital artwork in black and white, featuring scattered dots forming letters in a halftone effect. The central lette
办公室
location_on
加利福尼亚州桑尼维尔
710 Lakeway Dr, Ste 200, 桑尼维尔, 加州 94085, 美国
location_on
德国柏林
Prinzessinnenstraße 19-20,10969 柏林,德国
搜索底座
读取器
向量模型
重排器
弹性推理服务
open_in_new
获取 Jina API 密钥
速率限制
API 状态
公司
关于我们
联系销售
新闻
实习生项目
下载 Jina 标志
open_in_new
下载 Elastic 徽标
open_in_new
条款
安全
条款及条件
隐私
管理 Cookie
email
Elastic Jina AI © 2020-2026.