jina-embeddings-v5-text-small

具有特定任务适配器的最先进的多语言嵌入

许可证

CC-BY-NC-4.0

发布日期

2026-02-18

输入

文本

输出

向量

支持的俄罗斯套娃维度

128

256

512

1024

迟分技术

模型详细信息

参数: 677M

输入词元长度: 32K

输出维度: 1024

底座模型

Qwen3-0.6B-Base

训练过的语言

32 语言

支持的语言

93 语言

量化版本

GGUF

苹果芯片优化

MLX

概述

jina-embeddings-v5-text-small 是一个基于 Qwen3-0.6B-Base 骨干网络的 0.6B 参数多语言文本嵌入模型。它通过末位词池化生成 1024 维嵌入，并通过旋转位置嵌入 (RoPE) 和调整后的基频支持高达 32K 个词的上下文长度。该模型包含四个针对特定任务的 LoRA 适配器，分别用于检索、语义相似度、聚类和分类，这些适配器在固定的骨干网络权重上独立训练。Matryoshka 表示学习支持将嵌入截断到低至 32 维的维度。该模型采用两阶段训练：首先，从 Qwen3-Embedding-4B 进行嵌入蒸馏，以迁移来自大型教师模型的知识；然后，使用针对每个任务类别的专用损失函数训练特定任务的适配器。它支持使用“Query:”和“Document:”前缀的非对称检索。

方法

训练分为两个阶段。第一阶段，嵌入蒸馏利用投影后的学生嵌入和教师嵌入之间的余弦距离损失，将知识从 Qwen3-Embedding-4B（一个 4B 参数的教师模型）迁移到 Qwen3-0.6B-Base 学生模型。一个线性投影层将学生的 1024 维空间映射到教师的高维空间。通用蒸馏使用 30 多个数据集，涵盖 30 多种语言，进行 50,000 步训练，随后在合成和自然的长文档（1,000-4,096 个词元）上进行长上下文训练，并调整 RoPE 参数。第二阶段，在冻结的主干权重上训练四个 LoRA 适配器：检索适配器结合了 InfoNCE 对比损失、硬负样本、持续蒸馏损失以及全局正则化器 (GOR)，以增强量化鲁棒性；文本匹配适配器使用 CoSENT 排序损失函数进行分级相似度计算，并对未评分的文本对进行知识蒸馏；聚类适配器使用重蒸馏，并结合聚类特定的教师指令；分类适配器使用双向 InfoNCE 损失函数，并结合关系知识蒸馏正则化。最终检索适配器的权重在各个检查点取平均值。

性能

在 MMTEB（多语言）测试中，jina-embeddings-v5-text-small 的平均任务级得分为 67.0，平均类型级得分为 58.9，在所有参数量为 10 亿的模型中名列前茅。其分类得分为 71.3，聚类得分为 53.4，配对分类得分为 82.9，重排序得分为 65.7，检索得分为 64.9，STS 得分为 78.9。在英语 MTEB 测试中，其平均得分为 71.7，优于带有指令的 Qwen3-0.6B（70.5）和 jina-embeddings-v3（65.7）。在检索专用基准测试中，其 MTEB-M 检索得分为 64.88，RTEB 为 66.84，BEIR 为 56.67，LongEmbed 为 66.39。该模型在配对分类方面超越了其教师 Qwen3-4B（MMTEB 上的 42.0 对 26.8），同时在所有其他类别中保持了具有竞争力的分数，尽管其体积只有教师的 6 倍。

最佳实践

根据您的任务选择合适的 LoRA 适配器：'retrieval' 用于非对称查询-文档搜索（在查询前添加 'Query:'，在段落前添加 'Document:'），'text-matching' 用于对称相似性任务，例如重复检测和释义识别（两个输入均使用 'Document:' 前缀），'clustering' 用于对相关文档进行分组，'classification' 用于分类和情感分析。对于检索任务，请务必使用正确的前缀，因为模型是使用非对称编码进行训练的。Matryoshka 截断允许将嵌入维度从 1024 降低到低至 32 维；在 256 维以上时性能仍然良好，但低于该阈值时性能会明显下降，这与 Johnson-Lindenstrauss 极限一致。由于采用了 GOR 正则化，二进制量化支持性能损失极小。32K 上下文窗口可以原生处理长文档，但该模型还使用长上下文数据进行了额外训练，以实现稳健的长文档检索。使用余弦相似度进行嵌入比较。该模型可通过 Jina AI API、Hugging Face（集成了 Sentence Transformers 和 vLLM）以及 llama.cpp 的量化版本获取。

提及此模型的博客

三月 06, 2026 • 6 分钟的读取量

通过原始数值识别向量模型

一个通过读取原始数字来为向量模型提取指纹的微型 Transformer。无需特征工程。

二月 19, 2026 • 7 分钟的读取量

jina-embeddings-v5-text: New SOTA Small Multilingual Embeddings

Two sub-1B multilingual embeddings with best-in-class performance, available on Elastic Inference Service, Llama.cpp and MLX.