I/O 图
选择要比较的模型
论文 (1)
概述
jina-embeddings-v5-text-small 是一个基于 Qwen3-0.6B-Base 骨干网络的 0.6B 参数多语言文本嵌入模型。它通过末位词池化生成 1024 维嵌入,并通过旋转位置嵌入 (RoPE) 和调整后的基频支持高达 32K 个词的上下文长度。该模型包含四个针对特定任务的 LoRA 适配器,分别用于检索、语义相似度、聚类和分类,这些适配器在固定的骨干网络权重上独立训练。Matryoshka 表示学习支持将嵌入截断到低至 32 维的维度。该模型采用两阶段训练:首先,从 Qwen3-Embedding-4B 进行嵌入蒸馏,以迁移来自大型教师模型的知识;然后,使用针对每个任务类别的专用损失函数训练特定任务的适配器。它支持使用“Query:”和“Document:”前缀的非对称检索。
方法
训练分为两个阶段。第一阶段,嵌入蒸馏利用投影后的学生嵌入和教师嵌入之间的余弦距离损失,将知识从 Qwen3-Embedding-4B(一个 4B 参数的教师模型)迁移到 Qwen3-0.6B-Base 学生模型。一个线性投影层将学生的 1024 维空间映射到教师的高维空间。通用蒸馏使用 30 多个数据集,涵盖 30 多种语言,进行 50,000 步训练,随后在合成和自然的长文档(1,000-4,096 个词元)上进行长上下文训练,并调整 RoPE 参数。第二阶段,在冻结的主干权重上训练四个 LoRA 适配器:检索适配器结合了 InfoNCE 对比损失、硬负样本、持续蒸馏损失以及全局正则化器 (GOR),以增强量化鲁棒性;文本匹配适配器使用 CoSENT 排序损失函数进行分级相似度计算,并对未评分的文本对进行知识蒸馏;聚类适配器使用重蒸馏,并结合聚类特定的教师指令;分类适配器使用双向 InfoNCE 损失函数,并结合关系知识蒸馏正则化。最终检索适配器的权重在各个检查点取平均值。
性能
在 MMTEB(多语言)测试中,jina-embeddings-v5-text-small 的平均任务级得分为 67.0,平均类型级得分为 58.9,在所有参数量为 10 亿的模型中名列前茅。其分类得分为 71.3,聚类得分为 53.4,配对分类得分为 82.9,重排序得分为 65.7,检索得分为 64.9,STS 得分为 78.9。在英语 MTEB 测试中,其平均得分为 71.7,优于带有指令的 Qwen3-0.6B(70.5)和 jina-embeddings-v3(65.7)。在检索专用基准测试中,其 MTEB-M 检索得分为 64.88,RTEB 为 66.84,BEIR 为 56.67,LongEmbed 为 66.39。该模型在配对分类方面超越了其教师 Qwen3-4B(MMTEB 上的 42.0 对 26.8),同时在所有其他类别中保持了具有竞争力的分数,尽管其体积只有教师的 6 倍。
最佳实践
根据您的任务选择合适的 LoRA 适配器:'retrieval' 用于非对称查询-文档搜索(在查询前添加 'Query:',在段落前添加 'Document:'),'text-matching' 用于对称相似性任务,例如重复检测和释义识别(两个输入均使用 'Document:' 前缀),'clustering' 用于对相关文档进行分组,'classification' 用于分类和情感分析。对于检索任务,请务必使用正确的前缀,因为模型是使用非对称编码进行训练的。Matryoshka 截断允许将嵌入维度从 1024 降低到低至 32 维;在 256 维以上时性能仍然良好,但低于该阈值时性能会明显下降,这与 Johnson-Lindenstrauss 极限一致。由于采用了 GOR 正则化,二进制量化支持性能损失极小。32K 上下文窗口可以原生处理长文档,但该模型还使用长上下文数据进行了额外训练,以实现稳健的长文档检索。使用余弦相似度进行嵌入比较。该模型可通过 Jina AI API、Hugging Face(集成了 Sentence Transformers 和 vLLM)以及 llama.cpp 的量化版本获取。
提及此模型的博客




