I/O 图
选择要比较的模型
论文 (1)
概述
jina-embeddings-v5-text-nano 是一个基于 EuroBERT-210M 骨干网构建的多语言文本嵌入模型,拥有 2.39 亿个参数。EuroBERT-210M 是一个双向编码器,已在 15 种主要的欧洲和全球语言上进行预训练。该模型通过最后一个词元池化生成 768 维嵌入,并支持长度高达 3.2 万个词元的上下文。模型包含四个特定任务的 LoRA 适配器(每个适配器 670 万个参数),分别用于检索、语义相似度、聚类和分类。Matryoshka 表示学习技术支持将嵌入截断到低至 32 维的维度。该模型使用 Qwen3-Embedding-4B 的嵌入蒸馏技术进行训练,并结合特定任务的适配器训练,其性能可与规模超过自身两倍的模型相媲美,因此非常适合对延迟敏感和边缘部署的应用场景。
方法
训练过程与jina-embeddings-v5-text-small相同,采用两阶段流程,但应用于EuroBERT-210M骨干网络。第一阶段是嵌入蒸馏,它使用余弦距离损失函数,通过线性投影层将学生模型的768维嵌入映射到教师模型的空间,从而将知识从Qwen3-Embedding-4B迁移过来。训练使用了来自300多个数据集的多种语言文本对。在第二阶段,使用冻结的骨干网络权重训练四个特定任务的LoRA适配器(每个适配器包含670万个参数):检索(InfoNCE + 知识蒸馏 + GOR)、文本匹配(CoSENT + 知识蒸馏)、聚类(使用特定任务的教师模型指令进行重蒸馏)和分类(双向InfoNCE + 关系知识蒸馏)。EuroBERT骨干网络对包括英语、法语、德语、西班牙语、中文、日语、阿拉伯语和印地语在内的15种主要欧洲和全球语言提供了强大的多语言覆盖。
性能
在 MMTEB(多语言)数据集上,jina-embeddings-v5-text-nano 模型仅使用 2.39 亿个参数,就达到了任务级平均分 65.5 分和类型级平均分 57.7 分,优于所有参数量低于 5 亿的模型,包括 KaLM-mini-v2.5(60.1 分,4.94 亿个参数)、voyage-4-nano(58.9 分,4.8 亿个参数)和 Gemma-300M(61.1 分,3.08 亿个参数)。其分类得分为 69.2 分,聚类得分为 52.7 分,配对分类得分为 81.9 分,重排序得分为 64.6 分,检索得分为 63.3 分,STS 得分为 78.2 分。在英语 MTEB 数据集上,其平均得分为 71.0 分,几乎与参数量更大的 jina-embeddings-v5-text-small 模型(71.7 分)持平。在检索基准测试中,该方法在 MTEB-M 上得分 63.26,在 RTEB 上得分 64.08,在 BEIR 上得分 56.06,在 LongEmbed 上得分 63.65。嵌入在二值量化下依然保持鲁棒性,GOR 正则化将 MTEB 检索的性能下降限制在 2 分以内。
最佳实践
根据您的任务选择合适的 LoRa 适配器:'retrieval' 用于非对称查询-文档搜索(在查询前添加 'Query:',在段落前添加 'Document:'),'text-matching' 用于对称相似性任务(两个输入都使用 'Document:' 前缀),'clustering' 用于对相关文档进行分组,'classification' 用于分类。该纳米模型针对对延迟敏感和资源受限的部署进行了优化,同时保持了与规模超过其两倍的模型相当的准确率。Matryoshka 截断允许将嵌入维度从 768 维减少到低至 32 维;为获得最佳结果,请将维度保持在 256 维以上。支持二进制量化。EuroBERT 骨干网对包括英语、法语、德语、西班牙语、中文、日语、阿拉伯语和印地语在内的 15 种主要语言提供了强大的覆盖。使用余弦相似度进行嵌入比较。可通过 Jina AI API、Hugging Face(Sentence Transformers 和 vLLM)以及 llama.cpp 的量化变体获得。
提及此模型的博客




