jina-embeddings-v5-text-nano

向量模型

CC BY-NC 4.0

发行说明

jina-embeddings-v5-text-nano

用于边缘部署的SOTA多语言向量

许可证

CC-BY-NC-4.0

发布日期

2026-02-18

输入

文本

输出

向量

支持的俄罗斯套娃维度

128

256

512

768

迟分技术

模型详细信息

参数: 239M

输入词元长度: 8K

输出维度: 768

底座模型

EuroBERT-210M

训练过的语言

32 语言

支持的语言

108 语言

量化版本

GGUF

苹果芯片优化

MLX

概述

jina-embeddings-v5-text-nano 是一个基于 EuroBERT-210M 骨干网构建的多语言文本嵌入模型，拥有 2.39 亿个参数。EuroBERT-210M 是一个双向编码器，已在 15 种主要的欧洲和全球语言上进行预训练。该模型通过最后一个词元池化生成 768 维嵌入，并支持长度高达 3.2 万个词元的上下文。模型包含四个特定任务的 LoRA 适配器（每个适配器 670 万个参数），分别用于检索、语义相似度、聚类和分类。Matryoshka 表示学习技术支持将嵌入截断到低至 32 维的维度。该模型使用 Qwen3-Embedding-4B 的嵌入蒸馏技术进行训练，并结合特定任务的适配器训练，其性能可与规模超过自身两倍的模型相媲美，因此非常适合对延迟敏感和边缘部署的应用场景。

方法

训练过程与jina-embeddings-v5-text-small相同，采用两阶段流程，但应用于EuroBERT-210M骨干网络。第一阶段是嵌入蒸馏，它使用余弦距离损失函数，通过线性投影层将学生模型的768维嵌入映射到教师模型的空间，从而将知识从Qwen3-Embedding-4B迁移过来。训练使用了来自300多个数据集的多种语言文本对。在第二阶段，使用冻结的骨干网络权重训练四个特定任务的LoRA适配器（每个适配器包含670万个参数）：检索（InfoNCE + 知识蒸馏 + GOR）、文本匹配（CoSENT + 知识蒸馏）、聚类（使用特定任务的教师模型指令进行重蒸馏）和分类（双向InfoNCE + 关系知识蒸馏）。EuroBERT骨干网络对包括英语、法语、德语、西班牙语、中文、日语、阿拉伯语和印地语在内的15种主要欧洲和全球语言提供了强大的多语言覆盖。

性能

在 MMTEB（多语言）数据集上，jina-embeddings-v5-text-nano 模型仅使用 2.39 亿个参数，就达到了任务级平均分 65.5 分和类型级平均分 57.7 分，优于所有参数量低于 5 亿的模型，包括 KaLM-mini-v2.5（60.1 分，4.94 亿个参数）、voyage-4-nano（58.9 分，4.8 亿个参数）和 Gemma-300M（61.1 分，3.08 亿个参数）。其分类得分为 69.2 分，聚类得分为 52.7 分，配对分类得分为 81.9 分，重排序得分为 64.6 分，检索得分为 63.3 分，STS 得分为 78.2 分。在英语 MTEB 数据集上，其平均得分为 71.0 分，几乎与参数量更大的 jina-embeddings-v5-text-small 模型（71.7 分）持平。在检索基准测试中，该方法在 MTEB-M 上得分 63.26，在 RTEB 上得分 64.08，在 BEIR 上得分 56.06，在 LongEmbed 上得分 63.65。嵌入在二值量化下依然保持鲁棒性，GOR 正则化将 MTEB 检索的性能下降限制在 2 分以内。

最佳实践

根据您的任务选择合适的 LoRA 适配器：'retrieval' 用于非对称查询-文档搜索（在查询前添加 'Query:'，在段落前添加 'Document:'），'text-matching' 用于对称相似性任务（两个输入都使用 'Document:' 前缀），'clustering' 用于对相关文档进行分组，'classification' 用于分类。该纳米模型针对对延迟敏感和资源受限的部署进行了优化，同时保持了与规模超过其两倍的模型相当的准确率。Matryoshka 截断允许将嵌入维度从 768 维减少到低至 32 维；为获得最佳结果，请将维度保持在 256 维以上。支持二进制量化。EuroBERT 骨干网对包括英语、法语、德语、西班牙语、中文、日语、阿拉伯语和印地语在内的 15 种主要语言提供了强大的覆盖。使用余弦相似度进行嵌入比较。可通过 Jina AI API、Hugging Face（Sentence Transformers 和 vLLM）以及 llama.cpp 的量化变体获得。

提及此模型的博客

五月 12, 2026 • 7 分钟的读取量

jina-embeddings-v5-omni：支持文本、图像、音频和视频的向量模型

一个模型，四种模态：文本、图像、音频、视频。业界领先的 1.6B 和 0.9B 全能型向量模型。

三月 06, 2026 • 6 分钟的读取量

通过原始数值识别向量模型

一个通过读取原始数字来为向量模型提取指纹的微型 Transformer。无需特征工程。

二月 19, 2026 • 7 分钟的读取量

jina-embeddings-v5-text：全新的 SOTA 小型多语言向量模型

两款性能领先的 1B 以下多语言向量模型，现已在 Elastic Inference Service、Llama.cpp 和 MLX 上可用。