jina-embeddings-v3-omni：支持文本、图像、音频和视频的向量模型

jina-embeddings-v5-omni: Text-Geometry-Preserving Multimodal Embeddings via Frozen-Tower Composition

在这项工作中，我们引入了冻结编码器模型组合（frozen-encoder model composition），这是一种用于多模态向量模型的新颖方法。我们基于视觉语言模型（VLM）架构进行构建，其中非文本编码器经过适配，为大模型生成输入，进而为各种输入生成向量。我们展示了研究成果：jina-embeddings-v5-omni 套件，这是一对能够将文本、图像、音频和视频输入编码到单一语义向量空间中的模型。我们的方法是通过添加图像和音频编码器，扩展两个 Jina Embeddings v5 文本模型以支持更多媒体形式。主干文本向量模型和新增的非文本媒体编码器保持冻结状态。我们仅训练了连接组件，其参数量仅占联合模型总权重的 0.35%。因此，训练过程比全参数重训练效率高得多。此外，大模型保持不变，为文本输入生成的向量与 Jina Embeddings v5 文本模型完全相同。我们的评估表明，该方法产生的效果与当前最先进水平相当，且性能几乎等同于更大的多模态向量模型。

arXiv.orgFlorian Hönicke

我们现已发布 jina-embeddings-v5-omni，将我们的 v5-text 向量模型扩展到了图像、音频和视频领域。两款模型均与 v5-text 共享相同的冻结文本主干，这意味着文本向量完全一致 ——无需重建索引。jina-embeddings-v5-omni-small 在四种模态上的平均得分达到 53.93，在参数量减少 5.7 倍 的情况下，表现媲美 LCO-7B (54.43)；而 jina-embeddings-v5-omni-nano 仅以 0.95B 参数量即可提供极具竞争力的文档检索能力。

Pareto frontier — 所有开源权重 omni 向量模型（支持文本、图像、音频和视频）的帕累托前沿。jina-embeddings-v5-omni-small (1.57B) 的平均得分与 LCO-7B (8.93B) 持平，但参数量减少了 5.7 倍。jina-embeddings-v5-omni-nano (0.95B) 比 LanguageBind (1.14B) 高出 8.9 分。基准模型：LanguageBind, Omni-Embed-Nemotron-3B, LCO-Embedding-Omni-3B, LCO-Embedding-Omni-7B。

Per-modality scores — 文本 (MMTEB)、图像 (MIEB)、视频 (MMEB-Video) 和音频 (MAEB) 的模态细分得分。jina-embeddings-v5-omni-small 在文本任务上以 67.0 分领先所有 omni 模型，继承了 jina-embeddings-v5-text-small 的全部质量。在图像任务 (56.05) 上，它在分类 (68.55) 和聚类 (84.57，所有模型中表现最好) 方面表现优异。音频 (51.46) 接近 LCO-7B (52.37)，并拥有最高的音频分类得分 (55.89)。视频 (41.20) 是目前与 LCO-7B (47.41) 之间的差距所在，因为时间推理更受益于端到端训练。

Task breakdown — 13 种任务类型的性能细分。金星标记了 jina-embeddings-v5-omni-small 击败最佳开源权重基准（参数量大 3-9 倍）的任务。胜出领域：图像分类 (68.55 对 64.30)、图像聚类 (84.57 对 83.24)、音频分类 (55.89 对 53.39)。主要差距：视频检索 (27.82 对 58.73) 以及组合/视觉问答 (44.23 对 53.40)。

Document retrieval — 文档检索 (ViDoRe-in-MIEB)。jina-embeddings-v5-omni-small 在拥有 0.92B 激活文本+图像参数的情况下得分为 79.08，优于 LCO-3B (在 4.07B 参数下为 78.24)。jina-embeddings-v5-omni-nano 仅用 0.31B 激活参数就获得了 70.05 分，远超 LanguageBind (37.33)。Nemotron-3B 以 85.64 分领先，但其使用的参数量多出 5.1 倍。

tag架构

v5-omni 保持 v5-text 主干完全冻结，并增加了通过小型可训练投影器连接的预训练视觉和音频编码器：

视觉：Qwen3.5 视觉编码器（改编自 SigLIP2），具有 2x2 空间合并（4 倍词元压缩）。我们冻结了除最终投影层 (fc_vision_2) 之外的所有内容，该层被替换为一个随机初始化的层，将数据映射到文本主干的隐藏维度。
音频：Qwen2.5-Omni 编码器（改编自 Whisper-large-v3）。一个单一的随机初始化 fc_audio 层将 1280 维的输出投影到文本主干中。
视频：作为视觉帧序列处理，可以选择在之前加入提取的音频片段。

该模型继承了 v5-text 的四个任务特定 LoRA 适配器（检索、文本匹配、分类、聚类），并为每个任务变体训练单独的投影器权重。架构完全模块化：仅文本部署时不加载视觉或音频权重（与 v5-text 占用空间相同），仅图像部署时跳过音频，完整 omni 部署时加载全部内容。

Architecture — v5-omni 架构。冻结的视觉和音频编码器通过可训练的投影器输入到冻结的文本主干中。只有投影器（占总权重的 0.35%）参与训练。任务特定的 LoRA 适配器负责处理检索、分类、聚类和文本匹配。

特性	jina-embeddings-v5-omni-small	jina-embeddings-v5-omni-nano
基础文本模型	jina-embeddings-v5-text-small (Qwen3-0.6B)	jina-embeddings-v5-text-nano (EuroBERT-210m)
总参数量	~1.56B	~1.04B
模态	文本、图像、音频、视频、PDF	文本、图像、音频、视频、PDF
向量维度	1024	768
Matryoshka 维度	32, 64, 128, 256, 512, 768, 1024	32, 64, 128, 256, 512, 768
最大序列长度	32768 词元	8192 词元
视觉编码器	Qwen3.5-2B ViT (SigLIP2)	SigLIP2 Base
音频编码器	Whisper-large-v3	Whisper-large-v3
任务	检索、文本匹配、分类、聚类	检索、文本匹配、分类、聚类
文本兼容性	与 jina-embeddings-v5-text-small 一致	与 jina-embeddings-v5-text-nano 一致

jina-embeddings-v5-text-nano 可训练参数~18M 投影器 (0.35%)~7M 投影器 (0.35%) 池化 (Pooling)Last-tokenLast-token 许可协议CC BY-NC 4.0CC BY-NC 4.0

tag快速入门

tagElasticsearch (Elastic Inference Service)

如果您已经在 Elasticsearch 中使用 jina-embeddings-v5-text，那么现有的文本索引可以直接与 v5-omni 配合使用。这些全模态（omni）模型生成的文本输入向量模型结果与 v5-text 完全一致——相同的输入，相同的向量，字节级匹配。您无需重新对文本进行向量化，也无需重建任何文本索引。若要开始在现有文本数据中搜索图像、音频和视频，只需创建一个使用 v5-omni 的新索引，并将多模态内容导入其中即可。

创建一个以 v5-omni 作为推理端点的 semantic_text 索引。EIS 会自动选择正确的 LoRA 适配器进行索引和检索：

PUT multimodal-semantic-index
{
  "mappings": {
    "properties": {
      "content": {
        "type": "semantic_text",
        "inference_id": ".jina-embeddings-v5-omni-small"
      }
    }
  }
}

将文本、图像（以 base64 数据 URI 形式）、音频和视频导入同一个字段和索引中：

// 导入文本
POST multimodal-semantic-index/_doc
{
  "content": "'Kraft Dinner' is what Canadians call macaroni and cheese when prepared from a kit."
}

// 导入图像 (base64)
POST multimodal-semantic-index/_doc
{
  "content": "data:image/png;base64,iVBORw0KGgoAAAAN..."
}

使用单一文本查询跨模态进行搜索：

GET multimodal-semantic-index/_search
{
  "query": {
    "semantic": {
      "field": "content",
      "query": "Was bedeutet 'Kraft Dinner' für Kanadier?"
    }
  }
}

tagJina Embedding API

curl https://api.jina.ai/v1/embeddings \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -d '{
    "model": "jina-embeddings-v5-omni-small",
    "task": "retrieval.query",
    "dimensions": 1024,
    "input": ["What does this image show?"],
    "images": ["data:image/png;base64,..."]
  }'

tagHugging Face

from sentence_transformers import SentenceTransformer
import torch

model = SentenceTransformer(
    "jinaai/jina-embeddings-v5-omni-small-retrieval",
    model_kwargs={"dtype": torch.bfloat16},
)

# 文本向量化 (与 v5-text 一致)
text_emb = model.encode("What is knowledge distillation?", prompt_name="query")

# 图像向量化
from PIL import Image
img = Image.open("photo.jpg")
img_emb = model.encode(img)

# 跨模态相似度
similarity = model.similarity(text_emb, img_emb)

tag训练

其核心理念是冻结编码器模型组合：采用一个强大的文本向量模型，添加预训练的视觉和音频编码器，通过小型可训练的投影器将它们连接起来，并冻结除这些投影器之外的所有内容。仅训练 0.35% 的总权重，这为我们带来了三个特性：(1) 文本一致性保持——主干模型未被修改，相同的输入产生相同的输出；(2) 训练效率——仅训练投影器的速度提高了 1.8-3.9 倍，GPU 内存占用减少了 42-64%；(3) 模块化——塔式结构可以独立加载。

Training efficiency — 仅训练投影器与在 4x H100 GPU 上进行全量训练的对比（批量大小 256，1.5 万步）。音频投影器的训练效率尤为显著：small 模型速度提升 3.2 倍（154 分钟 vs 497 分钟），nano 模型速度提升 3.9 倍（112 分钟 vs 441 分钟）。由于无需为冻结的编码器存储梯度和优化器状态，节省了 42-64% 的内存。

v5-omni 继承了 v5-text 的 Matryoshka 维度支持。图像和音频向量在降维后仍能保持大部分质量，而视频在较小维度下质量下降较明显。

Radar summary — 总结：v5-omni 与最强基准模型的各模态性能对比。jina-embeddings-v5-omni-small（1.57B 参数）在文本、图像和音频方面表现优异，视频仍有提升空间。

tag结论

传统观点认为多模态向量模型需要端到端地训练整个模型。我们不这样认为。v5-omni 冻结了文本主干，仅训练 0.35% 的权重，性能却能媲美其 5-7 倍大小的模型。经验证明：组合优于重训练。强大的文本编码器是最难的部分——一旦拥有了它，通过轻量级投影器挂载视觉和音频模型几乎是零成本的。

这对于生产环境至关重要。您现有的 v5-text 索引不会受到任何影响。相同的查询，相同的向量，字节级一致。您无需重新对任何文档进行向量化，即可直接获得图像、音频和视频搜索功能。这就是多模态检索的真正突破——它是一个直接插入式升级，而不是一个迁移项目。

jina-embeddings-v5-omni-small 是 2B 参数以下性能最强的开源全模态向量模型。jina-embeddings-v5-omni-nano 则在 0.9B 参数下实现了同等功能。两者现已在 Hugging Face、Jina Search Foundation API 以及作为 Elasticsearch 的原生推理端点提供。