jina-embeddings-v5-omni：支持文本、图像、音频和视频的向量模型

jina-embeddings-v5-omni: Text-Geometry-Preserving Multimodal Embeddings via Frozen-Tower Composition

在这项工作中，我们引入了冻结编码器模型组合（frozen-encoder model composition），这是一种多模态向量模型的新方法。我们基于视觉语言模型（VLM）架构进行构建，其中非文本编码器被适配以产生大模型的输入，进而为各种输入生成向量。我们展示了其成果：jina-embeddings-v5-omni 套件，这是一对能够将文本、图像、音频和视频输入编码到统一语义向量空间中的模型。我们的方法是扩展两个 Jina Embeddings v5 Text 模型，通过增加图像和音频编码器来支持额外的媒体。骨干文本向量模型和新增的非文本媒体编码器保持冻结。我们仅训练了连接组件，这仅占联合模型总权重参数的 0.35%。因此，训练过程比全参数重训练要高效得多。此外，大模型保持基本未变，为文本输入生成的向量与 Jina Embeddings v5 Text 模型完全一致。我们的评估表明，该方法产生的结果具有业界领先的竞争力，性能几乎与更大的多模态向量模型相当。

arXiv.orgFlorian Hönicke

我们正式发布 jina-embeddings-v5-omni，将我们的 v5-text 向量模型扩展至图像、音频和视频领域。两款模型均共享与 v5-text 相同的冻结文本骨干，这意味着文本向量完全一致 —— 无需重建索引。jina-embeddings-v5-omni-small 在四种模态上的平均得分达到 53.93，以 5.7 倍更小的参数量 媲美 LCO-7B (54.43)；而 jina-embeddings-v5-omni-nano 仅凭 0.95B 参数量即可提供具备竞争力的文档检索能力。

所有开源权重全能型向量模型（支持文本、图像、音频和视频）的帕累托前沿（Pareto frontier）。jina-embeddings-v5-omni-small (1.57B) 的平均得分与 LCO-7B (8.93B) 持平，但参数量减少了 5.7 倍。jina-embeddings-v5-omni-nano (0.95B) 比 LanguageBind (1.14B) 高出 +8.9 分。基准模型：LanguageBind, Omni-Embed-Nemotron-3B, LCO-Embedding-Omni-3B, LCO-Embedding-Omni-7B。

Per-modality scores — 文本 (MMTEB)、图像 (MIEB)、视频 (MMEB-Video) 和音频 (MAEB) 各模态的性能细分。jina-embeddings-v5-omni-small 在文本方面以 67.0 分领先所有全能型模型，完美继承了 jina-embeddings-v5-text-small 的质量。在图像 (56.05) 方面，它在分类 (68.55) 和聚类 (84.57，模型中表现最好) 方面表现卓越。音频 (51.46) 接近 LCO-7B (52.37)，并拥有最佳的音频分类得分 (55.89)。视频 (41.20) 是目前与 LCO-7B (47.41) 存在的差距，因为时间推理更受益于端到端训练。

Task breakdown — 13 种任务类型的性能细分。金星标记了 jina-embeddings-v5-omni-small 击败最佳开源基准模型（体积大 3-9 倍）的任务。胜出：图像分类 (68.55 vs 64.30)、图像聚类 (84.57 vs 83.24)、音频分类 (55.89 vs 53.39)。主要差距：视频检索 (27.82 vs 58.73) 和组合/视觉问答 (44.23 vs 53.40)。

Document retrieval — 文档检索 (ViDoRe-in-MIEB)。jina-embeddings-v5-omni-small 在 0.92B 有效文本+图像参数下得分为 79.08，优于 LCO-3B (4.07B 参数下为 78.24)。jina-embeddings-v5-omni-nano 仅用 0.31B 有效参数即获得 70.05 分，远高于 LanguageBind (37.33)。Nemotron-3B 以 85.64 分领先，但参数量是前者的 5.1 倍。

tag架构

v5-omni 将 v5-text 骨干完全冻结，并增加了预训练的视觉和音频编码器，通过小型可训练投影层进行连接：

视觉：Qwen3.5 视觉编码器（改编自 SigLIP2），具有 2x2 空间合并（4 倍词元缩减）。除了最终投影层 (fc_vision_2) 外，我们冻结了所有内容，将其替换为随机初始化的层，映射到文本骨干的隐藏维度。
音频：Qwen2.5-Omni 编码器（改编自 Whisper-large-v3）。一个随机初始化的 fc_audio 层将 1280 维输出投影到文本骨干中。
视频：作为视觉帧序列处理，可选择在前面加上提取的音频片段。

模型继承了 v5-text 的四个任务特定的 LoRA 适配器（检索、文本匹配、分类、聚类），并为每个任务变体训练单独的投影权重。该架构是完全模块化的：仅文本部署时不加载视觉或音频权重（与 v5-text 的占用空间完全相同），仅图像部署时跳过音频，全能型部署则加载所有内容。

Architecture — v5-omni 架构。冻结的视觉和音频编码器通过可训练的投影层输入到冻结的文本骨干中。仅训练投影层（占总权重的 0.35%）。任务特定的 LoRA 适配器处理检索、分类、聚类和文本匹配。

特性	jina-embeddings-v5-omni-small	jina-embeddings-v5-omni-nano
基础文本模型	jina-embeddings-v5-text-small (Qwen3-0.6B)	jina-embeddings-v5-text-nano (EuroBERT-210m)
总参数量	~1.56B	~1.04B
模态	文本、图像、音频、视频、PDF	文本、图像、音频、视频、PDF
向量维度	1024	768
Matryoshka 维度	32, 64, 128, 256, 512, 768, 1024	32, 64, 128, 256, 512, 768
最大序列长度	32768 词元	8192 词元
视觉编码器	Qwen3.5-2B ViT (SigLIP2)	SigLIP2 Base
音频编码器	Whisper-large-v3	Whisper-large-v3
任务	检索、文本匹配、分类、聚类	检索、文本匹配、分类、聚类
文本兼容性	与 jina-embeddings-v5-text-small 完全一致	与 jina-embeddings-v5-text-nano 完全一致

jina-embeddings-v5-text-nano 可训练参数~18M 投影器 (0.35%)~7M 投影器 (0.35%) 池化 (Pooling)Last-tokenLast-token 许可证CC BY-NC 4.0CC BY-NC 4.0

tag入门指南

tagElasticsearch (Elastic Inference Service)

如果您已经在 Elasticsearch 中使用了 jina-embeddings-v5-text，那么您现有的文本索引可以直接与 v5-omni 配合使用。Omni 模型产生的文本输入向量模型结果与 v5-text 完全相同——相同的输入，相同的向量，字节级一致。您无需重新进行向量化或重建任何文本索引。要开始在现有文本数据旁搜索图像、音频和视频，只需使用 v5-omni 创建一个新索引，并将您的多模态内容摄入其中即可。

创建一个使用 v5-omni 作为推理端点的 semantic_text 索引。EIS 会自动选择正确的 LoRA 适配器进行索引和检索：

PUT multimodal-semantic-index
{
  "mappings": {
    "properties": {
      "content": {
        "type": "semantic_text",
        "inference_id": ".jina-embeddings-v5-omni-small"
      }
    }
  }
}

将文本、图像（以 base64 数据 URI 形式）、音频和视频摄入到同一个字段和同一个索引中：

// 摄入文本
POST multimodal-semantic-index/_doc
{
  "content": "'Kraft Dinner' is what Canadians call macaroni and cheese when prepared from a kit."
}

// 摄入图像 (base64)
POST multimodal-semantic-index/_doc
{
  "content": "data:image/png;base64,iVBORw0KGgoAAAAN..."
}

通过单一文本查询跨模态搜索：

GET multimodal-semantic-index/_search
{
  "query": {
    "semantic": {
      "field": "content",
      "query": "Was bedeutet 'Kraft Dinner' für Kanadier?"
    }
  }
}

tagJina Embedding API

curl https://api.jina.ai/v1/embeddings \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -d '{
    "model": "jina-embeddings-v5-omni-small",
    "task": "retrieval.query",
    "dimensions": 1024,
    "input": ["What does this image show?"],
    "images": ["data:image/png;base64,..."]
  }'

tagHugging Face

from sentence_transformers import SentenceTransformer
import torch

model = SentenceTransformer(
    "jinaai/jina-embeddings-v5-omni-small-retrieval",
    model_kwargs={"dtype": torch.bfloat16},
)

# 文本向量模型 (与 v5-text 相同)
text_emb = model.encode("What is knowledge distillation?", prompt_name="query")

# 图像向量模型
from PIL import Image
img = Image.open("photo.jpg")
img_emb = model.encode(img)

# 跨模态相似度
similarity = model.similarity(text_emb, img_emb)

tag训练

其核心思想是冻结编码器模型组合 (frozen-encoder model composition)：采用一个强大的文本向量模型，添加预训练的视觉和音频编码器，通过小型可训练的投影器将它们连接起来，并冻结除这些投影器之外的所有组件。仅有 0.35% 的总权重参与训练，这赋予了我们三个特性：(1) 文本一致性保持——主干模型未被修改，相同的输入产生相同的输出；(2) 训练效率——仅训练投影器的速度提高了 1.8-3.9 倍，GPU 内存占用减少了 42-64%；(3) 模块化——各模态塔可以独立加载。

Training efficiency — 在 4x H100 GPU 上进行的“仅投影器训练”与“全参数训练”对比（批量大小 256，1.5 万步）。音频投影器的训练效率尤为显著：Small 模型速度快 3.2 倍（154 分钟 vs 497 分钟），Nano 模型快 3.9 倍（112 分钟 vs 441 分钟）。42-64% 的内存节省来自于无需存储已冻结编码器的梯度和优化器状态。

v5-omni 继承了 v5-text 的 Matryoshka 维度支持。图像和音频向量在截断后仍能保持大部分质量，而视频在较小维度下表现会有所下降。

Radar summary — 总结：v5-omni 与最强基准模型在各模态上的性能对比。jina-embeddings-v5-omni-small 在 1.57B 参数规模下，在文本、图像和音频领域表现出极具竞争力的性能，视频领域则是未来需要补齐的短板。

tag结论

传统观点认为多模态向量模型需要端到端训练整个模型。我们不认同。v5-omni 冻结了文本主干，仅训练 0.35% 的权重，性能却能媲美 5-7 倍于其规模的模型。经验教训是：组合优于重训练。强大的文本编码器是最难的部分——一旦拥有它，通过轻量级投影器接入视觉和音频几乎是“免费”的。

这对生产环境至关重要。您现有的 v5-text 索引完全不受影响。相同的查询，相同的向量，字节级一致。您无需重新向量化任何文档，即可获得图像、音频和视频搜索功能。这才是多模态检索的真正解锁方式——作为一种无需迁移工程的直接升级。

jina-embeddings-v5-omni-small 是 2B 参数以下表现最好的开源权重多模态向量模型。jina-embeddings-v5-omni-nano 则在 0.9B 参数规模下实现了同样的效果。两者现均可在 Hugging Face、Jina Search Foundation API 以及作为 Elasticsearch 中的原生推理端点使用。