

我们正式发布 jina-embeddings-v5-omni,将我们的 v5-text 向量模型扩展至图像、音频和视频领域。两款模型均共享与 v5-text 相同的冻结文本骨干,这意味着文本向量完全 一致 —— 无需重建索引。jina-embeddings-v5-omni-small 在四种模态上的平均得分达到 53.93,以 5.7 倍更小的参数量 媲美 LCO-7B (54.43);而 jina-embeddings-v5-omni-nano 仅凭 0.95B 参数量即可提供具备竞争力的文档检索能力。




tag架构
v5-omni 将 v5-text 骨干完全冻结,并增加了预训练的视觉和音频编码器,通过小型可训练投影层进行连接:
- 视觉:Qwen3.5 视觉编码器(改编自 SigLIP2),具有 2x2 空间合并(4 倍词元缩减)。除了最终投影层 (
fc_vision_2) 外,我们冻结了所有内容,将其替换为随机初始化的层,映射到文本骨干的隐藏维度。 - 音频:Qwen2.5-Omni 编码器(改编自 Whisper-large-v3)。一个随机初始化的
fc_audio层将 1280 维输出投影到文本骨干中。 - 视频:作为视觉帧序列处理,可选择在前面加上提取的音频片段。
模型继承了 v5-text 的四个任务特定的 LoRA 适配器(检索、文本匹配、分类、聚类),并为每个任务变体训练单独的投影权重。该架构是完全模块化的:仅文本部署时不加载视觉或音频权重(与 v5-text 的占用空间完全相同),仅图像部署时跳过音频,全能型部署则加载所有内容。

| 特性 | jina-embeddings-v5-omni-small | jina-embeddings-v5-omni-nano |
|---|---|---|
| 基础文本模型 | jina-embeddings-v5-text-small (Qwen3-0.6B) | jina-embeddings-v5-text-nano (EuroBERT-210m) |
| 总参数量 | ~1.56B | ~1.04B |
| 模态 | 文本、图像、音频、视频、PDF | 文本、图像、音频、视频、PDF |
| 向量维度 | 1024 | 768 |
| Matryoshka 维度 | 32, 64, 128, 256, 512, 768, 1024 | 32, 64, 128, 256, 512, 768 |
| 最大序列长度 | 32768 词元 | 8192 词元 |
| 视觉编码器 | Qwen3.5-2B ViT (SigLIP2) | SigLIP2 Base |
| 音频编码器 | Whisper-large-v3 | Whisper-large-v3 |
| 任务 | 检索、文本匹配、分类、聚类 | 检索、文本匹配、分类、聚类 |
| 文本兼容性 | 与 jina-embeddings-v5-text-small 完全一致 | 与 jina-embeddings-v5-text-nano 完全一致 |
tag入门指南
tagElasticsearch (Elastic Inference Service)
如果您已经在 Elasticsearch 中使用了 jina-embeddings-v5-text,那么您现有的文本索引可以直接与 v5-omni 配合使用。Omni 模型产生的文本输入向量模型结果与 v5-text 完全相同——相同的输入,相同的向量,字节级一致。您无需重新进行向量化或重建任何文本索引。要开始在现有文本数据旁搜索图像、音频和视频,只需使用 v5-omni 创建一个新索引,并将您的多模态内容摄入其中即可。
创建一个使用 v5-omni 作为推理端点的 semantic_text 索引。EIS 会自动选择正确的 LoRA 适配器进行索引和检索:
PUT multimodal-semantic-index
{
"mappings": {
"properties": {
"content": {
"type": "semantic_text",
"inference_id": ".jina-embeddings-v5-omni-small"
}
}
}
}将文本、图像(以 base64 数据 URI 形式)、音频和视频摄入到同一个字段和同一个索引中:
// 摄入文本
POST multimodal-semantic-index/_doc
{
"content": "'Kraft Dinner' is what Canadians call macaroni and cheese when prepared from a kit."
}
// 摄入图像 (base64)
POST multimodal-semantic-index/_doc
{
"content": "data:image/png;base64,iVBORw0KGgoAAAAN..."
}通过单一文本查询跨模态搜索:
GET multimodal-semantic-index/_search
{
"query": {
"semantic": {
"field": "content",
"query": "Was bedeutet 'Kraft Dinner' für Kanadier?"
}
}
}tagJina Embedding API
curl https://api.jina.ai/v1/embeddings \
-H "Content-Type: application/json" \
-H "Authorization: Bearer YOUR_API_KEY" \
-d '{
"model": "jina-embeddings-v5-omni-small",
"task": "retrieval.query",
"dimensions": 1024,
"input": ["What does this image show?"],
"images": ["data:image/png;base64,..."]
}'tagHugging Face
from sentence_transformers import SentenceTransformer
import torch
model = SentenceTransformer(
"jinaai/jina-embeddings-v5-omni-small-retrieval",
model_kwargs={"dtype": torch.bfloat16},
)
# 文本向量模型 (与 v5-text 相同)
text_emb = model.encode("What is knowledge distillation?", prompt_name="query")
# 图像向量模型
from PIL import Image
img = Image.open("photo.jpg")
img_emb = model.encode(img)
# 跨模态相似度
similarity = model.similarity(text_emb, img_emb)tag训练
其核心思想是冻结编码器模型组合 (frozen-encoder model composition):采用一个强大的文本向量模型,添加预训练的视觉和音频编码器,通过小型可训练的投影器将它们连接起来,并冻结除这些投影器之外的所有组件。仅有 0.35% 的总权重参与训练,这赋予了我们三个特性:(1) 文本一致性保持——主干模型未被修改,相同的输入产生相同的输出;(2) 训练效率——仅训练投影器的速度提高了 1.8-3.9 倍,GPU 内存占用减少了 42-64%;(3) 模块化——各模态塔可以独立加载。

v5-omni 继承了 v5-text 的 Matryoshka 维度支持。图像和音频向量在截断后仍能保持大部分质量,而视频在较小维度下表现会有所下降。

tag结论
传统观点认为多模态向量模型需要端到端训练整个模型。我们不认同。v5-omni 冻结了文本主干,仅训练 0.35% 的权重,性能却能媲美 5-7 倍于其规模的模型。经验教训是:组合优于重训练。强大的文本编码器是最难的部分——一旦拥有它,通过轻量级投影器接入视觉和音频几乎是“免费”的。
这对生产环境至关重要。您现有的 v5-text 索引完全不受影响。相同的查询,相同的向量,字节级一致。您无需重新向量化任何文档,即可获得图像、音频和视频搜索功能。这才是多模态检索的真正解锁方式——作为一种无需迁移工程的直接升级。
jina-embeddings-v5-omni-small 是 2B 参数以下表现最好的开源权重多模态向量模型。jina-embeddings-v5-omni-nano 则在 0.9B 参数规模下实现了同样的效果。两者现均可在 Hugging Face、Jina Search Foundation API 以及作为 Elasticsearch 中的原生推理端点使用。






