

我们现已发布 jina-embeddings-v5-omni,将我们的 v5-text 向量模型扩展到了图像、音频和视频领域。两款模型均与 v5-text 共享相同的冻结文本主干,这意味着文本向量完全 一致 ——无需重建索引。jina-embeddings-v5-omni-small 在四种模态上的平均得分达到 53.93,在参数量减少 5.7 倍 的情况下,表现媲美 LCO-7B (54.43);而 jina-embeddings-v5-omni-nano 仅以 0.95B 参数量即可提供极具竞争力的文档检索能力。




tag架构
v5-omni 保持 v5-text 主干完全冻结,并增加了通过小型可训练投影器连接的预训练视觉和音频编码器:
- 视觉:Qwen3.5 视觉编码器(改编自 SigLIP2),具有 2x2 空间合并(4 倍词元压缩)。我们冻结了除最终投影层 (
fc_vision_2) 之外的所有内容,该层被替换为一个随机初始化的层,将数据映射到文本主干的隐藏维度。 - 音频:Qwen2.5-Omni 编码器(改编自 Whisper-large-v3)。一个单一的随机初始化
fc_audio层将 1280 维的输出投影到文本主干中。 - 视频:作为视觉帧序列处理,可以选择在之前加入提取的音频片段。
该模型继承了 v5-text 的四个任务特定 LoRA 适配器(检索、文本匹配、分类、聚类),并为每个任务变体训练单独的投影器权重。架构完全模块化:仅文本部署时不加载视觉或音频权重(与 v5-text 占用空间相同),仅图像部署时跳过音频,完整 omni 部署时加载全部内容。

| 特性 | jina-embeddings-v5-omni-small | jina-embeddings-v5-omni-nano |
|---|---|---|
| 基础文本模型 | jina-embeddings-v5-text-small (Qwen3-0.6B) | jina-embeddings-v5-text-nano (EuroBERT-210m) |
| 总参数量 | ~1.56B | ~1.04B |
| 模态 | 文本、图像、音频、视频、PDF | 文本、图像、音频、视频、PDF |
| 向量维度 | 1024 | 768 |
| Matryoshka 维度 | 32, 64, 128, 256, 512, 768, 1024 | 32, 64, 128, 256, 512, 768 |
| 最大序列长度 | 32768 词元 | 8192 词元 |
| 视觉编码器 | Qwen3.5-2B ViT (SigLIP2) | SigLIP2 Base |
| 音频编码器 | Whisper-large-v3 | Whisper-large-v3 |
| 任务 | 检索、文本匹配、分类、聚类 | 检索、文本匹配、分类、聚类 |
| 文本兼容性 | 与 jina-embeddings-v5-text-small 一致 | 与 jina-embeddings-v5-text-nano 一致 |
tag快速入门
tagElasticsearch (Elastic Inference Service)
如果您已经在 Elasticsearch 中使用 jina-embeddings-v5-text,那么现有的文本索引可以直接与 v5-omni 配合使用。这些全模态(omni)模型生成的文本输入向量模型结果与 v5-text 完全一致——相同的输入,相同的向量,字节级匹配。您无需重新对文本进行向量化,也无需重建任何文本索引。若要开始在现有文本数据中搜索图像、音频和视频,只需创建一个使用 v5-omni 的新索引,并将多模态内容导入其中即可。
创建一个以 v5-omni 作为推理端点的 semantic_text 索引。EIS 会自动选择正确的 LoRA 适配器进行索引和检索:
PUT multimodal-semantic-index
{
"mappings": {
"properties": {
"content": {
"type": "semantic_text",
"inference_id": ".jina-embeddings-v5-omni-small"
}
}
}
}将文本、图像(以 base64 数据 URI 形式)、音频和视频导入同一个字段和索引中:
// 导入文本
POST multimodal-semantic-index/_doc
{
"content": "'Kraft Dinner' is what Canadians call macaroni and cheese when prepared from a kit."
}
// 导入图像 (base64)
POST multimodal-semantic-index/_doc
{
"content": "data:image/png;base64,iVBORw0KGgoAAAAN..."
}使用单一文本查询跨模态进行搜索:
GET multimodal-semantic-index/_search
{
"query": {
"semantic": {
"field": "content",
"query": "Was bedeutet 'Kraft Dinner' für Kanadier?"
}
}
}tagJina Embedding API
curl https://api.jina.ai/v1/embeddings \
-H "Content-Type: application/json" \
-H "Authorization: Bearer YOUR_API_KEY" \
-d '{
"model": "jina-embeddings-v5-omni-small",
"task": "retrieval.query",
"dimensions": 1024,
"input": ["What does this image show?"],
"images": ["data:image/png;base64,..."]
}'tagHugging Face
from sentence_transformers import SentenceTransformer
import torch
model = SentenceTransformer(
"jinaai/jina-embeddings-v5-omni-small-retrieval",
model_kwargs={"dtype": torch.bfloat16},
)
# 文本向量化 (与 v5-text 一致)
text_emb = model.encode("What is knowledge distillation?", prompt_name="query")
# 图像向量化
from PIL import Image
img = Image.open("photo.jpg")
img_emb = model.encode(img)
# 跨模态相似度
similarity = model.similarity(text_emb, img_emb)tag训练
其核心理念是冻结编码器模型组合:采用一个强大的文本向量模型,添加预训练的视觉和音频编码器,通过小型可训练的投影器将它们连接起来,并冻结除这些投影器之外的所有内容。仅训练 0.35% 的总权重,这为我们带来了三个特性:(1) 文本一致性保持——主干模型未被修改,相同的输入产生相同的输出;(2) 训练效率——仅训练投影器的速度提高了 1.8-3.9 倍,GPU 内存占用减少了 42-64%;(3) 模块化——塔式结构可以独立加载。

v5-omni 继承了 v5-text 的 Matryoshka 维度支持。图像和音频向量在降维后仍能保持大部分质量,而视频在较小维度下质量下降较明显。

tag结论
传统观点认为多模态向量模型需要端到端地训练整个模型。我们不这样认为。v5-omni 冻结了文本主干,仅训练 0.35% 的权重,性能却能媲美其 5-7 倍大小的模型。经验证明:组合优于重训练。强大的文本编码器是最难的部分——一旦拥有了它,通过轻量级投影器挂载视觉和音频模型几乎是零成本的。
这对于生产环境至关重要。您现有的 v5-text 索引不会受到任何影响。相同的查询,相同的向量,字节级一致。您无需重新对任何文档进行向量化,即可直接获得图像、音频和视频搜索功能。这就是多模态检索的真正突破——它是一个直接插入式升级,而不是一个迁移项目。
jina-embeddings-v5-omni-small 是 2B 参数以下性能最强的开源全模态向量模型。jina-embeddings-v5-omni-nano 则在 0.9B 参数下实现了同等功能。两者现已在 Hugging Face、Jina Search Foundation API 以及作为 Elasticsearch 的原生推理端点提供。






