jina-embeddings-v5-omni：支援文字、圖片、音訊與影片的向量模型

jina-embeddings-v5-omni: Text-Geometry-Preserving Multimodal Embeddings via Frozen-Tower Composition

在這項工作中，我們引入了凍結編碼器模型組合（frozen-encoder model composition），這是一種多模態向量模型的新方法。我們建立在 VLM 風格的架構之上，其中非文字編碼器經過調整以產生輸入給大模型，進而為各種輸入生成向量。我們展示了成果：jina-embeddings-v5-omni 套件，這是一對能將文字、影像、音訊和影片輸入編碼到單一語義向量空間的模型。我們的方法是透過添加影像和音訊編碼器，將兩個 Jina Embeddings v5 Text 模型擴展以支援額外的媒體。底層的文字向量模型和新增的非文字媒體編碼器保持凍結狀態。我們僅訓練連接組件，這僅佔聯合模型總權重的 0.35%。因此，訓練比全參數重新訓練要高效得多。此外，大模型保持實質不變，針對文字輸入產生與 Jina Embeddings v5 Text 模型完全相同的向量。我們的評估顯示，這種方法產生的結果與最先進技術具有競爭力，且效能幾乎等同於更大的多模態向量模型。

arXiv.orgFlorian Hönicke

我們發布了 jina-embeddings-v5-omni，將我們的 v5-text 向量模型擴展至影像、音訊和影片。這兩個模型共享與 v5-text 相同的凍結文字主幹，這意味著文字向量是完全相同的——無需重建索引。jina-embeddings-v5-omni-small 在四種模態中的平均得分為 53.93，在參數減少 5.7 倍的情況下與 LCO-7B (54.43) 持平，而 jina-embeddings-v5-omni-nano 則以僅 0.95B 的參數實現了極具競爭力的文件檢索能力。

Pareto frontier — 所有開源權重全能向量模型的帕累托前沿（支援文字、影像、音訊和影片）。jina-embeddings-v5-omni-small (1.57B) 的平均得分與 LCO-7B (8.93B) 持平，同時參數減少了 5.7 倍。jina-embeddings-v5-omni-nano (0.95B) 比 LanguageBind (1.14B) 高出 8.9 分。基準模型：LanguageBind、Omni-Embed-Nemotron-3B、LCO-Embedding-Omni-3B、LCO-Embedding-Omni-7B。

Per-modality scores — 各模態表現分解：文字 (MMTEB)、影像 (MIEB)、影片 (MMEB-Video) 和音訊 (MAEB)。jina-embeddings-v5-omni-small 以 67.0 分在文字任務上領先所有全能模型，繼承了jina-embeddings-v5-text-small 的完整品質。在影像 (56.05) 方面，它在分類 (68.55) 和分群 (84.57，為所有模型中最佳) 表現優異。音訊 (51.46) 接近 LCO-7B (52.37)，並擁有最佳的音訊分類得分 (55.89)。影片 (41.20) 是目前與 LCO-7B (47.41) 之間的差距，因為時間推理更受益於端到端訓練。

Task breakdown — 13 種任務類型的表現。金色星號標記了jina-embeddings-v5-omni-small 勝過最佳開源權重基準（大 3-9 倍）的任務。勝出項目：影像分類 (68.55 vs 64.30)、影像分群 (84.57 vs 83.24)、音訊分類 (55.89 vs 53.39)。主要差距：影片檢索 (27.82 vs 58.73) 以及組合/VQA (44.23 vs 53.40)。

Document retrieval — 文件檢索 (ViDoRe-in-MIEB)。jina-embeddings-v5-omni-small 在 0.92B 活躍文字+影像參數下得分 79.08，超越了 LCO-3B (4.07B 參數下得分 78.24)。jina-embeddings-v5-omni-nano 以僅 0.31B 的活躍參數得分 70.05，遠高於 LanguageBind (37.33)。Nemotron-3B 以 85.64 領先，但使用的參數多了 5.1 倍。

tag架構

v5-omni 將 v5-text 主幹完全凍結，並添加了透過小型可訓練投影器連接的預訓練視覺和音訊編碼器：

視覺：Qwen3.5 視覺編碼器（改編自 SigLIP2），具有 2x2 空間合併（4x 詞元縮減）。我們凍結了除最終投影層 (fc_vision_2) 以外的所有內容，我們將其替換為隨機初始化的層，映射到文字主幹的隱藏維度。
音訊：Qwen2.5-Omni 編碼器（改編自 Whisper-large-v3）。單個隨機初始化的 fc_audio 層將 1280 維輸出投影到文字主幹。
影片：作為一系列視覺影格處理，前面可選擇加上提取的音訊片段。

該模型繼承了 v5-text 的四個特定任務 LoRA 適配器（檢索、文字匹配、分類、分群），並為每個任務變體訓練單獨的投影器權重。該架構是完全模組化的：純文字部署不載入任何視覺或音訊權重（佔用空間與 v5-text 相同），純影像跳過音訊，全能 (omni) 模式則載入所有內容。

Architecture — v5-omni 架構。凍結的視覺和音訊編碼器將輸入投射到凍結的文字主幹中。僅投影器（佔總權重的 0.35%）被訓練。特定任務的 LoRA 適配器負責處理檢索、分類、分群和文字匹配。

特性	jina-embeddings-v5-omni-small	jina-embeddings-v5-omni-nano
基礎文字模型	jina-embeddings-v5-text-small (Qwen3-0.6B)	jina-embeddings-v5-text-nano (EuroBERT-210m)
總參數	~1.56B	~1.04B
模態	文字、影像、音訊、影片、PDF	文字、影像、音訊、影片、PDF
向量維度	1024	768
Matryoshka 維度	32, 64, 128, 256, 512, 768, 1024	32, 64, 128, 256, 512, 768
最大序列長度	32768 詞元	8192 詞元
視覺編碼器	Qwen3.5-2B ViT (SigLIP2)	SigLIP2 Base
音訊編碼器	Whisper-large-v3	Whisper-large-v3
任務	檢索、文字匹配、分類、分群	檢索、文字匹配、分類、分群
文字相容性	與 jina-embeddings-v5-text-small 相同	與 jina-embeddings-v5-text-nano 相同

jina-embeddings-v5-text-nano 可訓練參數~18M 投影器 (0.35%)~7M 投影器 (0.35%) 池化 (Pooling)Last-tokenLast-token 授權協議CC BY-NC 4.0CC BY-NC 4.0

tag快速入門

tagElasticsearch (Elastic Inference Service)

如果您已經在 Elasticsearch 中使用 jina-embeddings-v5-text，您現有的文字索引可以直接與 v5-omni 搭配使用。這些 omni 模型產生的文字輸入向量模型結果與 v5-text 完全相同 —— 相同的輸入、相同的向量，逐位元組一致。您無需重新進行向量化或重建任何文字索引。若要開始在現有文字資料中搜尋圖片、音訊和影片，只需使用 v5-omni 建立一個新索引，並將您的多模態內容匯入其中即可。

建立一個以 v5-omni 作為推論端點的 semantic_text 索引。EIS 會自動選擇正確的 LoRA 適配器進行索引與檢索：

PUT multimodal-semantic-index
{
  "mappings": {
    "properties": {
      "content": {
        "type": "semantic_text",
        "inference_id": ".jina-embeddings-v5-omni-small"
      }
    }
  }
}

將文字、圖片（作為 base64 資料 URI）、音訊和影片匯入同一個欄位、同一個索引：

// 匯入文字
POST multimodal-semantic-index/_doc
{
  "content": "'Kraft Dinner' is what Canadians call macaroni and cheese when prepared from a kit."
}

// 匯入圖片 (base64)
POST multimodal-semantic-index/_doc
{
  "content": "data:image/png;base64,iVBORw0KGgoAAAAN..."
}

透過單一文字查詢搜尋所有模態：

GET multimodal-semantic-index/_search
{
  "query": {
    "semantic": {
      "field": "content",
      "query": "Was bedeutet 'Kraft Dinner' für Kanadier?"
    }
  }
}

tagJina Embedding API

curl https://api.jina.ai/v1/embeddings \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -d '{
    "model": "jina-embeddings-v5-omni-small",
    "task": "retrieval.query",
    "dimensions": 1024,
    "input": ["What does this image show?"],
    "images": ["data:image/png;base64,..."]
  }'

tagHugging Face

from sentence_transformers import SentenceTransformer
import torch

model = SentenceTransformer(
    "jinaai/jina-embeddings-v5-omni-small-retrieval",
    model_kwargs={"dtype": torch.bfloat16},
)

# 文字向量模型結果 (與 v5-text 完全相同)
text_emb = model.encode("What is knowledge distillation?", prompt_name="query")

# 圖片向量模型結果
from PIL import Image
img = Image.open("photo.jpg")
img_emb = model.encode(img)

# 跨模態相似度
similarity = model.similarity(text_emb, img_emb)

tag訓練

核心理念是凍結編碼器模型組合 (frozen-encoder model composition)：採用強大的文字向量模型，添加預訓練的視覺與音訊編碼器，利用小型可訓練的投影器將它們連接起來，並凍結除這些投影器以外的所有參數。僅訓練 0.35% 的總權重，這賦予了我們三個特性：(1) 文字識別一致性——主幹模型未經修改，相同的輸入產生相同的輸出；(2) 訓練效率——僅訓練投影器的速度快了 1.8-3.9 倍，GPU 記憶體需求降低了 42-64%；(3) 模組化——各個模組可以獨立載入。

Training efficiency — 僅訓練投影器與全參數訓練在 4x H100 GPU 上的對比（批次大小 256，15K 步）。音訊投影器訓練的效率特別高：Small 模型速度快了 3.2 倍（154 分鐘 vs 497 分鐘），Nano 模型快了 3.9 倍（112 分鐘 vs 441 分鐘）。42-64% 的記憶體節省來自於無需為凍結的編碼器儲存梯度和最佳化器狀態。

v5-omni 繼承了 v5-text 對 Matryoshka 維度的支援。圖片與音訊向量模型結果在截斷維度後仍能保留大部分品質，而影片在高維度減少時品質下降較明顯。

Radar summary — 總結：v5-omni 與最強基準模型的各模態表現對比。jina-embeddings-v5-omni-small 在 1.57B 參數規模下，涵蓋了文字、圖片和音訊，表現具有競爭力，影片檢索則是未來需要補足的差距。

tag結語

傳統觀點認為多模態向量模型需要端對端地訓練整個模型。我們不這麼認為。v5-omni 凍結了文字主幹，僅訓練 0.35% 的權重，卻能與比它大 5-7 倍的模型相媲美。這給我們的啟示是：組合優於重訓。強大的文字編碼器是最難的部分——一旦擁有了它，透過輕量級投影器掛載視覺與音訊模組幾乎不需要額外成本。

這對於生產環境至關重要。您現有的 v5-text 索引完全不受影響。相同的查詢、相同的向量，逐位元組一致。您無需為任何文件重新進行向量化，即可獲得圖片、音訊和影片搜尋能力。這就是多模態檢索真正的突破——作為一種無縫升級，而不是一項繁瑣的遷移專案。

jina-embeddings-v5-omni-small 是 2B 參數以下表現最佳的開放權重 omni 向量模型。jina-embeddings-v5-omni-nano 則在 0.9B 參數下實現了同樣的效果。兩者現已可在 Hugging Face、Jina Search Foundation API 上使用，並作為 Elasticsearch 的原生推論端點提供。