新聞
模型
API
keyboard_arrow_down
讀取器
讀取URL或搜索為大模型提供更好的依據。
向量模型
世界一流的多模態多語言向量模型。
重排器
世界一流的重排器,最大限度地提高搜索相關性。
Elastic Inference Service
在 Elasticsearch 中原生運行 Jina 模型。
MCP terminal命令行articlellms.txtsmart_toy代理人data_object模式menu_book文檔



登錄
login
架構
快速入門
訓練
結語
star
甄選
新聞稿
五月 12, 2026

jina-embeddings-v5-omni:支援文字、圖片、音訊與影片的向量模型

單一模型,四種模態:文字、圖像、音訊、影片。同級最佳的 1.6B 與 0.9B 全能型向量模型。
Han Xiao
Han Xiao • 7 分鐘的讀取量
jina-embeddings-v5-omni - a jinaai Collection
與 jina-embeddings-v5-text-* 對齊的多模態(文字 + 影像 + 影片 + 音訊)向量模型。包含兩種尺寸,每種各有四個任務變體。
a jinaai Collection
jina-embeddings-v5-omni: Text-Geometry-Preserving Multimodal Embeddings via Frozen-Tower Composition
在這項工作中,我們引入了凍結編碼器模型組合(frozen-encoder model composition),這是一種多模態向量模型的新方法。我們建立在 VLM 風格的架構之上,其中非文字編碼器經過調整以產生輸入給大模型,進而為各種輸入生成向量。我們展示了成果:jina-embeddings-v5-omni 套件,這是一對能將文字、影像、音訊和影片輸入編碼到單一語義向量空間的模型。我們的方法是透過添加影像和音訊編碼器,將兩個 Jina Embeddings v5 Text 模型擴展以支援額外的媒體。底層的文字向量模型和新增的非文字媒體編碼器保持凍結狀態。我們僅訓練連接組件,這僅佔聯合模型總權重的 0.35%。因此,訓練比全參數重新訓練要高效得多。此外,大模型保持實質不變,針對文字輸入產生與 Jina Embeddings v5 Text 模型完全相同的向量。我們的評估顯示,這種方法產生的結果與最先進技術具有競爭力,且效能幾乎等同於更大的多模態向量模型。
arXiv.orgFlorian Hönicke

我們發布了 jina-embeddings-v5-omni,將我們的 v5-text 向量模型擴展至影像、音訊和影片。這兩個模型共享與 v5-text 相同的凍結文字主幹,這意味著文字向量是完全相同的——無需重建索引。jina-embeddings-v5-omni-small 在四種模態中的平均得分為 53.93,在參數減少 5.7 倍的情況下與 LCO-7B (54.43) 持平,而 jina-embeddings-v5-omni-nano 則以僅 0.95B 的參數實現了極具競爭力的文件檢索能力。

Pareto frontier
所有開源權重全能向量模型的帕累托前沿(支援文字、影像、音訊和影片)。jina-embeddings-v5-omni-small (1.57B) 的平均得分與 LCO-7B (8.93B) 持平,同時參數減少了 5.7 倍。jina-embeddings-v5-omni-nano (0.95B) 比 LanguageBind (1.14B) 高出 8.9 分。基準模型:LanguageBind、Omni-Embed-Nemotron-3B、LCO-Embedding-Omni-3B、LCO-Embedding-Omni-7B。
Per-modality scores
各模態表現分解:文字 (MMTEB)、影像 (MIEB)、影片 (MMEB-Video) 和音訊 (MAEB)。jina-embeddings-v5-omni-small 以 67.0 分在文字任務上領先所有全能模型,繼承了jina-embeddings-v5-text-small 的完整品質。在影像 (56.05) 方面,它在分類 (68.55) 和分群 (84.57,為所有模型中最佳) 表現優異。音訊 (51.46) 接近 LCO-7B (52.37),並擁有最佳的音訊分類得分 (55.89)。影片 (41.20) 是目前與 LCO-7B (47.41) 之間的差距,因為時間推理更受益於端到端訓練。
Task breakdown
13 種任務類型的表現。金色星號標記了jina-embeddings-v5-omni-small 勝過最佳開源權重基準(大 3-9 倍)的任務。勝出項目:影像分類 (68.55 vs 64.30)、影像分群 (84.57 vs 83.24)、音訊分類 (55.89 vs 53.39)。主要差距:影片檢索 (27.82 vs 58.73) 以及組合/VQA (44.23 vs 53.40)。
Document retrieval
文件檢索 (ViDoRe-in-MIEB)。jina-embeddings-v5-omni-small 在 0.92B 活躍文字+影像參數下得分 79.08,超越了 LCO-3B (4.07B 參數下得分 78.24)。jina-embeddings-v5-omni-nano 以僅 0.31B 的活躍參數得分 70.05,遠高於 LanguageBind (37.33)。Nemotron-3B 以 85.64 領先,但使用的參數多了 5.1 倍。

tag架構

v5-omni 將 v5-text 主幹完全凍結,並添加了透過小型可訓練投影器連接的預訓練視覺和音訊編碼器:

  • 視覺:Qwen3.5 視覺編碼器(改編自 SigLIP2),具有 2x2 空間合併(4x 詞元縮減)。我們凍結了除最終投影層 (fc_vision_2) 以外的所有內容,我們將其替換為隨機初始化的層,映射到文字主幹的隱藏維度。
  • 音訊:Qwen2.5-Omni 編碼器(改編自 Whisper-large-v3)。單個隨機初始化的 fc_audio 層將 1280 維輸出投影到文字主幹。
  • 影片:作為一系列視覺影格處理,前面可選擇加上提取的音訊片段。

該模型繼承了 v5-text 的四個特定任務 LoRA 適配器(檢索、文字匹配、分類、分群),並為每個任務變體訓練單獨的投影器權重。該架構是完全模組化的:純文字部署不載入任何視覺或音訊權重(佔用空間與 v5-text 相同),純影像跳過音訊,全能 (omni) 模式則載入所有內容。

Architecture
v5-omni 架構。凍結的視覺和音訊編碼器將輸入投射到凍結的文字主幹中。僅投影器(佔總權重的 0.35%)被訓練。特定任務的 LoRA 適配器負責處理檢索、分類、分群和文字匹配。
特性jina-embeddings-v5-omni-smalljina-embeddings-v5-omni-nano
基礎文字模型jina-embeddings-v5-text-small (Qwen3-0.6B)jina-embeddings-v5-text-nano (EuroBERT-210m)
總參數~1.56B~1.04B
模態文字、影像、音訊、影片、PDF文字、影像、音訊、影片、PDF
向量維度1024768
Matryoshka 維度32, 64, 128, 256, 512, 768, 102432, 64, 128, 256, 512, 768
最大序列長度32768 詞元8192 詞元
視覺編碼器Qwen3.5-2B ViT (SigLIP2)SigLIP2 Base
音訊編碼器Whisper-large-v3Whisper-large-v3
任務檢索、文字匹配、分類、分群檢索、文字匹配、分類、分群
文字相容性與 jina-embeddings-v5-text-small 相同與 jina-embeddings-v5-text-nano 相同
jina-embeddings-v5-text-nano 可訓練參數~18M 投影器 (0.35%)~7M 投影器 (0.35%) 池化 (Pooling)Last-tokenLast-token 授權協議CC BY-NC 4.0CC BY-NC 4.0

tag快速入門

tagElasticsearch (Elastic Inference Service)

如果您已經在 Elasticsearch 中使用 jina-embeddings-v5-text,您現有的文字索引可以直接與 v5-omni 搭配使用。這些 omni 模型產生的文字輸入向量模型結果與 v5-text 完全相同 —— 相同的輸入、相同的向量,逐位元組一致。您無需重新進行向量化或重建任何文字索引。若要開始在現有文字資料中搜尋圖片、音訊和影片,只需使用 v5-omni 建立一個新索引,並將您的多模態內容匯入其中即可。

建立一個以 v5-omni 作為推論端點的 semantic_text 索引。EIS 會自動選擇正確的 LoRA 適配器進行索引與檢索:

PUT multimodal-semantic-index
{
  "mappings": {
    "properties": {
      "content": {
        "type": "semantic_text",
        "inference_id": ".jina-embeddings-v5-omni-small"
      }
    }
  }
}

將文字、圖片(作為 base64 資料 URI)、音訊和影片匯入同一個欄位、同一個索引:

// 匯入文字
POST multimodal-semantic-index/_doc
{
  "content": "'Kraft Dinner' is what Canadians call macaroni and cheese when prepared from a kit."
}

// 匯入圖片 (base64)
POST multimodal-semantic-index/_doc
{
  "content": "data:image/png;base64,iVBORw0KGgoAAAAN..."
}

透過單一文字查詢搜尋所有模態:

GET multimodal-semantic-index/_search
{
  "query": {
    "semantic": {
      "field": "content",
      "query": "Was bedeutet 'Kraft Dinner' für Kanadier?"
    }
  }
}

tagJina Embedding API

curl https://api.jina.ai/v1/embeddings \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -d '{
    "model": "jina-embeddings-v5-omni-small",
    "task": "retrieval.query",
    "dimensions": 1024,
    "input": ["What does this image show?"],
    "images": ["data:image/png;base64,..."]
  }'

tagHugging Face

from sentence_transformers import SentenceTransformer
import torch

model = SentenceTransformer(
    "jinaai/jina-embeddings-v5-omni-small-retrieval",
    model_kwargs={"dtype": torch.bfloat16},
)

# 文字向量模型結果 (與 v5-text 完全相同)
text_emb = model.encode("What is knowledge distillation?", prompt_name="query")

# 圖片向量模型結果
from PIL import Image
img = Image.open("photo.jpg")
img_emb = model.encode(img)

# 跨模態相似度
similarity = model.similarity(text_emb, img_emb)

tag訓練

核心理念是凍結編碼器模型組合 (frozen-encoder model composition):採用強大的文字向量模型,添加預訓練的視覺與音訊編碼器,利用小型可訓練的投影器將它們連接起來,並凍結除這些投影器以外的所有參數。僅訓練 0.35% 的總權重,這賦予了我們三個特性:(1) 文字識別一致性——主幹模型未經修改,相同的輸入產生相同的輸出;(2) 訓練效率——僅訓練投影器的速度快了 1.8-3.9 倍,GPU 記憶體需求降低了 42-64%;(3) 模組化——各個模組可以獨立載入。

Training efficiency
僅訓練投影器與全參數訓練在 4x H100 GPU 上的對比(批次大小 256,15K 步)。音訊投影器訓練的效率特別高:Small 模型速度快了 3.2 倍(154 分鐘 vs 497 分鐘),Nano 模型快了 3.9 倍(112 分鐘 vs 441 分鐘)。42-64% 的記憶體節省來自於無需為凍結的編碼器儲存梯度和最佳化器狀態。

v5-omni 繼承了 v5-text 對 Matryoshka 維度的支援。圖片與音訊向量模型結果在截斷維度後仍能保留大部分品質,而影片在高維度減少時品質下降較明顯。

Radar summary
總結:v5-omni 與最強基準模型的各模態表現對比。jina-embeddings-v5-omni-small 在 1.57B 參數規模下,涵蓋了文字、圖片和音訊,表現具有競爭力,影片檢索則是未來需要補足的差距。

tag結語

傳統觀點認為多模態向量模型需要端對端地訓練整個模型。我們不這麼認為。v5-omni 凍結了文字主幹,僅訓練 0.35% 的權重,卻能與比它大 5-7 倍的模型相媲美。這給我們的啟示是:組合優於重訓。強大的文字編碼器是最難的部分——一旦擁有了它,透過輕量級投影器掛載視覺與音訊模組幾乎不需要額外成本。

這對於生產環境至關重要。您現有的 v5-text 索引完全不受影響。相同的查詢、相同的向量,逐位元組一致。您無需為任何文件重新進行向量化,即可獲得圖片、音訊和影片搜尋能力。這就是多模態檢索真正的突破——作為一種無縫升級,而不是一項繁瑣的遷移專案。

jina-embeddings-v5-omni-small 是 2B 參數以下表現最佳的開放權重 omni 向量模型。jina-embeddings-v5-omni-nano 則在 0.9B 參數下實現了同樣的效果。兩者現已可在 Hugging Face、Jina Search Foundation API 上使用,並作為 Elasticsearch 的原生推論端點提供。

類別:
star
甄選
新聞稿
rss_feed

更多新聞
二月 19, 2026 • 7 分鐘的讀取量
jina-embeddings-v5-text:全新的 SOTA 小型多語言向量模型
Han Xiao
Abstract digital artwork in black and white, featuring scattered dots forming letters in a halftone effect. The central lette
十二月 04, 2025 • 7 分鐘的讀取量
Jina-VLM:小型多語言視覺語言模型
Jina AI
Artistic representation of "Vln" in vibrant, rainbow-like colors on a minimalistic white background, with a focus on color di
十月 03, 2025 • 7 分鐘的讀取量
Jina Reranker v3:用於 SOTA 多語檢索的 0.6B Listwise 重排器
Jina AI
Light blue background with stylized text in the center, composed of small dots or squares, evoking a modern and minimalistic
搜索底座
讀取器
向量模型
重排器
Elastic Inference Service
open_in_new
獲取 Jina API 密鑰
速率限制
API 狀態
公司
關於我們
新聞
下載 Jina 標誌
open_in_new
下載 Elastic 徽標
open_in_new
條款
安全
條款及條件
隱私
管理 Cookie
Elastic © 2020-2026.