

我們發布了 jina-embeddings-v5-omni,將我們的 v5-text 向量模型擴展至影像、音訊和影片。這兩個模型共享與 v5-text 相同的凍結文字主幹,這意味著文字向量是完全相同的——無需重建索引。jina-embeddings-v5-omni-small 在四種模態中的平均得分為 53.93,在參數減少 5.7 倍的情況下與 LCO-7B (54.43) 持平,而 jina-embeddings-v5-omni-nano 則以僅 0.95B 的參數實現了極具競爭力的文件檢索能力。




tag架構
v5-omni 將 v5-text 主幹完全凍結,並添加了透過小型可訓練投影器連接的預訓練視覺和音訊編碼器:
- 視覺:Qwen3.5 視覺編碼器(改編自 SigLIP2),具有 2x2 空間合併(4x 詞元縮減)。我們凍結了除最終投影層 (
fc_vision_2) 以外的所有內容,我們將其替換為隨機初始化的層,映射到文字主幹的隱藏維度。 - 音訊:Qwen2.5-Omni 編碼器(改編自 Whisper-large-v3)。單個隨機初始化的
fc_audio層將 1280 維輸出投影到文字主幹。 - 影片:作為一系列視覺影格處理,前面可選擇加上提取的音訊片段。
該模型繼承了 v5-text 的四個特定任務 LoRA 適配器(檢索、文字匹配、分類、分群),並為每個任務變體訓練單獨的投影器權重。該架構是完全模組化的:純文字部署不載入任何視覺或音訊權重(佔用空間與 v5-text 相同),純影像跳過音訊,全能 (omni) 模式則載入所有內容。

| 特性 | jina-embeddings-v5-omni-small | jina-embeddings-v5-omni-nano |
|---|---|---|
| 基礎文字模型 | jina-embeddings-v5-text-small (Qwen3-0.6B) | jina-embeddings-v5-text-nano (EuroBERT-210m) |
| 總參數 | ~1.56B | ~1.04B |
| 模態 | 文字、影像、音訊、影片、PDF | 文字、影像、音訊、影片、PDF |
| 向量維度 | 1024 | 768 |
| Matryoshka 維度 | 32, 64, 128, 256, 512, 768, 1024 | 32, 64, 128, 256, 512, 768 |
| 最大序列長度 | 32768 詞元 | 8192 詞元 |
| 視覺編碼器 | Qwen3.5-2B ViT (SigLIP2) | SigLIP2 Base |
| 音訊編碼器 | Whisper-large-v3 | Whisper-large-v3 |
| 任務 | 檢索、文字匹配、分類、分群 | 檢索、文字匹配、分類、分群 |
| 文字相容性 | 與 jina-embeddings-v5-text-small 相同 | 與 jina-embeddings-v5-text-nano 相同 |
tag快速入門
tagElasticsearch (Elastic Inference Service)
如果您已經在 Elasticsearch 中使用 jina-embeddings-v5-text,您現有的文字索引可以直接與 v5-omni 搭配使用。這些 omni 模型產生的文字輸入向量模型結果與 v5-text 完全相同 —— 相同的輸入、相同的向量,逐位元組一致。您無需重新進行向量化或重建任何文字索引。若要開始在現有文字資料中搜尋圖片、音訊和影片,只需使用 v5-omni 建立一個新索引,並將您的多模態內容匯入其中即可。
建立一個以 v5-omni 作為推論端點的 semantic_text 索引。EIS 會自動選擇正確的 LoRA 適配器進行索引與檢索:
PUT multimodal-semantic-index
{
"mappings": {
"properties": {
"content": {
"type": "semantic_text",
"inference_id": ".jina-embeddings-v5-omni-small"
}
}
}
}將文字、圖片(作為 base64 資料 URI)、音訊和影片匯入同一個欄位、同一個索引:
// 匯入文字
POST multimodal-semantic-index/_doc
{
"content": "'Kraft Dinner' is what Canadians call macaroni and cheese when prepared from a kit."
}
// 匯入圖片 (base64)
POST multimodal-semantic-index/_doc
{
"content": "data:image/png;base64,iVBORw0KGgoAAAAN..."
}透過單一文字查詢搜尋所有模態:
GET multimodal-semantic-index/_search
{
"query": {
"semantic": {
"field": "content",
"query": "Was bedeutet 'Kraft Dinner' für Kanadier?"
}
}
}tagJina Embedding API
curl https://api.jina.ai/v1/embeddings \
-H "Content-Type: application/json" \
-H "Authorization: Bearer YOUR_API_KEY" \
-d '{
"model": "jina-embeddings-v5-omni-small",
"task": "retrieval.query",
"dimensions": 1024,
"input": ["What does this image show?"],
"images": ["data:image/png;base64,..."]
}'tagHugging Face
from sentence_transformers import SentenceTransformer
import torch
model = SentenceTransformer(
"jinaai/jina-embeddings-v5-omni-small-retrieval",
model_kwargs={"dtype": torch.bfloat16},
)
# 文字向量模型結果 (與 v5-text 完全相同)
text_emb = model.encode("What is knowledge distillation?", prompt_name="query")
# 圖片向量模型結果
from PIL import Image
img = Image.open("photo.jpg")
img_emb = model.encode(img)
# 跨模態相似度
similarity = model.similarity(text_emb, img_emb)tag訓練
核心理念是凍結編碼器模型組合 (frozen-encoder model composition):採用強大的文字向量模型,添加預訓練的視覺與音訊編碼器,利用小型可訓練的投影器將它們連接起來,並凍結除這些投影器以外的所有參數。僅訓練 0.35% 的總權重,這賦予了我們三個特性:(1) 文字識別一致性——主幹模型未經修改,相同的輸入產生相同的輸出;(2) 訓練效率——僅訓練投影器的速度快了 1.8-3.9 倍,GPU 記憶體需求降低了 42-64%;(3) 模組化——各個模組可以獨立載入。

v5-omni 繼承了 v5-text 對 Matryoshka 維度的支援。圖片與音訊向量模型結果在截斷維度後仍能保留大部分品質,而影片在高維度減少時品質下降較明顯。

tag結語
傳統觀點認為多模態向量模型需要端對端地訓練整個模型。我們不這麼認為。v5-omni 凍結了文字主幹,僅訓練 0.35% 的權重,卻能與比它大 5-7 倍的模型相媲美。這給我們的啟示是:組合優於重訓。強大的文字編碼器是最難的部分——一旦擁有了它,透過輕量級投影器掛載視覺與音訊模組幾乎不需要額外成本。
這對於生產環境至關重要。您現有的 v5-text 索引完全不受影響。相同的查詢、相同的向量,逐位元組一致。您無需為任何文件重新進行向量化,即可獲得圖片、音訊和影片搜尋能力。這就是多模態檢索真正的突破——作為一種無縫升級,而不是一項繁瑣的遷移專案。
jina-embeddings-v5-omni-small 是 2B 參數以下表現最佳的開放權重 omni 向量模型。jina-embeddings-v5-omni-nano 則在 0.9B 參數下實現了同樣的效果。兩者現已可在 Hugging Face、Jina Search Foundation API 上使用,並作為 Elasticsearch 的原生推論端點提供。






