新聞
模型
API
keyboard_arrow_down
讀取器
讀取URL或搜索為大模型提供更好的依據。
向量模型
世界一流的多模態多語言向量模型。
重排器
世界一流的重排器,最大限度地提高搜索相關性。
Elastic Inference Service
在 Elasticsearch 中原生運行 Jina 模型。
MCP terminal命令行articlellms.txtsmart_toy代理人data_object模式menu_book文檔



登錄
login
向量模型
copyright CC BY-NC 4.0
open_in_new 發行説明

jina-embeddings-v5-omni-small

用於文本、圖像、音頻、視頻和 PDF 的多模態向量
許可證
copyright CC-BY-NC-4.0
發佈日期
calendar_month
2026-05-07
輸入
abc
文本
image
圖片
audiotrack
聲音
videocam
視頻
picture_as_pdf
PDF
arrow_forward
輸出
more_horiz
向量
支持的俄羅斯套娃維度 help_outline
32
64
128
256
512
768
1024
遲分技術 help_outline
cancel
No
模型詳細信息
參數: 1.7B
輸入詞元長度: 32K
輸出維度: 1024
底座模型 help_outline
open_in_new
jina-embeddings-v5-text-small
訓練過的語言 help_outline
32 語言
支持的語言 help_outline
93 語言
量化版本 help_outline
GGUF
蘋果芯片優化 help_outline
MLX
相關模型
link
jina-embeddings-v5-omni-nano
link
jina-embeddings-v5-text-small
link
jina-embeddings-v3
link
jina-clip-v2
支持的任務
search 檢索
compare_arrows 文本匹配
bubble_chart 聚類
label 分類
標籤
multimodal-embedding
embeddings
multilingual
long-context
production
matryoshka
last-token-pooling
visual-document-retrieval
可通過以下方式獲取
Elastic Inference ServiceJina API抱抱臉
I/O 圖 1

文本

jina-embeddings-v5-omni-small

圖像

任務

向量

I/O 圖 2

文本

jina-embeddings-v5-omni-small

聲音的

任務

向量

I/O 圖 3

文本

jina-embeddings-v5-omni-small

視頻

任務

向量

I/O 圖 4

多個

向量

文本

jina-embeddings-v5-omni-small

PDF

任務

選擇要比較的模型
論文 (1)
arXiv
五月 11, 2026
jina-embeddings-v5-omni: Text-Geometry-Preserving Multimodal Embeddings via Frozen-Tower Composition

概述

jina-embeddings-v5-omni-small(約17.4億參數)是一個多模態向量模型,它接受文本、圖像、視頻和音頻數據,並在與 jina-embeddings-v5-text-small 對齊的共享向量空間中生成嵌入。您可以先用文本建立索引,然後用任意模態進行查詢,反之亦然,無需重新索引。在多模態訓練期間,文本骨幹網絡和所有四個特定任務的 LoRA 適配器(檢索、文本匹配、聚類、分類)均被凍結,因此純文本輸出與 jina-embeddings-v5-text-small 完全相同。該模型生成 1024 維嵌入,並使用 Matryoshka 截斷法將其降至 32 維,同時支持 32K 個 token 的上下文長度。

方法

第三階段訓練擴展了jina-embeddings-v5-text-small模型。文本骨幹網絡和所有四個特定任務的LoRA適配器均已凍結;僅跨模態投影器進行了全新訓練。SigLIP2 So400m視覺編碼器處理圖像和視頻(32幀均勻採樣)。Whisper-large-v3音頻編碼器處理音頻輸入。PDF頁面被渲染為圖像並通過視覺路徑進行處理。訓練使用對比損失函數,並結合跨模態硬負樣本,將視覺和音頻表示與現有的文本嵌入空間對齊。

性能

純文本性能與jina-embeddings-v5-text-small完全相同——多模態訓練期間,文本骨幹網和LoRA適配器均未做任何改動。在跨模態檢索方面,該模型在文本-圖像、文本-音頻和文本-視頻任務中均表現出良好的一致性。PDF頁面檢索則通過視覺路徑完成。對於服務器部署而言,omni-small模型在Jina多模態向量模型中實現了最佳的準確率-效率平衡。

最佳實踐

與 v5-text-small 相同的四​​個 LoRA 適配器:檢索、文本匹配、聚類和分類。對於通過 API 傳入的多模態輸入,可以直接傳遞圖像 URL、音頻文件 URL、視頻文件 URL 或 PDF URL——模型會將每種模態的數據路由到相應的編碼器。支持的音頻格式包括 WAV、MP3、FLAC、OGG、M4A 和 Opus。視頻輸入以 32 幀均勻採樣的方式進行處理。可以在單個批次中自由混合不同的模態:嵌入空間在所有模態之間共享。使用餘弦相似度進行比較。支持從 1024 維到 32 維的 Matryoshka 截斷。純文本嵌入與 jina-embeddings-v5-text-small 完全兼容——升級時無需重新索引。
提及此模型的博客
五月 12, 2026 • 7 分鐘的讀取量
jina-embeddings-v5-omni:支援文字、圖片、音訊與影片的向量模型
單一模型,四種模態:文字、圖像、音訊、影片。同級最佳的 1.6B 與 0.9B 全能型向量模型。
Han Xiao
搜索底座
讀取器
向量模型
重排器
Elastic Inference Service
open_in_new
獲取 Jina API 密鑰
速率限制
API 狀態
公司
關於我們
新聞
下載 Jina 標誌
open_in_new
下載 Elastic 徽標
open_in_new
條款
安全
條款及條件
隱私
管理 Cookie
Elastic © 2020-2026.