jina-embeddings-v5-omni-small

向量模型

CC BY-NC 4.0

發行説明

jina-embeddings-v5-omni-small

用於文本、圖像、音頻、視頻和 PDF 的多模態向量

許可證

CC-BY-NC-4.0

發佈日期

2026-05-07

輸入

文本

圖片

聲音

視頻

PDF

輸出

向量

支持的俄羅斯套娃維度

128

256

512

768

1024

遲分技術

模型詳細信息

參數: 1.7B

輸入詞元長度: 32K

輸出維度: 1024

底座模型

jina-embeddings-v5-text-small

訓練過的語言

32 語言

支持的語言

93 語言

量化版本

GGUF

蘋果芯片優化

MLX

相關模型

jina-embeddings-v5-omni-nano

jina-embeddings-v5-text-small

jina-embeddings-v3

jina-clip-v2

支持的任務

檢索

文本匹配

聚類

分類

標籤

multimodal-embedding

embeddings

multilingual

long-context

production

matryoshka

last-token-pooling

visual-document-retrieval

可通過以下方式獲取

Elastic Inference Service Jina API 抱抱臉

I/O 圖 1

I/O 圖 2

I/O 圖 3

I/O 圖 4

選擇要比較的模型

jina-embeddings-v5-omni-small

jina-embeddings-v5-omni-nano

jina-embeddings-v5-text-small

jina-embeddings-v3

jina-clip-v2

論文 (1)

arXiv

五月 11, 2026

jina-embeddings-v5-omni: Text-Geometry-Preserving Multimodal Embeddings via Frozen-Tower Composition

概述

jina-embeddings-v5-omni-small（約17.4億參數）是一個多模態向量模型，它接受文本、圖像、視頻和音頻數據，並在與 jina-embeddings-v5-text-small 對齊的共享向量空間中生成嵌入。您可以先用文本建立索引，然後用任意模態進行查詢，反之亦然，無需重新索引。在多模態訓練期間，文本骨幹網絡和所有四個特定任務的 LoRA 適配器（檢索、文本匹配、聚類、分類）均被凍結，因此純文本輸出與 jina-embeddings-v5-text-small 完全相同。該模型生成 1024 維嵌入，並使用 Matryoshka 截斷法將其降至 32 維，同時支持 32K 個 token 的上下文長度。

方法

第三階段訓練擴展了jina-embeddings-v5-text-small模型。文本骨幹網絡和所有四個特定任務的LoRA適配器均已凍結；僅跨模態投影器進行了全新訓練。SigLIP2 So400m視覺編碼器處理圖像和視頻（32幀均勻採樣）。Whisper-large-v3音頻編碼器處理音頻輸入。PDF頁面被渲染為圖像並通過視覺路徑進行處理。訓練使用對比損失函數，並結合跨模態硬負樣本，將視覺和音頻表示與現有的文本嵌入空間對齊。

性能

純文本性能與jina-embeddings-v5-text-small完全相同——多模態訓練期間，文本骨幹網和LoRA適配器均未做任何改動。在跨模態檢索方面，該模型在文本-圖像、文本-音頻和文本-視頻任務中均表現出良好的一致性。PDF頁面檢索則通過視覺路徑完成。對於服務器部署而言，omni-small模型在Jina多模態向量模型中實現了最佳的準確率-效率平衡。

最佳實踐

與 v5-text-small 相同的四個 LoRA 適配器：檢索、文本匹配、聚類和分類。對於通過 API 傳入的多模態輸入，可以直接傳遞圖像 URL、音頻文件 URL、視頻文件 URL 或 PDF URL——模型會將每種模態的數據路由到相應的編碼器。支持的音頻格式包括 WAV、MP3、FLAC、OGG、M4A 和 Opus。視頻輸入以 32 幀均勻採樣的方式進行處理。可以在單個批次中自由混合不同的模態：嵌入空間在所有模態之間共享。使用餘弦相似度進行比較。支持從 1024 維到 32 維的 Matryoshka 截斷。純文本嵌入與 jina-embeddings-v5-text-small 完全兼容——升級時無需重新索引。

提及此模型的博客

五月 12, 2026 • 7 分鐘的讀取量

jina-embeddings-v5-omni：支援文字、圖片、音訊與影片的向量模型

單一模型，四種模態：文字、圖像、音訊、影片。同級最佳的 1.6B 與 0.9B 全能型向量模型。