可通過以下方式獲取
I/O 圖 1
I/O 圖 2
I/O 圖 3
I/O 圖 4
選擇要比較的模型
論文 (1)
概述
jina-embeddings-v5-omni-small(約17.4億參數)是一個多模態向量模型,它接受文本、圖像、視頻和音頻數據,並在與 jina-embeddings-v5-text-small 對齊的共享向量空間中生成嵌入。您可以先用文本建立索引,然後用任意模態進行查詢,反之亦然,無需重新索引。在多模態訓練期間,文本骨幹網絡和所有四個特定任務的 LoRA 適配器(檢索、文本匹配、聚類、分類)均被凍結,因此純文本輸出與 jina-embeddings-v5-text-small 完全相同。該模型生成 1024 維嵌入,並使用 Matryoshka 截斷法將其降至 32 維,同時支持 32K 個 token 的上下文長度。
方法
第三階段訓練擴展了jina-embeddings-v5-text-small模型。文本骨幹網絡和所有四個特定任務的LoRA適配器均已凍結;僅跨模態投影器進行了全新訓練。SigLIP2 So400m視覺編碼器處理圖像和視頻(32幀均勻採樣)。Whisper-large-v3音頻編碼器處理音頻輸入。PDF頁面被渲染為圖像並通過視覺路徑進行處理。訓練使用對比損失函數,並結合跨模態硬負樣本,將視覺和音頻表示與現有的文本嵌入空間對齊。
性能
純文本性能與jina-embeddings-v5-text-small完全相同——多模態訓練期間,文本骨幹網和LoRA適配器均未做任何改動。在跨模態檢索方面,該模型在文本-圖像、文本-音頻和文本-視頻任務中均表現出良好的一致性。PDF頁面檢索則通過視覺路徑完成。對於服務器部署而言,omni-small模型在Jina多模態向量模型中實現了最佳的準確率-效率平衡。
最佳實踐
與 v5-text-small 相同的四個 LoRA 適配器:檢索、文本匹配、聚類和分類。對於通過 API 傳入的多模態輸入,可以直接傳遞圖像 URL、音頻文件 URL、視頻文件 URL 或 PDF URL——模型會將每種模態的數據路由到相應的編碼器。支持的音頻格式包括 WAV、MP3、FLAC、OGG、M4A 和 Opus。視頻輸入以 32 幀均勻採樣的方式進行處理。可以在單個批次中自由混合不同的模態:嵌入空間在所有模態之間共享。使用餘弦相似度進行比較。支持從 1024 維到 32 維的 Matryoshka 截斷。純文本嵌入與 jina-embeddings-v5-text-small 完全兼容——升級時無需重新索引。
提及此模型的博客



