jina-embeddings-v5-omni-nano

向量模型

CC BY-NC 4.0

發行説明

jina-embeddings-v5-omni-nano

適用於邊緣部署的緊湊型多模態向量

許可證

CC-BY-NC-4.0

發佈日期

2026-05-07

輸入

文本

圖片

聲音

視頻

PDF

輸出

向量

支持的俄羅斯套娃維度

128

256

512

768

遲分技術

模型詳細信息

參數: 1.0B

輸入詞元長度: 8K

輸出維度: 768

底座模型

jina-embeddings-v5-text-nano

訓練過的語言

32 語言

支持的語言

108 語言

量化版本

GGUF

蘋果芯片優化

MLX

相關模型

jina-embeddings-v5-omni-small

jina-embeddings-v5-text-nano

jina-embeddings-v3

jina-clip-v2

支持的任務

檢索

文本匹配

聚類

分類

標籤

multimodal-embedding

embeddings

multilingual

long-context

production

matryoshka

last-token-pooling

visual-document-retrieval

可通過以下方式獲取

Elastic Inference Service Jina API 抱抱臉

I/O 圖 1

I/O 圖 2

I/O 圖 3

I/O 圖 4

選擇要比較的模型

jina-embeddings-v5-omni-nano

jina-embeddings-v5-omni-small

jina-embeddings-v5-text-nano

jina-embeddings-v3

jina-clip-v2

論文 (1)

arXiv

五月 11, 2026

jina-embeddings-v5-omni: Text-Geometry-Preserving Multimodal Embeddings via Frozen-Tower Composition

概述

jina-embeddings-v5-omni-nano（約10.4億參數）是v5-omni系列的精簡版，專為邊緣計算和通用硬件設計。它在jina-embeddings-v5-text-nano的基礎上擴展了多模態功能：在共享的向量空間中支持文本、圖像、視頻和音頻輸入。純文本輸出與jina-embeddings-v5-text-nano在位上完全相同。該模型生成768維嵌入，並可通過Matryoshka截斷法將其降至32維，同時支持8K標記上下文長度。

方法

第三階段訓練與 omni-small 相同，並擴展了 jina-embeddings-v5-text-nano。EuroBERT-210M 文本骨幹網和 LoRA 適配器已凍結。跨模態投影器將 SigLIP2 Base 視覺編碼器和 Whisper-large-v3 音頻編碼器連接到文本骨幹網。訓練數據和目標與 omni-small 相同。

性能

純文本性能與jina-embeddings-v5-text-nano完全相同。由於嵌入空間較窄（768維 vs 1024維）且文本骨幹較小，多模態性能略低於omni-small，但仍保持了良好的跨模態對齊。針對CPU和邊緣硬件進行了優化，因為較大的omni-small模型無法在這些硬件上運行。

最佳實踐

使用模式與 omni-small 相同，LoRA 適配器選擇和多模態輸入處理也完全一致。主要區別在於：768 維輸出空間（Matryoshka 截斷至 32 維）和 8K 上下文窗口。nano 版本可在普通硬件上運行，無需 GPU 加速。純文本嵌入與 jina-embeddings-v5-text-nano 完全兼容。

提及此模型的博客

五月 12, 2026 • 7 分鐘的讀取量

jina-embeddings-v5-omni：支援文字、圖片、音訊與影片的向量模型

單一模型，四種模態：文字、圖像、音訊、影片。同級最佳的 1.6B 與 0.9B 全能型向量模型。