jina-embeddings-v5-omni-small

向量模型

CC BY-NC 4.0

发行说明

jina-embeddings-v5-omni-small

用于文本、图像、音频、视频和 PDF 的多模态向量

许可证

CC-BY-NC-4.0

发布日期

2026-05-07

输入

文本

图片

声音

视频

PDF

输出

向量

支持的俄罗斯套娃维度

128

256

512

768

1024

迟分技术

模型详细信息

参数: 1.7B

输入词元长度: 32K

输出维度: 1024

底座模型

jina-embeddings-v5-text-small

训练过的语言

32 语言

支持的语言

93 语言

量化版本

GGUF

苹果芯片优化

MLX

概述

jina-embeddings-v5-omni-small（约17.4亿参数）是一个多模态向量模型，它接受文本、图像、视频和音频数据，并在与 jina-embeddings-v5-text-small 对齐的共享向量空间中生成嵌入。您可以先用文本建立索引，然后用任意模态进行查询，反之亦然，无需重新索引。在多模态训练期间，文本骨干网络和所有四个特定任务的 LoRA 适配器（检索、文本匹配、聚类、分类）均被冻结，因此纯文本输出与 jina-embeddings-v5-text-small 完全相同。该模型生成 1024 维嵌入，并使用 Matryoshka 截断法将其降至 32 维，同时支持 32K 个 token 的上下文长度。

方法

第三阶段训练扩展了jina-embeddings-v5-text-small模型。文本骨干网络和所有四个特定任务的LoRA适配器均已冻结；仅跨模态投影器进行了全新训练。SigLIP2 So400m视觉编码器处理图像和视频（32帧均匀采样）。Whisper-large-v3音频编码器处理音频输入。PDF页面被渲染为图像并通过视觉路径进行处理。训练使用对比损失函数，并结合跨模态硬负样本，将视觉和音频表示与现有的文本嵌入空间对齐。

性能

纯文本性能与jina-embeddings-v5-text-small完全相同——多模态训练期间，文本骨干网和LoRA适配器均未做任何改动。在跨模态检索方面，该模型在文本-图像、文本-音频和文本-视频任务中均表现出良好的一致性。PDF页面检索则通过视觉路径完成。对于服务器部署而言，omni-small模型在Jina多模态向量模型中实现了最佳的准确率-效率平衡。

最佳实践

与 v5-text-small 相同的四个 LoRA 适配器：检索、文本匹配、聚类和分类。对于通过 API 传入的多模态输入，可以直接传递图像 URL、音频文件 URL、视频文件 URL 或 PDF URL——模型会将每种模态的数据路由到相应的编码器。支持的音频格式包括 WAV、MP3、FLAC、OGG、M4A 和 Opus。视频输入以 32 帧均匀采样的方式进行处理。可以在单个批次中自由混合不同的模态：嵌入空间在所有模态之间共享。使用余弦相似度进行比较。支持从 1024 维到 32 维的 Matryoshka 截断。纯文本嵌入与 jina-embeddings-v5-text-small 完全兼容——升级时无需重新索引。

提及此模型的博客

五月 12, 2026 • 7 分钟的读取量

jina-embeddings-v5-omni：支持文本、图像、音频和视频的向量模型

一个模型，四种模态：文本、图像、音频、视频。业界领先的 1.6B 和 0.9B 全能型向量模型。