可通过以下方式获取
I/O 图 1
I/O 图 2
I/O 图 3
I/O 图 4
选择要比较的模型
论文 (1)
概述
jina-embeddings-v5-omni-small(约17.4亿参数)是一个多模态向量模型,它接受文本、图像、视频和音频数据,并在与 jina-embeddings-v5-text-small 对齐的共享向量空间中生成嵌入。您可以先用文本建立索引,然后用任意模态进行查询,反之亦然,无需重新索引。在多模态训练期间,文本骨干网络和所有四个特定任务的 LoRA 适配器(检索、文本匹配、聚类、分类)均被冻结,因此纯文本输出与 jina-embeddings-v5-text-small 完全相同。该模型生成 1024 维嵌入,并使用 Matryoshka 截断法将其降至 32 维,同时支持 32K 个 token 的上下文长度。
方法
第三阶段训练扩展了jina-embeddings-v5-text-small模型。文本骨干网络和所有四个特定任务的LoRA适配器均已冻结;仅跨模态投影器进行了全新训练。SigLIP2 So400m视觉编码器处理图像和视频(32帧均匀采样)。Whisper-large-v3音频编码器处理音频输入。PDF页面被渲染为图像并通过视觉路径进行处理。训练使用对比损失函数,并结合跨模态硬负样本,将视觉和音频表示与现有的文本嵌入空间对齐。
性能
纯文本性能与jina-embeddings-v5-text-small完全相同——多模态训练期间,文本骨干网和LoRA适配器均未做任何改动。在跨模态检索方面,该模型在文本-图像、文本-音频和文本-视频任务中均表现出良好的一致性。PDF页面检索则通过视觉路径完成。对于服务器部署而言,omni-small模型在Jina多模态向量模型中实现了最佳的准确率-效率平衡。
最佳实践
与 v5-text-small 相同的四个 LoRA 适配器:检索、文本匹配、聚类和分类。对于通过 API 传入的多模态输入,可以直接传递图像 URL、音频文件 URL、视频文件 URL 或 PDF URL——模型会将每种模态的数据路由到相应的编码器。支持的音频格式包括 WAV、MP3、FLAC、OGG、M4A 和 Opus。视频输入以 32 帧均匀采样的方式进行处理。可以在单个批次中自由混合不同的模态:嵌入空间在所有模态之间共享。使用余弦相似度进行比较。支持从 1024 维到 32 维的 Matryoshka 截断。纯文本嵌入与 jina-embeddings-v5-text-small 完全兼容——升级时无需重新索引。
提及此模型的博客



