新闻
模型
API
keyboard_arrow_down
读取器
读取URL或搜索为大模型提供更好的依据。
向量模型
世界一流的多模态多语言向量模型。
重排器
世界一流的重排器,最大限度地提高搜索相关性。
Elastic Inference Service
在 Elasticsearch 中原生运行 Jina 模型。
MCP terminal命令行articlellms.txtsmart_toy代理人data_object模式menu_book文档



登录
login
向量模型
copyright CC BY-NC 4.0
open_in_new 发行说明

jina-embeddings-v5-omni-small

用于文本、图像、音频、视频和 PDF 的多模态向量
许可证
copyright CC-BY-NC-4.0
发布日期
calendar_month
2026-05-07
输入
abc
文本
image
图片
audiotrack
声音
videocam
视频
picture_as_pdf
PDF
arrow_forward
输出
more_horiz
向量
支持的俄罗斯套娃维度 help_outline
32
64
128
256
512
768
1024
迟分技术 help_outline
cancel
No
模型详细信息
参数: 1.7B
输入词元长度: 32K
输出维度: 1024
底座模型 help_outline
open_in_new
jina-embeddings-v5-text-small
训练过的语言 help_outline
32 语言
支持的语言 help_outline
93 语言
量化版本 help_outline
GGUF
苹果芯片优化 help_outline
MLX
相关模型
link
jina-embeddings-v5-omni-nano
link
jina-embeddings-v5-text-small
link
jina-embeddings-v3
link
jina-clip-v2
支持的任务
search 检索
compare_arrows 文本匹配
bubble_chart 聚类
label 分类
标签
multimodal-embedding
embeddings
multilingual
long-context
production
matryoshka
last-token-pooling
visual-document-retrieval
可通过以下方式获取
Elastic Inference ServiceJina API抱抱脸
I/O 图 1

文本

jina-embeddings-v5-omni-small

图像

任务

向量

I/O 图 2

文本

jina-embeddings-v5-omni-small

声音的

任务

向量

I/O 图 3

文本

jina-embeddings-v5-omni-small

视频

任务

向量

I/O 图 4

多个

向量

文本

jina-embeddings-v5-omni-small

PDF

任务

选择要比较的模型
论文 (1)
arXiv
五月 11, 2026
jina-embeddings-v5-omni: Text-Geometry-Preserving Multimodal Embeddings via Frozen-Tower Composition

概述

jina-embeddings-v5-omni-small(约17.4亿参数)是一个多模态向量模型,它接受文本、图像、视频和音频数据,并在与 jina-embeddings-v5-text-small 对齐的共享向量空间中生成嵌入。您可以先用文本建立索引,然后用任意模态进行查询,反之亦然,无需重新索引。在多模态训练期间,文本骨干网络和所有四个特定任务的 LoRA 适配器(检索、文本匹配、聚类、分类)均被冻结,因此纯文本输出与 jina-embeddings-v5-text-small 完全相同。该模型生成 1024 维嵌入,并使用 Matryoshka 截断法将其降至 32 维,同时支持 32K 个 token 的上下文长度。

方法

第三阶段训练扩展了jina-embeddings-v5-text-small模型。文本骨干网络和所有四个特定任务的LoRA适配器均已冻结;仅跨模态投影器进行了全新训练。SigLIP2 So400m视觉编码器处理图像和视频(32帧均匀采样)。Whisper-large-v3音频编码器处理音频输入。PDF页面被渲染为图像并通过视觉路径进行处理。训练使用对比损失函数,并结合跨模态硬负样本,将视觉和音频表示与现有的文本嵌入空间对齐。

性能

纯文本性能与jina-embeddings-v5-text-small完全相同——多模态训练期间,文本骨干网和LoRA适配器均未做任何改动。在跨模态检索方面,该模型在文本-图像、文本-音频和文本-视频任务中均表现出良好的一致性。PDF页面检索则通过视觉路径完成。对于服务器部署而言,omni-small模型在Jina多模态向量模型中实现了最佳的准确率-效率平衡。

最佳实践

与 v5-text-small 相同的四​​个 LoRA 适配器:检索、文本匹配、聚类和分类。对于通过 API 传入的多模态输入,可以直接传递图像 URL、音频文件 URL、视频文件 URL 或 PDF URL——模型会将每种模态的数据路由到相应的编码器。支持的音频格式包括 WAV、MP3、FLAC、OGG、M4A 和 Opus。视频输入以 32 帧均匀采样的方式进行处理。可以在单个批次中自由混合不同的模态:嵌入空间在所有模态之间共享。使用余弦相似度进行比较。支持从 1024 维到 32 维的 Matryoshka 截断。纯文本嵌入与 jina-embeddings-v5-text-small 完全兼容——升级时无需重新索引。
提及此模型的博客
五月 12, 2026 • 7 分钟的读取量
jina-embeddings-v5-omni:支持文本、图像、音频和视频的向量模型
一个模型,四种模态:文本、图像、音频、视频。业界领先的 1.6B 和 0.9B 全能型向量模型。
Han Xiao
搜索底座
读取器
向量模型
重排器
Elastic Inference Service
open_in_new
获取 Jina API 密钥
速率限制
API 状态
公司
关于我们
新闻
下载 Jina 标志
open_in_new
下载 Elastic 徽标
open_in_new
条款
安全
条款及条件
隐私
管理 Cookie
Elastic © 2020-2026.