新闻
模型
API
keyboard_arrow_down
读取器
读取URL或搜索为大模型提供更好的依据。
向量模型
世界一流的多模态多语言向量模型。
重排器
世界一流的重排器,最大限度地提高搜索相关性。
弹性推理服务
在 Elasticsearch 中原生运行 Jina 模型。
MCP terminal命令行articlellms.txtsmart_toy代理人data_object模式menu_book文档



登录
login
向量模型
Qwen 研究许可证
open_in_new 发行说明

jina-embeddings-v4

用于多模态和多语言检索的通用向量模型
许可证
Qwen Research License
发布日期
calendar_month
2025-06-24
输入
abc
文本
image
图片
picture_as_pdf
PDF
arrow_forward
输出
more_horiz
向量
apps
多向量
支持的俄罗斯套娃维度 help_outline
128
256
512
1024
2048
迟分技术 help_outline
check_circle
Yes
模型详细信息
参数: 3.8B
输入词元长度: 32K
输入图片大小: 768×28×28
输出维度: 2048
底座模型 help_outline
open_in_new
Qwen2.5-VL-3B-Instruct
训练过的语言 help_outline
34 语言
支持的语言 help_outline
29 语言
量化版本 help_outline
GGUF
相关模型
link
jina-embeddings-v3
link
jina-clip-v2
支持的任务
search 检索
compare_arrows 文本匹配
code 代码
标签
multimodal-embedding
document retrieval
multilingual
multi-vector
long-context
production
matryoshka
可通过以下方式获取
Jina API抱抱脸
I/O 图 1

文本

jina-embeddings-v4

任务

向量

I/O 图 2

图像

jina-embeddings-v4

任务

向量

I/O 图 3

多个

向量

文本

jina-embeddings-v4

任务

I/O 图 4

多个

向量

图像

jina-embeddings-v4

任务

选择要比较的模型
论文 (1)
EMNLP 2025
六月 24, 2025
jina-embeddings-v4: Universal Embeddings for Multimodal Multilingual Retrieval

概述

Jina Embeddings V4 是一个拥有 38 亿参数的多模态向量模型,提供统一的文本和图像表示能力。该模型基于 Qwen2.5-VL-3B-Instruct 主干网络构建,其架构支持后期交互风格的单向量和多向量,从而突破了传统 CLIP 式双编码器模型的局限性。该模型集成了三个专门针对特定任务的 LoRA 适配器(每个适配器 60M 参数),可在不修改冻结的主干网络权重的情况下优化不同检索场景(包括非对称查询文档检索、语义文本相似度和代码搜索)的性能。该模型通过统一的处理路径,在处理表格、图表、示意图、屏幕截图和混合媒体格式等视觉丰富的内容方面表现出色,从而缩小了传统架构中存在的模态差距。该模型支持多语言功能,可以处理多达 32,768 个标记的输入文本,并将图像调整为 20 兆像素,使其适用于跨不同语言和领域的各种文档检索和跨模式搜索应用程序。

方法

Jina Embeddings V4 实现了统一的多模态语言模型架构,不同于 CLIP 风格的双编码器方法。该模型通过共享路径处理输入,首先通过视觉编码器将图像转换为 token 序列,然后通过带有上下文注意层的语言模型解码器将文本和图像模态一起处理。该架构支持两种输出模式,以适应不同的用例:单向量,通过 Matryoshka 表征学习生成可截断至 128 维的 2048 维向量,并通过均值池化生成以实现高效的相似性搜索;多向量,通过投影层输出每个 token 128 维,用于后期交互风格检索。该模型包含三个特定于任务的 LoRA 适配器,可提供专门的优化:检索适配器使用基于前缀的非对称编码和硬负样本训练来处理查询文档场景;文本匹配适配器使用 CoSENT 损失函数来处理语义相似性任务;代码适配器则专注于自然语言到代码的检索应用。训练分为两个阶段:初始配对训练使用来自 300 多个来源的文本-文本和文本-图像对的对比 InfoNCE 损失进行,然后使用基于三元组的方法和根据每个领域要求定制的专门损失函数对三个 LoRA 适配器进行特定任务的微调。

性能

Jina Embeddings V4 在多个基准测试类别中均取得了极具竞争力的性能。在视觉文档检索方面,它在 JinaVDR 基准测试中的平均得分为 72.19,而 ColPali-v1.2 为 64.50;在 ViDoRe 基准测试中的平均得分为 84.11,而 ColPali 为 83.90;多向量模式在 ViDoRe 上的得分高达 90.17。在跨模态检索方面,该模型在 CLIP 基准测试中的得分为 84.11,而 jina-clip-v2 为 81.12,nllb-clip-large-siglip 为 83.19。在文本检索任务中,它在 MTEB-en 上取得了 55.97 的成绩,在 MMTEB 上取得了 66.49 的成绩,在长文档处理方面表现出色,在 LongEmbed 上取得了 67.11 的成绩,而其前代产品仅为 55.66。该模型展现出扎实的语义文本相似度性能,在英语STS任务上得分为85.89,在多语言STS基准测试中得分为72.70。代码检索能力在CoIR基准测试中达到71.59,尽管像voyage-code-3(77.33)这样的专用模型在此领域取得了更高的分数。该模型的跨模态对齐性能有所提升,得分为0.71,而OpenAI CLIP仅为0.15,从而解决了多模态模型中的模态差距问题。在视觉丰富的任务上,多向量模式始终优于单向量模式,而单向量模式则在标准检索场景下提供了高效的性能。

最佳实践

为了有效利用 Jina Embeddings V4,请根据您的具体应用需求选择合适的 LoRA 适配器。对于查询和文档结构不同的非对称查询文档检索场景,请使用“检索”适配器,并确保使用适当的前缀来区分查询和段落内容。“文本匹配”适配器适用于语义相似性任务和对称检索,其目标是查找相似内容而非查询的答案,因此非常适合文档聚类、重复检测和内容推荐系统。对于编程相关的应用,“代码”适配器针对自然语言到代码检索、代码到代码相似性搜索以及技术问答场景进行了优化。根据您的性能和效率要求选择输出模式:单向量提供高效的相似性搜索,适用于存储受限的环境,其可截断维度允许在可接受的质量权衡下将维度从 2048 减少到 128-512;而多向量则为复杂的检索任务提供更高的精度,尤其是在处理视觉内容丰富的文档时,其中后期交互评分可以捕捉详细的关系。该模型的统一架构允许处理混合文本图像输入,而无需单独的编码器或视觉文档的 OCR 预处理。该模型的跨模态对齐功能和多语言支持使其非常适合国际应用。对于生产部署,在规划内存需求时请考虑每个 LoRA 适配器 60M 的参数开销,并注意所有三个适配器可以同时维护,额外内存占用不到 2%,从而可以在推理过程中灵活地切换任务。
提及此模型的博客
六月 30, 2025 • 8 分钟的读取量
jina-embeddings-v4 的量化感知训练
量化可以得到更小的向量模型 (Embeddings)。我们将向您展示经过微调的量化,甚至可以为您提供无损的向量模型 (Embeddings)。
Andrei Ungureanu
Scott Martens
Bo Wang
Retro-style digital screen displaying four pixelated images: a cat, a woman, an abstract figure, and a man's portrait, with l
三月 11, 2026 • 7 分钟的读取量
从多模态大模型中引导音频向量模型
将任何多模态大模型转化为小型音频向量模型,仅需 1/25 的数据量即可超越 CLAP。
Han Xiao
Abstract illustration of a sound wave or heartbeat, formed by blue, orange, and gray dots on a white background.
二月 19, 2026 • 7 分钟的读取量
jina-embeddings-v5-text: New SOTA Small Multilingual Embeddings
Two sub-1B multilingual embeddings with best-in-class performance, available on Elastic Inference Service, Llama.cpp and MLX.
Han Xiao
Abstract digital artwork in black and white, featuring scattered dots forming letters in a halftone effect. The central lette
九月 30, 2025 • 8 分钟的读取量
向量模型是 AI 界的灰姑娘
向量模型可能不是人工智能行业中最吸引人的部分,但如果没有它们,图像生成器和聊天机器人就不可能存在。
Scott Martens
Humorous office cartoon depicting a team gathered around robots; signs labeled "embeddings", "tools", "reasoning", and "lol"
九月 09, 2025 • 11 分钟的读取量
Llama.cpp 和 GGUF 中的多模态向量模型
我们为 llama.cpp 和 GGUF 引入了多模态 向量模型,并在过程中发现了一些令人惊讶的问题。
Andrei Ungureanu
Alex C-G
Cartoon llama in the center of a white background, emitting laser-like beams from its eyes. The illustration creates a playfu
办公室
location_on
加利福尼亚州桑尼维尔
710 Lakeway Dr, Ste 200, 桑尼维尔, 加州 94085, 美国
location_on
德国柏林
Prinzessinnenstraße 19-20,10969 柏林,德国
搜索底座
读取器
向量模型
重排器
弹性推理服务
获取 Jina API 密钥
速率限制
API 状态
公司
关于我们
联系销售
新闻
实习生项目
下载 Jina 标志
open_in_new
下载 Elastic 徽标
open_in_new
条款
安全
条款及条件
隐私
管理 Cookie
email
Elastic Jina AI © 2020-2026.