新闻
模型
产品
keyboard_arrow_down
读取器
读取URL或搜索为大模型提供更好的依据。
向量模型
世界一流的多模态多语言向量模型。
重排器
世界一流的重排器,最大限度地提高搜索相关性。
深度搜索
搜索、读取并推理直到找到最佳答案。
更多的
keyboard_arrow_down
分类器
图片和文本的零样本和少样本分类。
切分器
将长文本切分成块或词元。

API 文档
为您的AI 编程助手 IDE 或大模型自动生成代码
open_in_new


公司
keyboard_arrow_down
关于我们
联系销售
实习生计划
加入我们
open_in_new
下载Logo
open_in_new
条款及条件


登录
login
copyright

jina-embeddings-v4

用于多模态和多语言检索的通用向量模型
发行说明arrow_forward
许可证
copyright
CC-BY-NC-4.0
发布日期
calendar_month
2025-06-24
输入
abc
文本
image
图片
picture_as_pdf
PDF
arrow_forward
输出
more_horiz
向量
apps
多向量
模型详细信息
参数: 3.8B
输入词元长度: 32K
输入图片大小: 768×28×28
输出维度: 2048
语言支持
🌍 多语言支持
相关模型
link
jina-embeddings-v3
link
jina-clip-v2
标签
multimodal-embedding
document retrieval
multilingual
multi-vector
long-context
production
matryoshka
可通过以下方式获取
Jina API商业许可证亚马逊云微软云谷歌云抱抱脸
I/O 图 1
I/O 图 2
I/O 图 3
I/O 图 4
选择要比较的模型
出版物 (1)
arXiv
六月 24, 2025
jina-embeddings-v4: Universal Embeddings for Multimodal Multilingual Retrieval

概述

Jina Embeddings V4 是一个拥有 38 亿参数的多模态向量模型,提供统一的文本和图像表示能力。该模型基于 Qwen2.5-VL-3B-Instruct 主干网络构建,其架构支持后期交互风格的单向量和多向量,从而突破了传统 CLIP 式双编码器模型的局限性。该模型集成了三个专门针对特定任务的 LoRA 适配器(每个适配器 60M 参数),可在不修改冻结的主干网络权重的情况下优化不同检索场景(包括非对称查询文档检索、语义文本相似度和代码搜索)的性能。该模型通过统一的处理路径,在处理表格、图表、示意图、屏幕截图和混合媒体格式等视觉丰富的内容方面表现出色,从而缩小了传统架构中存在的模态差距。该模型支持多语言功能,可以处理多达 32,768 个标记的输入文本,并将图像调整为 20 兆像素,使其适用于跨不同语言和领域的各种文档检索和跨模式搜索应用程序。

方法

Jina Embeddings V4 实现了统一的多模态语言模型架构,不同于 CLIP 风格的双编码器方法。该模型通过共享路径处理输入,首先通过视觉编码器将图像转换为 token 序列,然后通过带有上下文注意层的语言模型解码器将文本和图像模态一起处理。该架构支持两种输出模式,以适应不同的用例:单向量,通过 Matryoshka 表征学习生成可截断至 128 维的 2048 维向量,并通过均值池化生成以实现高效的相似性搜索;多向量,通过投影层输出每个 token 128 维,用于后期交互风格检索。该模型包含三个特定于任务的 LoRA 适配器,可提供专门的优化:检索适配器使用基于前缀的非对称编码和硬负样本训练来处理查询文档场景;文本匹配适配器使用 CoSENT 损失函数来处理语义相似性任务;代码适配器则专注于自然语言到代码的检索应用。训练分为两个阶段:初始配对训练使用来自 300 多个来源的文本-文本和文本-图像对的对比 InfoNCE 损失进行,然后使用基于三元组的方法和根据每个领域要求定制的专门损失函数对三个 LoRA 适配器进行特定任务的微调。

性能

Jina Embeddings V4 在多个基准测试类别中均取得了极具竞争力的性能。在视觉文档检索方面,它在 JinaVDR 基准测试中的平均得分为 72.19,而 ColPali-v1.2 为 64.50;在 ViDoRe 基准测试中的平均得分为 84.11,而 ColPali 为 83.90;多向量模式在 ViDoRe 上的得分高达 90.17。在跨模态检索方面,该模型在 CLIP 基准测试中的得分为 84.11,而 jina-clip-v2 为 81.12,nllb-clip-large-siglip 为 83.19。在文本检索任务中,它在 MTEB-en 上取得了 55.97 的成绩,在 MMTEB 上取得了 66.49 的成绩,在长文档处理方面表现出色,在 LongEmbed 上取得了 67.11 的成绩,而其前代产品仅为 55.66。该模型展现出扎实的语义文本相似度性能,在英语STS任务上得分为85.89,在多语言STS基准测试中得分为72.70。代码检索能力在CoIR基准测试中达到71.59,尽管像voyage-code-3(77.33)这样的专用模型在此领域取得了更高的分数。该模型的跨模态对齐性能有所提升,得分为0.71,而OpenAI CLIP仅为0.15,从而解决了多模态模型中的模态差距问题。在视觉丰富的任务上,多向量模式始终优于单向量模式,而单向量模式则在标准检索场景下提供了高效的性能。

最佳实践

为了有效利用 Jina Embeddings V4,请根据您的具体应用需求选择合适的 LoRA 适配器。对于查询和文档结构不同的非对称查询文档检索场景,请使用“检索”适配器,并确保使用适当的前缀来区分查询和段落内容。“文本匹配”适配器适用于语义相似性任务和对称检索,其目标是查找相似内容而非查询的答案,因此非常适合文档聚类、重复检测和内容推荐系统。对于编程相关的应用,“代码”适配器针对自然语言到代码检索、代码到代码相似性搜索以及技术问答场景进行了优化。根据您的性能和效率要求选择输出模式:单向量提供高效的相似性搜索,适用于存储受限的环境,其可截断维度允许在可接受的质量权衡下将维度从 2048 减少到 128-512;而多向量则为复杂的检索任务提供更高的精度,尤其是在处理视觉内容丰富的文档时,其中后期交互评分可以捕捉详细的关系。该模型的统一架构允许处理混合文本图像输入,而无需单独的编码器或视觉文档的 OCR 预处理。该模型的跨模态对齐功能和多语言支持使其非常适合国际应用。对于生产部署,在规划内存需求时请考虑每个 LoRA 适配器 60M 的参数开销,并注意所有三个适配器可以同时维护,额外内存占用不到 2%,从而可以在推理过程中灵活地切换任务。
提及此模型的博客
六月 30, 2025 • 8 分钟的读取量
jina-embeddings-v4 的量化感知训练
量化可以得到更小的向量模型 (Embeddings)。我们将向您展示经过微调的量化,甚至可以为您提供无损的向量模型 (Embeddings)。
Andrei Ungureanu
Scott Martens
Bo Wang
Retro-style digital screen displaying four pixelated images: a cat, a woman, an abstract figure, and a man's portrait, with l
七月 14, 2025 • 11 分钟的读取量
用于文本选择、段落重排和上下文工程的子模优化
当其他人还在依赖提示词调整并祈祷好运时,你应该学习子模优化,它提供了一个有原则的框架,并具有理论保证,从而实现更好的上下文工程。
Han Xiao
Network illustration of interconnected hexagons, some solid and some hollow blue, connected by red lines indicating paths or
六月 25, 2025 • 12 分钟的读取量
Jina 向量模型 (Embeddings) v4:用于多模态多语言检索的通用向量模型 (Embeddings)
Jina 向量模型 (Embeddings) v4 是一个拥有 38 亿参数的通用向量模型 (embedding model),用于多模态和多语言检索,支持单向量和多向量向量模型 (embedding) 输出。
Jina AI
Word "Embeddings" followed by a numeric or symbol representation, displayed in multiple colors on a technology-themed, colorf
三月 07, 2025 • 14 分钟的读取量
长文本嵌入模型在 4K Token 之外就失效了
我们针对新的"大海捞针"类任务研究了嵌入模型,发现在超过 4K token 长度后,它们的表现就像在掷骰子一样随机——即使是完全的词法匹配或查询扩展,它们也无法在长文本上分辨出信号和噪声。
Saahil Ognawala
Alex C-G
Vertical repetition of the word 'HAYSTACK' with a solitary 'NEEDLE' on a yellowish background.
一月 22, 2025 • 10 分钟的读取量
从 ModernBERT 中我们应该学到什么?
更大的训练数据、高效的参数配置以及深而窄的架构,ModernBERT 为未来类 BERT 模型指明了方向。
Nan Wang
Alex C-G
Futuristic illustration with a central white circle surrounded by white dots on a dotted background.
办公室
location_on
加利福尼亚州桑尼维尔
710 Lakeway Dr, Ste 200, 桑尼维尔, CA 94085, 美国
location_on
德国柏林(总部)
Prinzessinnenstraße 19-20,10969 柏林,德国
location_on
中国北京
中国北京市海淀区西大街48号6号楼5层
location_on
中国深圳
中国深圳市赋安科技大厦4楼402
搜索底座
读取器
向量模型
重排器
深度搜索
分类器
切分器
API 文档
获取 Jina API 密钥
速率限制
API 状态
公司
关于我们
联系销售
新闻
实习生计划
加入我们
open_in_new
下载Logo
open_in_new
条款
安全
条款及条件
隐私
管理 Cookie
email
Jina AI © 2020-2025.