新闻
模型
API
keyboard_arrow_down
读取器
读取URL或搜索为大模型提供更好的依据。
向量模型
世界一流的多模态多语言向量模型。
重排器
世界一流的重排器,最大限度地提高搜索相关性。
弹性推理服务
在 Elasticsearch 中原生运行 Jina 模型。
MCP terminal命令行articlellms.txtsmart_toy代理人data_object模式menu_book文档



登录
login
读取器
copyright CC BY-NC 4.0
open_in_new 发行说明

jina-vlm

用于视觉问答的多语言视觉语言模型
许可证
copyright CC-BY-NC-4.0
发布日期
calendar_month
2025-12-04
输入
image
图片
abc
文本
arrow_forward
输出
abc
文本
模型详细信息
参数: 2.4B
输入词元长度: 32K
输入图片大小: 4096×4096
底座模型 help_outline
open_in_new
Qwen3-1.7B-Base
训练过的语言 help_outline
39 语言
支持的语言 help_outline
93 语言
苹果芯片优化 help_outline
MLX
相关模型
link
jina-embeddings-v4
link
jina-reranker-m0
标签
reader
vlm
multilingual
vision-language
image-to-text
document-processing
ocr
可通过以下方式获取
Jina API抱抱脸
I/O 图 1

图像

jina-vlm

文本

文本

I/O 图 2

文本

jina-vlm

文本

选择要比较的模型
论文 (1)
ICLR 2026
十二月 04, 2025
Jina-VLM: Small Multilingual Vision Language Model

概述

jina-vlm 是一个 24 亿参数的视觉语言模型,在目前已发布的 20 亿级视觉语言模型中,其多语言视觉问答性能处于领先水平。该模型将 SigLIP2-So400M 视觉编码器(4.49 亿参数)与 Qwen3-17 亿语言骨干网络相结合,并通过注意力池连接器将视觉标记数量减少 4 倍,同时保留空间信息。它采用 12 个图块叠加的图像拼接方式,并添加一个全局缩略图,能够处理分辨率高达 4K 的任意图像。训练数据包含约 500 万个多模态样本和 120 亿个文本标记,涵盖 29 种语言,其中约一半为英语,其余涵盖包括中文、阿拉伯语、德语、西班牙语、法语、意大利语、日语、韩语等在内的多种高资源和中等资源语言。

方法

训练分两个阶段进行,所有模型组件(编码器、连接器、解码器)均在不冻结的情况下进行更新。第一阶段(对齐训练)侧重于使用涵盖自然场景、文档、信息图表和示意图的图像描述数据集(PixmoCap、PangeaIns)进行跨语言语义基础训练,其中包含 15% 的纯文本数据,以减轻纯文本任务的性能下降。连接器的学习率高于编码器和解码器,预热时间也更短。第二阶段(指令调优)使用多语言指令-响应数据集(Aya、ShareGPT4V、LLaVA)使模型适应对话式视觉问答(VQA)任务。注意力池化连接器应用 2×2 池化,将每个图块的 729 个视觉标记减少到 182 个标记,在性能损失极小的情况下实现了 4 倍的标记减少。重叠约 30%(112 像素,步长 266)的 378×378 图块能够保留边缘信息。

性能

在八项 VQA 基准测试中,该模型在 20 亿级 VLM 中取得了最高的平均分 (72.3),其中包括 MathVista (59.4)、AI2D (80.8)、ChartQA (79.5)、DocVQA (90.6)、InfoVQA (65.9)、RealWorldQA (64.9)、OCRBench (778) 和 MME (1582)。在多语言多模态理解方面,该模型在 MMMB (78.8) 和 Multilingual MMBench (74.3) 测试中表现领先,涵盖阿拉伯语、中文、英语、葡萄牙语、俄语和土耳其语。在 OCRBench (0-1000 分制) 测试中,该模型的 OCR 性能也十分出色,得分为 778 分。在 MMLU (54.7) 和 HellaSwag (75.6) 测试中,该模型的纯文本性能也具有竞争力,但由于视觉语言的集成,其在 MMLU-Pro 测试中出现了预期的性能下降(30.3 分,基准值为 46.4 分)。注意力池化带来的 4 倍标记减少,使得 LLM 预填充 FLOPs 减少 3.9 倍,KV 缓存内存减少 4 倍,而对基准测试分数的影响却微乎其微。

最佳实践

该模型以 CC-BY-NC-4.0 许可发布在 Hugging Face 网站上,包含权重和推理代码。它支持通过自动分块处理任意分辨率的图像(最多 12 个图块加一个缩略图)。启用“思考模式”可处理复杂的推理任务,方法是启用 `do_sample=True` 并设置 `temperature > 0`。该模型可处理 32K 的上下文长度,以应对扩展对话。对于多语言视觉问答,该模型支持 29 种语言,包括英语、中文、阿拉伯语、德语、西班牙语、法语、意大利语、日语、韩语、葡萄牙语、俄语、土耳其语、越南语、泰语、印尼语、印地语和孟加拉语。该模型最适合用于文档理解、图表/示意图分析、OCR 任务和多语言视觉问答。由于采用分块处理方式,该模型在计数任务和细粒度空间推理方面存在局限性。为了获得最佳推理效果,建议在支持 CUDA 的 GPU 上使用 `bfloat16` 精度。
提及此模型的博客
十二月 04, 2025 • 7 分钟的读取量
Jina-VLM:小型多语言视觉语言模型
全新 2B 视觉语言模型在多语言 VQA 上实现 SOTA,在纯文本任务上没有灾难性遗忘。
Jina AI
Artistic representation of "Vln" in vibrant, rainbow-like colors on a minimalistic white background, with a focus on color di
办公室
location_on
加利福尼亚州桑尼维尔
710 Lakeway Dr, Ste 200, 桑尼维尔, 加州 94085, 美国
location_on
德国柏林
Prinzessinnenstraße 19-20,10969 柏林,德国
搜索底座
读取器
向量模型
重排器
弹性推理服务
open_in_new
获取 Jina API 密钥
速率限制
API 状态
公司
关于我们
联系销售
新闻
实习生项目
下载 Jina 标志
open_in_new
下载 Elastic 徽标
open_in_new
条款
安全
条款及条件
隐私
管理 Cookie
email
Elastic Jina AI © 2020-2026.