jina-vlm

用于视觉问答的多语言视觉语言模型

许可证

CC-BY-NC-4.0

发布日期

2025-12-04

输入

图片

文本

输出

文本

模型详细信息

参数: 2.4B

输入词元长度: 32K

输入图片大小: 4096×4096

底座模型

Qwen3-1.7B-Base

训练过的语言

39 语言

支持的语言

93 语言

苹果芯片优化

MLX

概述

jina-vlm 是一个 24 亿参数的视觉语言模型，在目前已发布的 20 亿级视觉语言模型中，其多语言视觉问答性能处于领先水平。该模型将 SigLIP2-So400M 视觉编码器（4.49 亿参数）与 Qwen3-17 亿语言骨干网络相结合，并通过注意力池连接器将视觉标记数量减少 4 倍，同时保留空间信息。它采用 12 个图块叠加的图像拼接方式，并添加一个全局缩略图，能够处理分辨率高达 4K 的任意图像。训练数据包含约 500 万个多模态样本和 120 亿个文本标记，涵盖 29 种语言，其中约一半为英语，其余涵盖包括中文、阿拉伯语、德语、西班牙语、法语、意大利语、日语、韩语等在内的多种高资源和中等资源语言。

方法

训练分两个阶段进行，所有模型组件（编码器、连接器、解码器）均在不冻结的情况下进行更新。第一阶段（对齐训练）侧重于使用涵盖自然场景、文档、信息图表和示意图的图像描述数据集（PixmoCap、PangeaIns）进行跨语言语义基础训练，其中包含 15% 的纯文本数据，以减轻纯文本任务的性能下降。连接器的学习率高于编码器和解码器，预热时间也更短。第二阶段（指令调优）使用多语言指令-响应数据集（Aya、ShareGPT4V、LLaVA）使模型适应对话式视觉问答（VQA）任务。注意力池化连接器应用 2×2 池化，将每个图块的 729 个视觉标记减少到 182 个标记，在性能损失极小的情况下实现了 4 倍的标记减少。重叠约 30%（112 像素，步长 266）的 378×378 图块能够保留边缘信息。

性能

在八项 VQA 基准测试中，该模型在 20 亿级 VLM 中取得了最高的平均分 (72.3)，其中包括 MathVista (59.4)、AI2D (80.8)、ChartQA (79.5)、DocVQA (90.6)、InfoVQA (65.9)、RealWorldQA (64.9)、OCRBench (778) 和 MME (1582)。在多语言多模态理解方面，该模型在 MMMB (78.8) 和 Multilingual MMBench (74.3) 测试中表现领先，涵盖阿拉伯语、中文、英语、葡萄牙语、俄语和土耳其语。在 OCRBench (0-1000 分制) 测试中，该模型的 OCR 性能也十分出色，得分为 778 分。在 MMLU (54.7) 和 HellaSwag (75.6) 测试中，该模型的纯文本性能也具有竞争力，但由于视觉语言的集成，其在 MMLU-Pro 测试中出现了预期的性能下降（30.3 分，基准值为 46.4 分）。注意力池化带来的 4 倍标记减少，使得 LLM 预填充 FLOPs 减少 3.9 倍，KV 缓存内存减少 4 倍，而对基准测试分数的影响却微乎其微。

最佳实践

该模型以 CC-BY-NC-4.0 许可发布在 Hugging Face 网站上，包含权重和推理代码。它支持通过自动分块处理任意分辨率的图像（最多 12 个图块加一个缩略图）。启用“思考模式”可处理复杂的推理任务，方法是启用 `do_sample=True` 并设置 `temperature > 0`。该模型可处理 32K 的上下文长度，以应对扩展对话。对于多语言视觉问答，该模型支持 29 种语言，包括英语、中文、阿拉伯语、德语、西班牙语、法语、意大利语、日语、韩语、葡萄牙语、俄语、土耳其语、越南语、泰语、印尼语、印地语和孟加拉语。该模型最适合用于文档理解、图表/示意图分析、OCR 任务和多语言视觉问答。由于采用分块处理方式，该模型在计数任务和细粒度空间推理方面存在局限性。为了获得最佳推理效果，建议在支持 CUDA 的 GPU 上使用 `bfloat16` 精度。

提及此模型的博客

十二月 04, 2025 • 7 分钟的读取量

Jina-VLM：小型多语言视觉语言模型

全新 2B 视觉语言模型在多语言 VQA 上实现 SOTA，在纯文本任务上没有灾难性遗忘。