I/O 图 1
I/O 图 2
选择要比较的模型
论文 (1)
概述
jina-vlm 是一个 24 亿参数的视觉语言模型,在目前已发布的 20 亿级视觉语言模型中,其多语言视觉问答性能处于领先水平。该模型将 SigLIP2-So400M 视觉编码器(4.49 亿参数)与 Qwen3-17 亿语言骨干网络相结合,并通过注意力池连接器将视觉标记数量减少 4 倍,同时保留空间信息。它采用 12 个图块叠加的图像拼接方式,并添加一个全局缩略图,能够处理分辨率高达 4K 的任意图像。训练数据包含约 500 万个多模态样本和 120 亿个文本标记,涵盖 29 种语言,其中约一半为英语,其余涵盖包括中文、阿拉伯语、德语、西班牙语、法语、意大利语、日语、韩语等在内的多种高资源和中等资源语言。
方法
训练分两个阶段进行,所有模型组件(编码器、连接器、解码器)均在不冻结的情况下进行更新。第一阶段(对齐训练)侧重于使用涵盖自然场景、文档、信息图表和示意图的图像描述数据集(PixmoCap、PangeaIns)进行跨语言语义基础训练,其中包含 15% 的纯文本数据,以减轻纯文本任务的性能下降。连接器的学习率高于编码器和解码器,预热时间也更短。第二阶段(指令调优)使用多语言指令-响应数据集(Aya、ShareGPT4V、LLaVA)使模型适应对话式视觉问答(VQA)任务。注意力池化连接器应用 2×2 池化,将每个图块的 729 个视觉标记减少到 182 个标记,在性能损失极小的情况下实现了 4 倍的标记减少。重叠约 30%(112 像素,步长 266)的 378×378 图块能够保留边缘信息。
性能
在八项 VQA 基准测试中,该模型在 20 亿级 VLM 中取得了最高的平均分 (72.3),其中包括 MathVista (59.4)、AI2D (80.8)、ChartQA (79.5)、DocVQA (90.6)、InfoVQA (65.9)、RealWorldQA (64.9)、OCRBench (778) 和 MME (1582)。在多语言多模态理解方面,该模型在 MMMB (78.8) 和 Multilingual MMBench (74.3) 测试中表现领先,涵盖阿拉伯语、中文、英语、葡萄牙语、俄语和土耳其语。在 OCRBench (0-1000 分制) 测试中,该模型的 OCR 性能也十分出色,得分为 778 分。在 MMLU (54.7) 和 HellaSwag (75.6) 测试中,该模型的纯文本性能也具有竞争力,但由于视觉语言的集成,其在 MMLU-Pro 测试中出现了预期的性能下降(30.3 分,基准值为 46.4 分)。注意力池化带来的 4 倍标记减少,使得 LLM 预填充 FLOPs 减少 3.9 倍,KV 缓存内存减少 4 倍,而对基准测试分数的影响却微乎其微。
最佳实践
该模型以 CC-BY-NC-4.0 许可发布在 Hugging Face 网站上,包含权重和推理代码。它支持通过自动分块处理任意分辨率的图像(最多 12 个图块加一个缩略图)。启用“思考模式”可处理复杂的推理任务,方法是启用 `do_sample=True` 并设置 `temperature > 0`。该模型可处理 32K 的上下文长度,以应对扩展对话。对于多语言视觉问答,该模型支持 29 种语言,包括英语、中文、阿拉伯语、德语、西班牙语、法语、意大利语、日语、韩语、葡萄牙语、俄语、土耳其语、越南语、泰语、印尼语、印地语和孟加拉语。该模型最适合用于文档理解、图表/示意图分析、OCR 任务和多语言视觉问答。由于采用分块处理方式,该模型在计数任务和细粒度空间推理方面存在局限性。为了获得最佳推理效果,建议在支持 CUDA 的 GPU 上使用 `bfloat16` 精度。
提及此模型的博客



