jina-vlm

讀取器

CC BY-NC 4.0

發行説明

jina-vlm

用於視覺問答的多語言視覺語言模型

許可證

CC-BY-NC-4.0

發佈日期

2025-12-04

輸入

圖片

文本

輸出

文本

模型詳細信息

參數: 2.4B

輸入詞元長度: 32K

輸入圖片大小: 4096×4096

底座模型

Qwen3-1.7B-Base

訓練過的語言

39 語言

支持的語言

93 語言

蘋果芯片優化

MLX

相關模型

jina-embeddings-v4

jina-reranker-m0

標籤

reader

vlm

multilingual

vision-language

image-to-text

document-processing

ocr

可通過以下方式獲取

Jina API 抱抱臉

I/O 圖 1

I/O 圖 2

選擇要比較的模型

jina-vlm

jina-embeddings-v4

jina-reranker-m0

論文 (1)

ICLR 2026

十二月 04, 2025

Jina-VLM: Small Multilingual Vision Language Model

概述

jina-vlm 是一個 24 億參數的視覺語言模型，在目前已發佈的 20 億級視覺語言模型中，其多語言視覺問答性能處於領先水平。該模型將 SigLIP2-So400M 視覺編碼器（4.49 億參數）與 Qwen3-17 億語言骨幹網絡相結合，並通過注意力池連接器將視覺標記數量減少 4 倍，同時保留空間信息。它採用 12 個圖塊疊加的圖像拼接方式，並添加一個全局縮略圖，能夠處理分辨率高達 4K 的任意圖像。訓練數據包含約 500 萬個多模態樣本和 120 億個文本標記，涵蓋 29 種語言，其中約一半為英語，其餘涵蓋包括中文、阿拉伯語、德語、西班牙語、法語、意大利語、日語、韓語等在內的多種高資源和中等資源語言。

方法

訓練分兩個階段進行，所有模型組件（編碼器、連接器、解碼器）均在不凍結的情況下進行更新。第一階段（對齊訓練）側重於使用涵蓋自然場景、文檔、信息圖表和示意圖的圖像描述數據集（PixmoCap、PangeaIns）進行跨語言語義基礎訓練，其中包含 15% 的純文本數據，以減輕純文本任務的性能下降。連接器的學習率高於編碼器和解碼器，預熱時間也更短。第二階段（指令調優）使用多語言指令-響應數據集（Aya、ShareGPT4V、LLaVA）使模型適應對話式視覺問答（VQA）任務。注意力池化連接器應用 2×2 池化，將每個圖塊的 729 個視覺標記減少到 182 個標記，在性能損失極小的情況下實現了 4 倍的標記減少。重疊約 30%（112 像素，步長 266）的 378×378 圖塊能夠保留邊緣信息。

性能

在八項 VQA 基準測試中，該模型在 20 億級 VLM 中取得了最高的平均分 (72.3)，其中包括 MathVista (59.4)、AI2D (80.8)、ChartQA (79.5)、DocVQA (90.6)、InfoVQA (65.9)、RealWorldQA (64.9)、OCRBench (778) 和 MME (1582)。在多語言多模態理解方面，該模型在 MMMB (78.8) 和 Multilingual MMBench (74.3) 測試中表現領先，涵蓋阿拉伯語、中文、英語、葡萄牙語、俄語和土耳其語。在 OCRBench (0-1000 分制) 測試中，該模型的 OCR 性能也十分出色，得分為 778 分。在 MMLU (54.7) 和 HellaSwag (75.6) 測試中，該模型的純文本性能也具有競爭力，但由於視覺語言的集成，其在 MMLU-Pro 測試中出現了預期的性能下降（30.3 分，基準值為 46.4 分）。注意力池化帶來的 4 倍標記減少，使得 LLM 預填充 FLOPs 減少 3.9 倍，KV 緩存內存減少 4 倍，而對基準測試分數的影響卻微乎其微。

最佳實踐

該模型以 CC-BY-NC-4.0 許可發佈在 Hugging Face 網站上，包含權重和推理代碼。它支持通過自動分塊處理任意分辨率的圖像（最多 12 個圖塊加一個縮略圖）。啓用“思考模式”可處理複雜的推理任務，方法是啓用 `do_sample=True` 並設置 `temperature > 0`。該模型可處理 32K 的上下文長度，以應對擴展對話。對於多語言視覺問答，該模型支持 29 種語言，包括英語、中文、阿拉伯語、德語、西班牙語、法語、意大利語、日語、韓語、葡萄牙語、俄語、土耳其語、越南語、泰語、印尼語、印地語和孟加拉語。該模型最適合用於文檔理解、圖表/示意圖分析、OCR 任務和多語言視覺問答。由於採用分塊處理方式，該模型在計數任務和細粒度空間推理方面存在侷限性。為了獲得最佳推理效果，建議在支持 CUDA 的 GPU 上使用 `bfloat16` 精度。

提及此模型的博客

十二月 04, 2025 • 7 分鐘的讀取量

Jina-VLM：小型多語言視覺語言模型

全新 2B 視覺語言模型在多語言 VQA 上實現 SOTA，在純文字任務上沒有災難性遺忘。