I/O 圖 1
I/O 圖 2
選擇要比較的模型
論文 (1)
概述
jina-vlm 是一個 24 億參數的視覺語言模型,在目前已發佈的 20 億級視覺語言模型中,其多語言視覺問答性能處於領先水平。該模型將 SigLIP2-So400M 視覺編碼器(4.49 億參數)與 Qwen3-17 億語言骨幹網絡相結合,並通過注意力池連接器將視覺標記數量減少 4 倍,同時保留空間信息。它採用 12 個圖塊疊加的圖像拼接方式,並添加一個全局縮略圖,能夠處理分辨率高達 4K 的任意圖像。訓練數據包含約 500 萬個多模態樣本和 120 億個文本標記,涵蓋 29 種語言,其中約一半為英語,其餘涵蓋包括中文、阿拉伯語、德語、西班牙語、法語、意大利語、日語、韓語等在內的多種高資源和中等資源語言。
方法
訓練分兩個階段進行,所有模型組件(編碼器、連接器、解碼器)均在不凍結的情況下進行更新。第一階段(對齊訓練)側重於使用涵蓋自然場景、文檔、信息圖表和示意圖的圖像描述數據集(PixmoCap、PangeaIns)進行跨語言語義基礎訓練,其中包含 15% 的純文本數據,以減輕純文本任務的性能下降。連接器的學習率高於編碼器和解碼器,預熱時間也更短。第二階段(指令調優)使用多語言指令-響應數據集(Aya、ShareGPT4V、LLaVA)使模型適應對話式視覺問答(VQA)任務。注意力池化連接器應用 2×2 池化,將每個圖塊的 729 個視覺標記減少到 182 個標記,在性能損失極小的情況下實現了 4 倍的標記減少。重疊約 30%(112 像素,步長 266)的 378×378 圖塊能夠保留邊緣信息。
性能
在八項 VQA 基準測試中,該模型在 20 億級 VLM 中取得了最高的平均分 (72.3),其中包括 MathVista (59.4)、AI2D (80.8)、ChartQA (79.5)、DocVQA (90.6)、InfoVQA (65.9)、RealWorldQA (64.9)、OCRBench (778) 和 MME (1582)。在多語言多模態理解方面,該模型在 MMMB (78.8) 和 Multilingual MMBench (74.3) 測試中表現領先,涵蓋阿拉伯語、中文、英語、葡萄牙語、俄語和土耳其語。在 OCRBench (0-1000 分制) 測試中,該模型的 OCR 性能也十分出色,得分為 778 分。在 MMLU (54.7) 和 HellaSwag (75.6) 測試中,該模型的純文本性能也具有競爭力,但由於視覺語言的集成,其在 MMLU-Pro 測試中出現了預期的性能下降(30.3 分,基準值為 46.4 分)。注意力池化帶來的 4 倍標記減少,使得 LLM 預填充 FLOPs 減少 3.9 倍,KV 緩存內存減少 4 倍,而對基準測試分數的影響卻微乎其微。
最佳實踐
該模型以 CC-BY-NC-4.0 許可發佈在 Hugging Face 網站上,包含權重和推理代碼。它支持通過自動分塊處理任意分辨率的圖像(最多 12 個圖塊加一個縮略圖)。啓用“思考模式”可處理複雜的推理任務,方法是啓用 `do_sample=True` 並設置 `temperature > 0`。該模型可處理 32K 的上下文長度,以應對擴展對話。對於多語言視覺問答,該模型支持 29 種語言,包括英語、中文、阿拉伯語、德語、西班牙語、法語、意大利語、日語、韓語、葡萄牙語、俄語、土耳其語、越南語、泰語、印尼語、印地語和孟加拉語。該模型最適合用於文檔理解、圖表/示意圖分析、OCR 任務和多語言視覺問答。由於採用分塊處理方式,該模型在計數任務和細粒度空間推理方面存在侷限性。為了獲得最佳推理效果,建議在支持 CUDA 的 GPU 上使用 `bfloat16` 精度。
提及此模型的博客



