新聞
模型
API
keyboard_arrow_down
讀取器
讀取URL或搜索為大模型提供更好的依據。
向量模型
世界一流的多模態多語言向量模型。
重排器
世界一流的重排器,最大限度地提高搜索相關性。
彈性推理服務
在 Elasticsearch 中原生運行 Jina 模型。
MCP terminal命令行articlellms.txtsmart_toy代理人data_object模式menu_book文檔



登錄
login
讀取器
copyright CC BY-NC 4.0
open_in_new 發行説明

jina-vlm

用於視覺問答的多語言視覺語言模型
許可證
copyright CC-BY-NC-4.0
發佈日期
calendar_month
2025-12-04
輸入
image
圖片
abc
文本
arrow_forward
輸出
abc
文本
模型詳細信息
參數: 2.4B
輸入詞元長度: 32K
輸入圖片大小: 4096×4096
底座模型 help_outline
open_in_new
Qwen3-1.7B-Base
訓練過的語言 help_outline
39 語言
支持的語言 help_outline
93 語言
蘋果芯片優化 help_outline
MLX
相關模型
link
jina-embeddings-v4
link
jina-reranker-m0
標籤
reader
vlm
multilingual
vision-language
image-to-text
document-processing
ocr
可通過以下方式獲取
Jina API抱抱臉
I/O 圖 1

圖像

jina-vlm

文本

文本

I/O 圖 2

文本

jina-vlm

文本

選擇要比較的模型
論文 (1)
ICLR 2026
十二月 04, 2025
Jina-VLM: Small Multilingual Vision Language Model

概述

jina-vlm 是一個 24 億參數的視覺語言模型,在目前已發佈的 20 億級視覺語言模型中,其多語言視覺問答性能處於領先水平。該模型將 SigLIP2-So400M 視覺編碼器(4.49 億參數)與 Qwen3-17 億語言骨幹網絡相結合,並通過注意力池連接器將視覺標記數量減少 4 倍,同時保留空間信息。它採用 12 個圖塊疊加的圖像拼接方式,並添加一個全局縮略圖,能夠處理分辨率高達 4K 的任意圖像。訓練數據包含約 500 萬個多模態樣本和 120 億個文本標記,涵蓋 29 種語言,其中約一半為英語,其餘涵蓋包括中文、阿拉伯語、德語、西班牙語、法語、意大利語、日語、韓語等在內的多種高資源和中等資源語言。

方法

訓練分兩個階段進行,所有模型組件(編碼器、連接器、解碼器)均在不凍結的情況下進行更新。第一階段(對齊訓練)側重於使用涵蓋自然場景、文檔、信息圖表和示意圖的圖像描述數據集(PixmoCap、PangeaIns)進行跨語言語義基礎訓練,其中包含 15% 的純文本數據,以減輕純文本任務的性能下降。連接器的學習率高於編碼器和解碼器,預熱時間也更短。第二階段(指令調優)使用多語言指令-響應數據集(Aya、ShareGPT4V、LLaVA)使模型適應對話式視覺問答(VQA)任務。注意力池化連接器應用 2×2 池化,將每個圖塊的 729 個視覺標記減少到 182 個標記,在性能損失極小的情況下實現了 4 倍的標記減少。重疊約 30%(112 像素,步長 266)的 378×378 圖塊能夠保留邊緣信息。

性能

在八項 VQA 基準測試中,該模型在 20 億級 VLM 中取得了最高的平均分 (72.3),其中包括 MathVista (59.4)、AI2D (80.8)、ChartQA (79.5)、DocVQA (90.6)、InfoVQA (65.9)、RealWorldQA (64.9)、OCRBench (778) 和 MME (1582)。在多語言多模態理解方面,該模型在 MMMB (78.8) 和 Multilingual MMBench (74.3) 測試中表現領先,涵蓋阿拉伯語、中文、英語、葡萄牙語、俄語和土耳其語。在 OCRBench (0-1000 分制) 測試中,該模型的 OCR 性能也十分出色,得分為 778 分。在 MMLU (54.7) 和 HellaSwag (75.6) 測試中,該模型的純文本性能也具有競爭力,但由於視覺語言的集成,其在 MMLU-Pro 測試中出現了預期的性能下降(30.3 分,基準值為 46.4 分)。注意力池化帶來的 4 倍標記減少,使得 LLM 預填充 FLOPs 減少 3.9 倍,KV 緩存內存減少 4 倍,而對基準測試分數的影響卻微乎其微。

最佳實踐

該模型以 CC-BY-NC-4.0 許可發佈在 Hugging Face 網站上,包含權重和推理代碼。它支持通過自動分塊處理任意分辨率的圖像(最多 12 個圖塊加一個縮略圖)。啓用“思考模式”可處理複雜的推理任務,方法是啓用 `do_sample=True` 並設置 `temperature > 0`。該模型可處理 32K 的上下文長度,以應對擴展對話。對於多語言視覺問答,該模型支持 29 種語言,包括英語、中文、阿拉伯語、德語、西班牙語、法語、意大利語、日語、韓語、葡萄牙語、俄語、土耳其語、越南語、泰語、印尼語、印地語和孟加拉語。該模型最適合用於文檔理解、圖表/示意圖分析、OCR 任務和多語言視覺問答。由於採用分塊處理方式,該模型在計數任務和細粒度空間推理方面存在侷限性。為了獲得最佳推理效果,建議在支持 CUDA 的 GPU 上使用 `bfloat16` 精度。
提及此模型的博客
十二月 04, 2025 • 7 分鐘的讀取量
Jina-VLM:小型多語言視覺語言模型
全新 2B 視覺語言模型在多語言 VQA 上實現 SOTA,在純文字任務上沒有災難性遺忘。
Jina AI
Artistic representation of "Vln" in vibrant, rainbow-like colors on a minimalistic white background, with a focus on color di
辦公室
location_on
加利福尼亞州桑尼維爾
710 Lakeway Dr, Ste 200, 桑尼維爾, 加州 94085, 美國
location_on
德國柏林
Prinzessinnenstraße 19-20,10969 柏林,德國
搜索底座
讀取器
向量模型
重排器
彈性推理服務
open_in_new
獲取 Jina API 密鑰
速率限制
API 狀態
公司
關於我們
聯繫銷售
新聞
實習生項目
下載 Jina 標誌
open_in_new
下載 Elastic 徽標
open_in_new
條款
安全
條款及條件
隱私
管理 Cookie
email
Elastic Jina AI © 2020-2026.