新聞
模型
API
keyboard_arrow_down
讀取器
讀取URL或搜索為大模型提供更好的依據。
向量模型
世界一流的多模態多語言向量模型。
重排器
世界一流的重排器,最大限度地提高搜索相關性。
MCP terminal命令行articlellms.txtsmart_toy代理人data_object模式menu_book文檔



登錄
login
架構
開始使用
結論
star
甄選
新聞稿
十二月 04, 2025

Jina-VLM:小型多語言視覺語言模型

全新 2B 視覺語言模型在多語言 VQA 上實現 SOTA,在純文字任務上沒有災難性遺忘。
Jina AI
Jina AI • 7 分鐘的讀取量
Jina-VLM: Small Multilingual Vision Language Model
We present Jina-VLM, a 2.4B parameter vision-language model that achieves state-of-the-art multilingual visual question answering among open 2B-scale VLMs. The model couples a SigLIP2 vision encoder with a Qwen3 language backbone through an attention-pooling connector that enables token-efficient processing of arbitrary-resolution images. Across standard VQA benchmarks and multilingual evaluations, Jina-VLM outperforms comparable models while preserving competitive text-only performance.
arXiv.orgAndreas Koukounas
jinaai/jina-vlm · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.

我們正在發布 jina-vlm,這是一個 24 億參數的視覺語言模型,在開放的 2B 規模 VLM 中,它在多語種視覺問答方面達到了最先進的水平。透過將 SigLIP2 視覺編碼器與 Qwen3 語言主幹透過 attention-pooling 連接器結合,jina-vlm 在 29 種語言中展現了強大的效能,同時保持了足夠的效率,可以在消費級硬體上運行。

Model Size VQA Avg MMMB Multi. MMB DocVQA OCRBench
jina-vlm 2.4B 72.3 78.8 74.3 90.6 778
Qwen2-VL-2B 2.1B 66.4 71.3 69.4 89.2 809
Qwen3-VL-2B 2.8B 71.6 75.0 72.3 92.3 858
InternVL3-2B 2.2B 69.2 73.6 71.9 87.4 835
InternVL3.5-2B 2.2B 71.6 74.6 70.9 88.5 836
MMMB 基準測試中 6 種語言的效能分佈:阿拉伯語、中文、英語、葡萄牙語、俄語和土耳其語。MMMB 透過不同的視覺問題類型評估多語種多模態理解。
多語種 MMBench 上 6 種語言的效能分佈:阿拉伯語、中文、英語、葡萄牙語、俄語和土耳其語。此基準測試用於測試跨語言的視覺推理和感知能力。
8 個視覺問答基準測試的效能分佈:AI2D(圖表)、ChartQA(圖表)、TextVQA(場景文字)、DocVQA(文件)、InfoVQA(資訊圖表)、OCRBench(OCR)、SEED-2-Plus(多樣化場景)和 CharXiv(科學圖)。
3 個真實世界理解基準測試的效能分佈:RealWorldQA(實際情境)、MME-RealWorld(真實世界感知)和 R-Bench(穩健性評估)。
5 個純文字基準測試的效能分佈,比較 jina-vlm 與其 Qwen3-1.7B 主幹:MMLU(知識)、MMLU-Pro(進階推理)、GSM-8K(數學)、ARC-C(科學)和 HellaSwag(常識)。

tag架構

jina-vlm 的架構。影像會調整大小以符合最多 12 個重疊圖塊的網格,再加上一個全域縮圖。每個圖塊都是一個正方形 378x378 的裁剪;相鄰圖塊重疊 112 像素,圖塊原點之間的步幅為 266 像素。因此,4x3 網格跨越 1176x910 像素,超過此有效解析度的影像會縮小以符合圖塊預算。每個圖塊透過 SigLIP2 產生 729 個修補程式。VL 連接器連接來自第 24 層和第 18 層(倒數第三層和倒數第九層)的特徵,然後應用 2x2 attention pooling 將 729 個詞元減少到 182 個,然後再投影到解碼器維度。視覺詞元與 Qwen3 解碼器的文字 向量模型 結合。

有兩個挑戰限制了實際的 VLM 部署:多語種能力在視覺適應期間經常會降低,而且高品質的 VLM 在計算上仍然很昂貴。jina-vlm 透過仔細的架構選擇(我們的 attention-pooling 連接器以最小的效能影響減少了 4 倍的視覺詞元)和明確保留多語種能力的訓練方法來解決這兩個問題。

關鍵的架構創新是我們的視覺語言連接器。我們沒有將每個圖塊的所有 729 個視覺詞元傳遞給語言模型,而是應用 2×2 attention pooling,將其減少到 182 個詞元,減少了 4 倍,而資訊損失卻很小。連接器的工作方式如下:

  1. 多層特徵融合:我們連接來自 ViT 第 18 層和第 24 層(倒數第三層和倒數第九層)的特徵,同時擷取細緻的空間細節和高階語義。
  2. Attention pooling:對於每個 2×2 修補程式鄰域,我們計算一個查詢,作為鄰域特徵的平均值,然後應用交叉注意力來產生單個池化表示。
  3. SwiGLU 投影:池化的特徵透過閘控線性單元投影到語言模型維度。

以下描述了這種效率提升:

Metric No Pooling With Pooling Reduction
Visual tokens (12 tiles + thumbnail) 9,477 2,366 4.0×
LLM prefill FLOPs 27.2 TFLOPs 6.9 TFLOPs 3.9×
KV-cache memory 2.12 GB 0.53 GB 4.0×

由於 ViT 以相同的方式處理每個圖塊,而不管 attention pooling 如何,因此這些節省僅適用於語言模型,而語言模型是推理期間的主要成本。

tag訓練程序

VLM 訓練中常見的失敗模式是災難性遺忘:語言模型在適應視覺輸入時會失去其純文字能力。對於多語種模型而言,這尤其嚴重,因為視覺適應會降低非英語語言的效能。

我們透過一個分為兩個階段的訓練流程來解決這個問題,該流程具有明確的多語種資料和純文字保留。

階段 1:對齊訓練

第一階段側重於使用跨越多個視覺領域的標題資料集(自然場景、文件、資訊圖表和圖表)進行跨語言的語義基礎。至關重要的是,我們包含 15% 的純文字資料,以維持主幹的語言理解。連接器使用比編碼器和解碼器更高的學習率 (2e-4) 和更短的預熱時間,使其能夠快速適應,而預訓練元件則逐漸變化。

階段 2:指令微調

第二階段訓練 VQA 和推理任務的指令遵循能力。我們結合涵蓋學術 VQA、文件理解、OCR、數學和推理的公開資料集,以及純文字指令資料,以維持語言能力。

合併後的資料包含大約 500 萬個多模態樣本和 120 億個文字詞元,涵蓋 29 種語言,其中大約一半是英語,其餘涵蓋中文、阿拉伯語、德語、西班牙語、法語、義大利語、日語、韓語、葡萄牙語、俄語、土耳其語、越南語、泰語、印尼語、印地語、孟加拉語等。

tag開始使用

tag透過 Jina API

我們在 https://api-beta-vlm.jina.ai 提供一個與 OpenAI 相容的 API。

tag從 URL 取得圖片

格式 範例
HTTP/HTTPS URL https://example.com/image.jpg
Base64 data URI data:image/jpeg;base64,/9j/4AAQ...
curl https://api-beta-vlm.jina.ai/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $JINA_API_KEY" \
  -d '{
    "model": "jina-vlm",
    "messages": [{
      "role": "user",
      "content": [
        {"type": "text", "text": "Describe this image"},
        {"type": "image_url", "image_url": {"url": "https://example.com/photo.jpg"}}
      ]
    }]
  }'

本機圖片 (base64)

curl https://api-beta-vlm.jina.ai/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $JINA_API_KEY" \
  -d '{
    "model": "jina-vlm",
    "messages": [{
      "role": "user",
      "content": [
        {"type": "text", "text": "What is in this image?"},
        {"type": "image_url", "image_url": {"url": "data:image/jpeg;base64,'$(base64 -i image.jpg)'"}}
      ]
    }]
  }'

純文字查詢

curl https://api-beta-vlm.jina.ai/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $JINA_API_KEY" \
  -d '{
    "model": "jina-vlm",
    "messages": [{"role": "user", "content": "What is the capital of France?"}]
  }'

串流回應

新增 "stream": true 以在產生時接收詞元:

curl https://api-beta-vlm.jina.ai/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $JINA_API_KEY" \
  -d '{
    "model": "jina-vlm",
    "stream": true,
    "messages": [{"role": "user", "content": "Write a haiku about coding"}]
  }'

當服務冷啟動時,您會收到:

{
  "error": {
    "message": "Model is loading, please retry in 30-60 seconds. Cold start takes ~30s after the service scales up.",
    "code": 503
  }
}

請在等待後重試您的請求。

tag透過 CLI

HuggingFace 儲存庫包含一個 infer.py 腳本,用於快速實驗:

# Single image
python infer.py -i image.jpg -p "What's in this image?"

# Streaming output
python infer.py -i image.jpg -p "Describe this image" --stream

# Multiple images
python infer.py -i img1.jpg -i img2.jpg -p "Compare these images"

# Text-only
python infer.py -p "What is the capital of France?"

tag透過 Transformers

from transformers import AutoModelForCausalLM, AutoProcessor
import torch
from PIL import Image

# Load model and processor
model = AutoModelForCausalLM.from_pretrained(
    "jinaai/jina-vlm",
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
    device_map="auto"
)
processor = AutoProcessor.from_pretrained(
    "jinaai/jina-vlm",
    trust_remote_code=True
)

# Load an image
image = Image.open("document.png")

# Create the conversation
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "image": image},
            {"type": "text", "text": "What is the main topic of this document?"}
        ]
    }
]

# Process and generate
inputs = processor.apply_chat_template(
    messages,
    add_generation_prompt=True,
    tokenize=True,
    return_dict=True,
    return_tensors="pt"
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=256, do_sample=False)
response = processor.decode(outputs[0], skip_special_tokens=True)
print(response)

tag結論

jina-vlm 證明了小型 VLM 可以透過仔細的架構和訓練選擇,實現強大的跨語言視覺理解能力。注意力池化連接器提供了 4 倍的詞元縮減,且效能影響極小,並且在多模態訓練期間納入純文字資料,可保留原本會降低的語言能力。

我們注意到目前方法的幾個限制:

  • 分塊處理的額外負荷:處理量隨著分塊數線性擴展。對於非常高解析度的圖像,這可能會變得非常顯著。此外,分塊可能會損害需要整體場景理解的任務,例如物件計數或跨分塊邊界的空間推理。全域縮圖在一定程度上緩解了這個問題,但原生解析度方法可能更適合此類任務。
  • 多圖像推理:由於此模式下的訓練資料有限,因此在多圖像基準測試中的效能較弱。針對簡潔的視覺回應進行優化似乎與擴展的多步驟推理相衝突,MMLU-Pro 的效能下降就證明了這一點。

未來的研究可以探索更有效的解析度處理方法,針對計數和空間任務進行有針對性的改進,並研究我們的多語言訓練方法是否可以轉移到更大的模型規模。

類別:
star
甄選
新聞稿
rss_feed

更多新聞
二月 19, 2026 • 7 分鐘的讀取量
jina-embeddings-v5-text: New SOTA Small Multilingual Embeddings
Han Xiao
Abstract digital artwork in black and white, featuring scattered dots forming letters in a halftone effect. The central lette
十月 03, 2025 • 7 分鐘的讀取量
Jina Reranker v3:用於 SOTA 多語檢索的 0.6B Listwise 重排器
Jina AI
Light blue background with stylized text in the center, composed of small dots or squares, evoking a modern and minimalistic
九月 04, 2025 • 6 分鐘的讀取量
Jina Code Embeddings:0.5B 和 1.5B 參數規模下,最先進的程式碼檢索向量模型
Jina AI
Green "Code Embeddings" text displayed in a LED dot style on a black background, evoking a futuristic and technological atmos
辦公室
location_on
加利福尼亞州桑尼維爾
710 Lakeway Dr, Ste 200, 桑尼維爾, 加州 94085, 美國
location_on
德國柏林
Prinzessinnenstraße 19-20,10969 柏林,德國
搜索底座
讀取器
向量模型
重排器
獲取 Jina API 密鑰
速率限制
API 狀態
公司
關於我們
聯繫銷售
新聞
實習生項目
下載 Jina 標誌
open_in_new
下載 Elastic 徽標
open_in_new
條款
安全
條款及條件
隱私
管理 Cookie
email
Elastic Jina AI © 2020-2026.