jina-vlm

Читатель

CC BY-NC 4.0

Выпуск Пост

jina-vlm

Многоязычная модель зрительно-языкового восприятия для визуального ответа на вопросы

Лицензия

CC-BY-NC-4.0

Дата выпуска

2025-12-04

Вход

Изображение

Текст

Выход

Текст

Подробности модели

Параметры: 2.4B

Длина входного токена: 32K

Размер входного изображения: 4096×4096

Базовая модель

Qwen3-1.7B-Base

Обученные языки

39 языки

Поддерживаемые языки

93 языки

Поддержка Apple Silicon

MLX

Похожие модели

jina-embeddings-v4

jina-reranker-m0

Теги

reader

vlm

multilingual

vision-language

image-to-text

document-processing

ocr

Доступно через

API Джина Обнимающее лицо

График ввода-вывода 1

График ввода-вывода 2

Выберите модели для сравнения

jina-vlm

jina-embeddings-v4

jina-reranker-m0

Публикации (1)

ICLR 2026

декабрь 04, 2025

Jina-VLM: Small Multilingual Vision Language Model

Обзор

jina-vlm — это модель визуального языка с 2,4 млрд параметров, которая обеспечивает передовые многоязычные визуальные ответы на вопросы среди открытых VLM масштаба 2 млрд. Модель объединяет видеокодер SigLIP2-So400M (449 млн параметров) с языковой основой Qwen3-1.7B через коннектор с объединением внимания, который уменьшает количество визуальных токенов в 4 раза, сохраняя пространственную информацию. Используя перекрывающиеся тайлы изображений с 12 тайлами и глобальную миниатюру, она обрабатывает изображения произвольного разрешения до 4K. Обучающие данные содержат около 5 млн мультимодальных выборок и 12 млрд текстовых токенов на 29 языках, примерно половина из которых на английском, а остальные охватывают языки с высоким и средним уровнем ресурсов, включая китайский, арабский, немецкий, испанский, французский, итальянский, японский, корейский и другие.

Методы

Обучение проходит в два этапа, при этом все компоненты модели (кодировщик, коннектор, декодер) обновляются без зависания. Этап 1 (обучение выравнивания) фокусируется на межъязыковой семантической привязке с использованием наборов данных подписей (PixmoCap, PangeaIns), охватывающих естественные сцены, документы, инфографику и диаграммы, с 15% данных только с текстом для смягчения ухудшения производительности в задачах, требующих только текста. Коннектор использует более высокую скорость обучения и более короткий период прогрева, чем кодировщик и декодер. Этап 2 (настройка инструкций) адаптирует модель к разговорным вопросам «вопрос-ответ» с использованием многоязычных наборов данных «инструкция-ответ» (Aya, ShareGPT4V, LLaVA). Коннектор с механизмом внимания применяет пулинг 2×2 для уменьшения количества визуальных токенов с 729 на плитку до 182 токенов, достигая 4-кратного уменьшения количества токенов с минимальной потерей производительности. Перекрывающиеся фрагменты размером 378×378 пикселей (112 пикселей, шаг 266) сохраняют информацию о границах.

Производительность

Достигает наивысшего среднего балла (72,3) по восьми тестам VQA среди VLM-систем масштаба 2B, включая MathVista (59,4), AI2D (80,8), ChartQA (79,5), DocVQA (90,6), InfoVQA (65,9), RealWorldQA (64,9), OCRBench (778) и MME (1582). Лидирует в многоязычном многомодальном понимании с MMMB (78,8) и Multilingual MMBench (74,3), охватывая арабский, китайский, английский, португальский, русский и турецкий языки. Высокая производительность OCR с результатом 778 в OCRBench (шкала 0-1000). Конкурентоспособная производительность только с текстом в MMLU (54,7) и HellaSwag (75,6), хотя демонстрирует ожидаемое снижение в MMLU-Pro (30,3 против 46,4 в базовом варианте) из-за интеграции визуального и языкового восприятия. Четырехкратное уменьшение количества токенов за счет объединения внимания приводит к трехкратному снижению количества операций с плавающей запятой в LLM-преполнении и четырехкратному снижению объема памяти KV-кэша при минимальном влиянии на результаты бенчмарка.

Руководство

Модель доступна на Hugging Face по лицензии CC-BY-NC-4.0 с весами и кодом вывода. Поддерживает изображения произвольного разрешения благодаря автоматическому тайлингу (до 12 тайлов плюс миниатюра). Используйте режим мышления, включив do_sample=True и температуру > 0 для сложных задач рассуждения. Модель обрабатывает длину контекста 32 КБ для расширенных диалогов. Для многоязычного VQA модель поддерживает 29 языков, включая английский, китайский, арабский, немецкий, испанский, французский, итальянский, японский, корейский, португальский, русский, турецкий, вьетнамский, тайский, индонезийский, хинди и бенгальский. Лучше всего подходит для понимания документов, анализа диаграмм/схем, задач оптического распознавания символов (OCR) и многоязычного визуального ответа на вопросы. Модель демонстрирует ограничения в задачах подсчета и мелкозернистых пространственных рассуждений из-за тайлового подхода. Для оптимального вывода используйте точность bfloat16 на графических процессорах с поддержкой CUDA.

Блоги, в которых упоминается эта модель

декабрь 04, 2025 • 7 минуты чтения

Jina-VLM: Маленькая многоязычная модель Vision Language Model

Новая модель vision language на 2B достигла SOTA в многоязычном VQA, без катастрофического забывания в задачах, связанных только с текстом.