Новости
Модели
API
keyboard_arrow_down
Читатель
Читайте URL-адреса и ищите информацию в Интернете для получения более подходящей подготовки для получения степени магистра права.
Вложения
Мультимодальные многоязычные вложения мирового класса.
Реранкер
Нейронный ретривер мирового класса для максимального повышения релевантности поиска.
Elastic Inference Service
Запускайте модели Jina непосредственно в Elasticsearch.
MCP terminalCLIarticlellms.txtsmart_toyАгентыdata_objectСхемаmenu_bookДокументы



Авторизоваться
login
Читатель
copyright CC BY-NC 4.0
open_in_new Выпуск Пост

jina-vlm

Многоязычная модель зрительно-языкового восприятия для визуального ответа на вопросы
Лицензия
copyright CC-BY-NC-4.0
Дата выпуска
calendar_month
2025-12-04
Вход
image
Изображение
abc
Текст
arrow_forward
Выход
abc
Текст
Подробности модели
Параметры: 2.4B
Длина входного токена: 32K
Размер входного изображения: 4096×4096
Базовая модель help_outline
open_in_new
Qwen3-1.7B-Base
Обученные языки help_outline
39 языки
Поддерживаемые языки help_outline
93 языки
Поддержка Apple Silicon help_outline
MLX
Похожие модели
link
jina-embeddings-v4
link
jina-reranker-m0
Теги
reader
vlm
multilingual
vision-language
image-to-text
document-processing
ocr
Доступно через
API ДжинаОбнимающее лицо
График ввода-вывода 1

Изображение

jina-vlm

Текст

Текст

График ввода-вывода 2

Текст

jina-vlm

Текст

Выберите модели для сравнения
Публикации (1)
ICLR 2026
декабрь 04, 2025
Jina-VLM: Small Multilingual Vision Language Model

Обзор

jina-vlm — это модель визуального языка с 2,4 млрд параметров, которая обеспечивает передовые многоязычные визуальные ответы на вопросы среди открытых VLM масштаба 2 млрд. Модель объединяет видеокодер SigLIP2-So400M (449 млн параметров) с языковой основой Qwen3-1.7B через коннектор с объединением внимания, который уменьшает количество визуальных токенов в 4 раза, сохраняя пространственную информацию. Используя перекрывающиеся тайлы изображений с 12 тайлами и глобальную миниатюру, она обрабатывает изображения произвольного разрешения до 4K. Обучающие данные содержат около 5 млн мультимодальных выборок и 12 млрд текстовых токенов на 29 языках, примерно половина из которых на английском, а остальные охватывают языки с высоким и средним уровнем ресурсов, включая китайский, арабский, немецкий, испанский, французский, итальянский, японский, корейский и другие.

Методы

Обучение проходит в два этапа, при этом все компоненты модели (кодировщик, коннектор, декодер) обновляются без зависания. Этап 1 (обучение выравнивания) фокусируется на межъязыковой семантической привязке с использованием наборов данных подписей (PixmoCap, PangeaIns), охватывающих естественные сцены, документы, инфографику и диаграммы, с 15% данных только с текстом для смягчения ухудшения производительности в задачах, требующих только текста. Коннектор использует более высокую скорость обучения и более короткий период прогрева, чем кодировщик и декодер. Этап 2 (настройка инструкций) адаптирует модель к разговорным вопросам «вопрос-ответ» с использованием многоязычных наборов данных «инструкция-ответ» (Aya, ShareGPT4V, LLaVA). Коннектор с механизмом внимания применяет пулинг 2×2 для уменьшения количества визуальных токенов с 729 на плитку до 182 токенов, достигая 4-кратного уменьшения количества токенов с минимальной потерей производительности. Перекрывающиеся фрагменты размером 378×378 пикселей (112 пикселей, шаг 266) сохраняют информацию о границах.

Производительность

Достигает наивысшего среднего балла (72,3) по восьми тестам VQA среди VLM-систем масштаба 2B, включая MathVista (59,4), AI2D (80,8), ChartQA (79,5), DocVQA (90,6), InfoVQA (65,9), RealWorldQA (64,9), OCRBench (778) и MME (1582). Лидирует в многоязычном многомодальном понимании с MMMB (78,8) и Multilingual MMBench (74,3), охватывая арабский, китайский, английский, португальский, русский и турецкий языки. Высокая производительность OCR с результатом 778 в OCRBench (шкала 0-1000). Конкурентоспособная производительность только с текстом в MMLU (54,7) и HellaSwag (75,6), хотя демонстрирует ожидаемое снижение в MMLU-Pro (30,3 против 46,4 в базовом варианте) из-за интеграции визуального и языкового восприятия. Четырехкратное уменьшение количества токенов за счет объединения внимания приводит к трехкратному снижению количества операций с плавающей запятой в LLM-преполнении и четырехкратному снижению объема памяти KV-кэша при минимальном влиянии на результаты бенчмарка.

Руководство

Модель доступна на Hugging Face по лицензии CC-BY-NC-4.0 с весами и кодом вывода. Поддерживает изображения произвольного разрешения благодаря автоматическому тайлингу (до 12 тайлов плюс миниатюра). Используйте режим мышления, включив do_sample=True и температуру > 0 для сложных задач рассуждения. Модель обрабатывает длину контекста 32 КБ для расширенных диалогов. Для многоязычного VQA модель поддерживает 29 языков, включая английский, китайский, арабский, немецкий, испанский, французский, итальянский, японский, корейский, португальский, русский, турецкий, вьетнамский, тайский, индонезийский, хинди и бенгальский. Лучше всего подходит для понимания документов, анализа диаграмм/схем, задач оптического распознавания символов (OCR) и многоязычного визуального ответа на вопросы. Модель демонстрирует ограничения в задачах подсчета и мелкозернистых пространственных рассуждений из-за тайлового подхода. Для оптимального вывода используйте точность bfloat16 на графических процессорах с поддержкой CUDA.
Блоги, в которых упоминается эта модель
декабрь 04, 2025 • 7 минуты чтения
Jina-VLM: Маленькая многоязычная модель Vision Language Model
Новая модель vision language на 2B достигла SOTA в многоязычном VQA, без катастрофического забывания в задачах, связанных только с текстом.
Jina AI
Artistic representation of "Vln" in vibrant, rainbow-like colors on a minimalistic white background, with a focus on color di
Офисы
location_on
Саннивейл, Калифорния
710 Lakeway Dr, Ste 200, Саннивейл, Калифорния 94085, США
location_on
Берлин, Германия
Prinzessinnenstraße 19-20, 10969 Берлин, Германия
Поиск Фонда
Читатель
Вложения
Реранкер
Elastic Inference Service
Получить API-ключ Jina
Ограничение скорости
Статус API
Компания
О нас
Связаться с отделом продаж
отдел новостей
Стажерская программа
Загрузить логотип Jina
open_in_new
Скачать логотип Elastic
open_in_new
Условия
Безопасность
Условия использования
Конфиденциальность
Управление файлами cookie
email
Jina AI от Elastic © 2020-2026.