Доступно через
График ввода-вывода 1
График ввода-вывода 2
Выберите модели для сравнения
Публикации (1)
Обзор
jina-vlm — это модель визуального языка с 2,4 млрд параметров, которая обеспечивает передовые многоязычные визуальные ответы на вопросы среди открытых VLM масштаба 2 млрд. Модель объединяет видеокодер SigLIP2-So400M (449 млн параметров) с языковой основой Qwen3-1.7B через коннектор с объединением внимания, который уменьшает количество визуальных токенов в 4 раза, сохраняя пространственную информацию. Используя перекрывающиеся тайлы изображений с 12 тайлами и глобальную миниатюру, она обрабатывает изображения произвольного разрешения до 4K. Обучающие данные содержат около 5 млн мультимодальных выборок и 12 млрд текстовых токенов на 29 языках, примерно половина из которых на английском, а остальные охватывают языки с высоким и средним уровнем ресурсов, включая китайский, арабский, немецкий, испанский, французский, итальянский, японский, корейский и другие.
Методы
Обучение проходит в два этапа, при этом все компоненты модели (кодировщик, коннектор, декодер) обновляются без зависания. Этап 1 (обучение выравнивания) фокусируется на межъязыковой семантической привязке с использованием наборов данных подписей (PixmoCap, PangeaIns), охватывающих естественные сцены, документы, инфографику и диаграммы, с 15% данных только с текстом для смягчения ухудшения производительности в задачах, требующих только текста. Коннектор использует более высокую скорость обучения и более короткий период прогрева, чем кодировщик и декодер. Этап 2 (настройка инструкций) адаптирует модель к разговорным вопросам «вопрос-ответ» с использованием многоязычных наборов данных «инструкция-ответ» (Aya, ShareGPT4V, LLaVA). Коннектор с механизмом внимания применяет пулинг 2×2 для уменьшения количества визуальных токенов с 729 на плитку до 182 токенов, достигая 4-кратного уменьшения количества токенов с минимальной потерей производительности. Перекрывающиеся фрагменты размером 378×378 пикселей (112 пикселей, шаг 266) сохраняют информацию о границах.
Производительность
Достигает наивысшего среднего балла (72,3) по восьми тестам VQA среди VLM-систем масштаба 2B, включая MathVista (59,4), AI2D (80,8), ChartQA (79,5), DocVQA (90,6), InfoVQA (65,9), RealWorldQA (64,9), OCRBench (778) и MME (1582). Лидирует в многоязычном многомодальном понимании с MMMB (78,8) и Multilingual MMBench (74,3), охватывая арабский, китайский, английский, португальский, русский и турецкий языки. Высокая производительность OCR с результатом 778 в OCRBench (шкала 0-1000). Конкурентоспособная производительность только с текстом в MMLU (54,7) и HellaSwag (75,6), хотя демонстрирует ожидаемое снижение в MMLU-Pro (30,3 против 46,4 в базовом варианте) из-за интеграции визуального и языкового восприятия. Четырехкратное уменьшение количества токенов за счет объединения внимания приводит к трехкратному снижению количества операций с плавающей запятой в LLM-преполнении и четырехкратному снижению объема памяти KV-кэша при минимальном влиянии на результаты бенчмарка.
Руководство
Модель доступна на Hugging Face по лицензии CC-BY-NC-4.0 с весами и кодом вывода. Поддерживает изображения произвольного разрешения благодаря автоматическому тайлингу (до 12 тайлов плюс миниатюра). Используйте режим мышления, включив do_sample=True и температуру > 0 для сложных задач рассуждения. Модель обрабатывает длину контекста 32 КБ для расширенных диалогов. Для многоязычного VQA модель поддерживает 29 языков, включая английский, китайский, арабский, немецкий, испанский, французский, итальянский, японский, корейский, португальский, русский, турецкий, вьетнамский, тайский, индонезийский, хинди и бенгальский. Лучше всего подходит для понимания документов, анализа диаграмм/схем, задач оптического распознавания символов (OCR) и многоязычного визуального ответа на вопросы. Модель демонстрирует ограничения в задачах подсчета и мелкозернистых пространственных рассуждений из-за тайлового подхода. Для оптимального вывода используйте точность bfloat16 на графических процессорах с поддержкой CUDA.
Блоги, в которых упоминается эта модель



