jina-vlm

Lector

CC BY-NC 4.0

Publicación de lanzamiento

jina-vlm

Modelo multilingüe de visión y lenguaje para la respuesta visual a preguntas

Licencia

CC-BY-NC-4.0

Fecha de lanzamiento

2025-12-04

Aporte

Imagen

Texto

Producción

Texto

Detalles del modelo

Parámetros: 2.4B

Longitud del token de entrada: 32K

Tamaño de la imagen de entrada: 4096×4096

Modelo base

Qwen3-1.7B-Base

Idiomas entrenados

39 idiomas

Idiomas admitidos

93 idiomas

Soporte para Apple Silicon

MLX

Modelos relacionados

jina-embeddings-v4

jina-reranker-m0

Etiquetas

reader

vlm

multilingual

vision-language

image-to-text

document-processing

ocr

Disponible a través de

API de Jina Cara abrazada

Gráfico de E/S 1

Gráfico de E/S 2

Elige modelos para comparar

jina-vlm

jina-embeddings-v4

jina-reranker-m0

Publicaciones (1)

ICLR 2026

diciembre 04, 2025

Jina-VLM: Small Multilingual Vision Language Model

Descripción general

jina-vlm es un modelo de visión-lenguaje con 2.400 millones de parámetros que logra una respuesta visual multilingüe de vanguardia entre VLM abiertos a escala 2.000 millones. El modelo combina un codificador de visión SigLIP2-So400M (449 millones de parámetros) con una estructura principal de lenguaje Qwen3-1.700 millones mediante un conector de agrupación de atención que reduce los tokens visuales en 4 veces, preservando la información espacial. Mediante mosaicos de imágenes superpuestos con 12 mosaicos más una miniatura global, procesa imágenes de resolución arbitraria de hasta 4K. Los datos de entrenamiento comprenden aproximadamente 5 millones de muestras multimodales y 12.000 millones de tokens de texto en 29 idiomas, aproximadamente la mitad en inglés y el resto en idiomas con recursos altos y moderados, como chino, árabe, alemán, español, francés, italiano, japonés, coreano, entre otros.

Métodos

El entrenamiento se realiza en dos etapas, con todos los componentes del modelo (codificador, conector, decodificador) actualizados sin congelamiento. La etapa 1 (entrenamiento de alineación) se centra en la base semántica multilingüe mediante conjuntos de datos de subtítulos (PixmoCap, PangeaIns) que abarcan escenas naturales, documentos, infografías y diagramas, con un 15 % de datos de solo texto para mitigar la degradación en tareas de solo texto. El conector utiliza una mayor tasa de aprendizaje y un calentamiento más corto que el codificador y el decodificador. La etapa 2 (ajuste de instrucciones) adapta el modelo a la calidad visual conversacional (VQA) mediante conjuntos de datos multilingües de instrucción-respuesta (Aya, ShareGPT4V, LLaVA). El conector de agrupación de atención aplica una agrupación 2x2 para reducir 729 tokens visuales por mosaico a 182 tokens, logrando una reducción de tokens de 4x con una pérdida mínima de rendimiento. La superposición de mosaicos con una superposición de aproximadamente el 30 % (112 píxeles, paso 266) y mosaicos de 378 × 378 conserva la información de los bordes.

Actuación

Obtiene la puntuación media más alta (72,3) en ocho pruebas de calidad de vídeo (VQA) entre los VLM de escala 2B, incluyendo MathVista (59,4), AI2D (80,8), ChartQA (79,5), DocVQA (90,6), InfoVQA (65,9), RealWorldQA (64,9), OCRBench (778) y MME (1582). Lidera la comprensión multimodal multilingüe con MMMB (78,8) y Multilingual MMBench (74,3), abarcando árabe, chino, inglés, portugués, ruso y turco. Excelente rendimiento de OCR con 778 en OCRBench (escala de 0 a 1000). Rendimiento competitivo en solo texto en MMLU (54,7) y HellaSwag (75,6), aunque muestra la degradación esperada en MMLU-Pro (30,3 frente a la base de 46,4) debido a la integración de visión y lenguaje. La reducción de tokens de 4× a partir de la agrupación de atención produce una reducción de 3,9× en los FLOP de prellenado de LLM y una reducción de 4× en la memoria caché de KV con un impacto mínimo en los puntajes de referencia.

Guía

El modelo está disponible en Hugging Face bajo la licencia CC-BY-NC-4.0 con ponderaciones y código de inferencia. Admite imágenes de resolución arbitraria mediante mosaico automático (hasta 12 mosaicos más la miniatura). Utilice el modo de pensamiento habilitando do_sample=True y una temperatura > 0 para tareas de razonamiento complejo. El modelo maneja una longitud de contexto de 32 K para conversaciones extensas. Para VQA multilingüe, el modelo admite 29 idiomas, incluyendo inglés, chino, árabe, alemán, español, francés, italiano, japonés, coreano, portugués, ruso, turco, vietnamita, tailandés, indonesio, hindi y bengalí. Es ideal para la comprensión de documentos, el análisis de gráficos/diagramas, tareas de OCR y la respuesta visual a preguntas multilingües. El modelo presenta limitaciones en tareas de conteo y razonamiento espacial detallado debido al enfoque de mosaico. Para una inferencia óptima, utilice la precisión bfloat16 en GPU compatibles con CUDA.

Blogs que mencionan este modelo

diciembre 04, 2025 • 7 minutos de lectura

Jina-VLM: Modelo de Lenguaje de Visión Multilingüe Pequeño

Nuevo modelo de lenguaje de visión de 2B logra SOTA en VQA multilingüe, sin olvido catastrófico en tareas de solo texto.