Noticias
Modelos
API
keyboard_arrow_down
Lector
Lea las URL y busque en la web para obtener una base más sólida para su LLM.
Incrustaciones
Integraciones multilingües y multimodales de clase mundial.
reclasificador
Recuperador neuronal de clase mundial para maximizar la relevancia de la búsqueda.
Servicio de inferencia elástica
Ejecuta modelos Jina de forma nativa dentro de Elasticsearch.
MCP terminalCLIarticlellms.txtsmart_toyAgentesdata_objectEsquemamenu_bookDocumentos



Acceso
login
Lector
copyright CC BY-NC 4.0
open_in_new Publicación de lanzamiento

jina-vlm

Modelo multilingüe de visión y lenguaje para la respuesta visual a preguntas
Licencia
copyright CC-BY-NC-4.0
Fecha de lanzamiento
calendar_month
2025-12-04
Aporte
image
Imagen
abc
Texto
arrow_forward
Producción
abc
Texto
Detalles del modelo
Parámetros: 2.4B
Longitud del token de entrada: 32K
Tamaño de la imagen de entrada: 4096×4096
Modelo base help_outline
open_in_new
Qwen3-1.7B-Base
Idiomas entrenados help_outline
39 idiomas
Idiomas admitidos help_outline
93 idiomas
Soporte para Apple Silicon help_outline
MLX
Modelos relacionados
link
jina-embeddings-v4
link
jina-reranker-m0
Etiquetas
reader
vlm
multilingual
vision-language
image-to-text
document-processing
ocr
Disponible a través de
API de JinaCara abrazada
Gráfico de E/S 1

Imagen

jina-vlm

Texto

Texto

Gráfico de E/S 2

Texto

jina-vlm

Texto

Elige modelos para comparar
Publicaciones (1)
ICLR 2026
diciembre 04, 2025
Jina-VLM: Small Multilingual Vision Language Model

Descripción general

jina-vlm es un modelo de visión-lenguaje con 2.400 millones de parámetros que logra una respuesta visual multilingüe de vanguardia entre VLM abiertos a escala 2.000 millones. El modelo combina un codificador de visión SigLIP2-So400M (449 millones de parámetros) con una estructura principal de lenguaje Qwen3-1.700 millones mediante un conector de agrupación de atención que reduce los tokens visuales en 4 veces, preservando la información espacial. Mediante mosaicos de imágenes superpuestos con 12 mosaicos más una miniatura global, procesa imágenes de resolución arbitraria de hasta 4K. Los datos de entrenamiento comprenden aproximadamente 5 millones de muestras multimodales y 12.000 millones de tokens de texto en 29 idiomas, aproximadamente la mitad en inglés y el resto en idiomas con recursos altos y moderados, como chino, árabe, alemán, español, francés, italiano, japonés, coreano, entre otros.

Métodos

El entrenamiento se realiza en dos etapas, con todos los componentes del modelo (codificador, conector, decodificador) actualizados sin congelamiento. La etapa 1 (entrenamiento de alineación) se centra en la base semántica multilingüe mediante conjuntos de datos de subtítulos (PixmoCap, PangeaIns) que abarcan escenas naturales, documentos, infografías y diagramas, con un 15 % de datos de solo texto para mitigar la degradación en tareas de solo texto. El conector utiliza una mayor tasa de aprendizaje y un calentamiento más corto que el codificador y el decodificador. La etapa 2 (ajuste de instrucciones) adapta el modelo a la calidad visual conversacional (VQA) mediante conjuntos de datos multilingües de instrucción-respuesta (Aya, ShareGPT4V, LLaVA). El conector de agrupación de atención aplica una agrupación 2x2 para reducir 729 tokens visuales por mosaico a 182 tokens, logrando una reducción de tokens de 4x con una pérdida mínima de rendimiento. La superposición de mosaicos con una superposición de aproximadamente el 30 % (112 píxeles, paso 266) y mosaicos de 378 × 378 conserva la información de los bordes.

Actuación

Obtiene la puntuación media más alta (72,3) en ocho pruebas de calidad de vídeo (VQA) entre los VLM de escala 2B, incluyendo MathVista (59,4), AI2D (80,8), ChartQA (79,5), DocVQA (90,6), InfoVQA (65,9), RealWorldQA (64,9), OCRBench (778) y MME (1582). Lidera la comprensión multimodal multilingüe con MMMB (78,8) y Multilingual MMBench (74,3), abarcando árabe, chino, inglés, portugués, ruso y turco. Excelente rendimiento de OCR con 778 en OCRBench (escala de 0 a 1000). Rendimiento competitivo en solo texto en MMLU (54,7) y HellaSwag (75,6), aunque muestra la degradación esperada en MMLU-Pro (30,3 frente a la base de 46,4) debido a la integración de visión y lenguaje. La reducción de tokens de 4× a partir de la agrupación de atención produce una reducción de 3,9× en los FLOP de prellenado de LLM y una reducción de 4× en la memoria caché de KV con un impacto mínimo en los puntajes de referencia.

Guía

El modelo está disponible en Hugging Face bajo la licencia CC-BY-NC-4.0 con ponderaciones y código de inferencia. Admite imágenes de resolución arbitraria mediante mosaico automático (hasta 12 mosaicos más la miniatura). Utilice el modo de pensamiento habilitando do_sample=True y una temperatura > 0 para tareas de razonamiento complejo. El modelo maneja una longitud de contexto de 32 K para conversaciones extensas. Para VQA multilingüe, el modelo admite 29 idiomas, incluyendo inglés, chino, árabe, alemán, español, francés, italiano, japonés, coreano, portugués, ruso, turco, vietnamita, tailandés, indonesio, hindi y bengalí. Es ideal para la comprensión de documentos, el análisis de gráficos/diagramas, tareas de OCR y la respuesta visual a preguntas multilingües. El modelo presenta limitaciones en tareas de conteo y razonamiento espacial detallado debido al enfoque de mosaico. Para una inferencia óptima, utilice la precisión bfloat16 en GPU compatibles con CUDA.
Blogs que mencionan este modelo
diciembre 04, 2025 • 7 minutos de lectura
Jina-VLM: Modelo de Lenguaje de Visión Multilingüe Pequeño
Nuevo modelo de lenguaje de visión de 2B logra SOTA en VQA multilingüe, sin olvido catastrófico en tareas de solo texto.
Jina AI
Artistic representation of "Vln" in vibrant, rainbow-like colors on a minimalistic white background, with a focus on color di
Oficinas
location_on
Sunnyvale, California
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, EE. UU.
location_on
Berlín, Alemania
Prinzessinnenstraße 19-20, 10969 Berlín, Alemania
Fundación de búsqueda
Lector
Incrustaciones
reclasificador
Servicio de inferencia elástica
open_in_new
Obtener la clave API de Jina
Límite de velocidad
Estado de la API
Compañía
Sobre nosotros
Contactar con ventas
Sala de prensa
Programa de prácticas
Descargar el logotipo de Jina
open_in_new
Descargar el logotipo de Elastic
open_in_new
Términos
Seguridad
Términos y condiciones
Privacidad
Administrar cookies
email
Jina AI de Elastic © 2020-2026.