Disponible a través de
Gráfico de E/S 1
Gráfico de E/S 2
Elige modelos para comparar
Publicaciones (1)
Descripción general
jina-vlm es un modelo de visión-lenguaje con 2.400 millones de parámetros que logra una respuesta visual multilingüe de vanguardia entre VLM abiertos a escala 2.000 millones. El modelo combina un codificador de visión SigLIP2-So400M (449 millones de parámetros) con una estructura principal de lenguaje Qwen3-1.700 millones mediante un conector de agrupación de atención que reduce los tokens visuales en 4 veces, preservando la información espacial. Mediante mosaicos de imágenes superpuestos con 12 mosaicos más una miniatura global, procesa imágenes de resolución arbitraria de hasta 4K. Los datos de entrenamiento comprenden aproximadamente 5 millones de muestras multimodales y 12.000 millones de tokens de texto en 29 idiomas, aproximadamente la mitad en inglés y el resto en idiomas con recursos altos y moderados, como chino, árabe, alemán, español, francés, italiano, japonés, coreano, entre otros.
Métodos
El entrenamiento se realiza en dos etapas, con todos los componentes del modelo (codificador, conector, decodificador) actualizados sin congelamiento. La etapa 1 (entrenamiento de alineación) se centra en la base semántica multilingüe mediante conjuntos de datos de subtítulos (PixmoCap, PangeaIns) que abarcan escenas naturales, documentos, infografías y diagramas, con un 15 % de datos de solo texto para mitigar la degradación en tareas de solo texto. El conector utiliza una mayor tasa de aprendizaje y un calentamiento más corto que el codificador y el decodificador. La etapa 2 (ajuste de instrucciones) adapta el modelo a la calidad visual conversacional (VQA) mediante conjuntos de datos multilingües de instrucción-respuesta (Aya, ShareGPT4V, LLaVA). El conector de agrupación de atención aplica una agrupación 2x2 para reducir 729 tokens visuales por mosaico a 182 tokens, logrando una reducción de tokens de 4x con una pérdida mínima de rendimiento. La superposición de mosaicos con una superposición de aproximadamente el 30 % (112 píxeles, paso 266) y mosaicos de 378 × 378 conserva la información de los bordes.
Actuación
Obtiene la puntuación media más alta (72,3) en ocho pruebas de calidad de vídeo (VQA) entre los VLM de escala 2B, incluyendo MathVista (59,4), AI2D (80,8), ChartQA (79,5), DocVQA (90,6), InfoVQA (65,9), RealWorldQA (64,9), OCRBench (778) y MME (1582). Lidera la comprensión multimodal multilingüe con MMMB (78,8) y Multilingual MMBench (74,3), abarcando árabe, chino, inglés, portugués, ruso y turco. Excelente rendimiento de OCR con 778 en OCRBench (escala de 0 a 1000). Rendimiento competitivo en solo texto en MMLU (54,7) y HellaSwag (75,6), aunque muestra la degradación esperada en MMLU-Pro (30,3 frente a la base de 46,4) debido a la integración de visión y lenguaje. La reducción de tokens de 4× a partir de la agrupación de atención produce una reducción de 3,9× en los FLOP de prellenado de LLM y una reducción de 4× en la memoria caché de KV con un impacto mínimo en los puntajes de referencia.
Guía
El modelo está disponible en Hugging Face bajo la licencia CC-BY-NC-4.0 con ponderaciones y código de inferencia. Admite imágenes de resolución arbitraria mediante mosaico automático (hasta 12 mosaicos más la miniatura). Utilice el modo de pensamiento habilitando do_sample=True y una temperatura > 0 para tareas de razonamiento complejo. El modelo maneja una longitud de contexto de 32 K para conversaciones extensas. Para VQA multilingüe, el modelo admite 29 idiomas, incluyendo inglés, chino, árabe, alemán, español, francés, italiano, japonés, coreano, portugués, ruso, turco, vietnamita, tailandés, indonesio, hindi y bengalí. Es ideal para la comprensión de documentos, el análisis de gráficos/diagramas, tareas de OCR y la respuesta visual a preguntas multilingües. El modelo presenta limitaciones en tareas de conteo y razonamiento espacial detallado debido al enfoque de mosaico. Para una inferencia óptima, utilice la precisión bfloat16 en GPU compatibles con CUDA.
Blogs que mencionan este modelo



