Mitigar la brecha: mejorar la alineación intermodal en CLIP
jina-clip-v2: Vectores modelo (Embeddings) multilingües y multimodales para texto e imágenes
ReaderLM-V2: Modelo de lenguaje pequeño para HTML a Markdown y JSON
TIPS: Preentrenamiento de Texto-Imagen con Conciencia Espacial
Cut Cross-Entropy: Computación de Pérdida con Eficiencia de Memoria para Grandes Vocabularios
FlexPrefill: Atención Esparsa Consciente del Contexto para Secuencias Largas
Compresión eficaz de *Embeddings* (Embeddings) posteriores al entrenamiento mediante el control de la temperatura
La atención en los modelos de lenguaje grandes produce *Rerankers* (Reranker) eficientes de cero disparos
Puente y modelado de correlaciones en datos por pares para la optimización directa de preferencias
TAID: Destilación Interpolada Adaptativa Temporalmente para la Transferencia Eficiente de Conocimiento
SVD-LLM: Descomposición de Valores Singulares Consciente del Truncamiento para la Compresión de Modelos de Lenguaje Grandes
Vea Lo Que Se Le Dice: Sumidero de Atención Visual en Modelos Multimodales Grandes
Hacia la equivalencia semántica de la tokenización en LLM multimodal
Hymba: una arquitectura de cabeza híbrida para modelos de lenguaje pequeños
Evento
mayo 25, 2025
Lo que aprendimos en ICLR2025
Recopilamos algunos de los artículos más interesantes de ICLR 2025, que incluyen TIPS, FlexPrefill, Reordenadores de Cero Disparos (Zero-Shot Rerankers), SVD-LLM, Hymba, etc.
Jina AI • 21 minutos de lectura
ICLR 2025 es una de las conferencias de aprendizaje automático más grandes e influyentes del mundo, junto con NeurIPS e ICML como los tres principales lugares para la investigación de IA de alto impacto. Este año marcó un hito histórico ya que ICLR se celebró en Asia por primera vez, teniendo lugar en el Singapore EXPO del 24 al 28 de abril. El momento no podría haber sido más perfecto: solo meses después del "momento DeepSeek" a finales de enero de 2025 que envió ondas de choque a través de Silicon Valley y demostró el rápido avance de la investigación de IA de China. Combinado con el nuevo acuerdo de exención mutua de visa de 30 días entre China y Singapur que entró en vigor en febrero de 2024, fuimos testigos de un aumento sin precedentes en la participación china en la conferencia.
Este año, nuestro equipo estaba emocionado de hacer el viaje a Singapur, con Sedigheh Eslami, Andreas Koukounas, Wang Feng y el CEO Han Xiao presentando tres artículos de investigación que muestran nuestra última investigación sobre jina-clip-v2 y ReaderLM-v2 para una mejor búsqueda. Si bien el resto del mundo de la IA parece estar encerrado en una carrera armamentista por modelos cada vez más grandes, decidimos nadar contra la norma, demostrando que los modelos más pequeños e inteligentes pueden superar con creces su peso cuando se acierta con el diseño.
Así que toma tu café, ponte cómodo y exploremos algunas de las investigaciones de ICLR que nos parecieron interesantes, comenzando con nuestra propia opinión sobre por qué lo pequeño puede ser poderoso.
tagMitigar la brecha: mejorar la alineación intermodal en CLIP
Los modelos CLIP sobresalen en las tareas de imagen-texto, pero sufren de una "brecha de modalidad": los vectores modelo (Embeddings) de imagen y texto se agrupan en regiones separadas, lo que limita el rendimiento. Este trabajo, dirigido por nuestra pasante Sedigheh Eslami durante su doctorado en el Hasso Plattner Institute, aborda este problema fundamental.
Descubrimos que la traducción simple de vectores rompe la estructura de los vectores modelo (Embeddings). En cambio, AlignCLIP utiliza parámetros de codificador compartidos con objetivos de separación semánticamente regularizados. Este enfoque dual reduce con éxito la brecha de modalidad al tiempo que mejora el rendimiento en las tareas de ajuste fino y cero disparos.
Conclusiones:
La brecha de modalidad es un cuello de botella crítico en el rendimiento de CLIP
El intercambio de parámetros + la separación semántica une eficazmente las diferencias modales
El enfoque ofrece ganancias medibles en las evaluaciones posteriores
tagjina-clip-v2: Vectores modelo (Embeddings) multilingües y multimodales para texto e imágenes
Este es el documento detrás de jina-clip-v2, un modelo de vector modelo (Embedding) multimodal multilingüe que admite tareas solo de texto e intermodales utilizando un enfoque de aprendizaje contrastivo multietapa y multitarea. El modelo combina un codificador de texto (Jina XLM-RoBERTa, 561 millones de parámetros) y un codificador de visión (EVA02-L14, 304 millones de parámetros) para un total de 865 millones de parámetros. Entrenamos con textos multilingües de 29 idiomas no ingleses y documentos visualmente ricos, empleando Matryoshka Representation Learning para una dimensionalidad de vector modelo (Embedding) flexible.
Conclusiones:
Mezclar datos de imagen-texto y texto-texto en lotes individuales con parámetros de temperatura compartidos funciona peor que el entrenamiento separado debido a la asimetría de la información de modalidad.
El entrenamiento para la alineación intermodal compromete inherentemente la calidad del vector modelo (Embedding) de texto puro, lo que muestra una compensación fundamental.
Recortar los vectores modelo (Embeddings) de 1024 a 256 dimensiones causa menos del 1% de pérdida de rendimiento, lo que revela una ineficiencia masiva en las representaciones de alta dimensión.
tagReaderLM-V2: Modelo de lenguaje pequeño para HTML a Markdown y JSON
Este es el artículo detrás de ReaderLM-v2, un modelo de lenguaje compacto de 1500 millones de parámetros diseñado para la extracción eficiente de contenido web. El modelo procesa documentos de hasta 512 000 *tokens* (Tokens), transformando HTML desordenado en formatos Markdown o JSON limpios. Nuestro enfoque combina un *pipeline* de síntesis de datos de tres etapas (DRAFT-REFINE-CRITIQUE) que genera datos de entrenamiento de alta calidad a través del refinamiento iterativo con un marco de entrenamiento unificado que combina el preentrenamiento continuo, el ajuste fino supervisado, la optimización directa de preferencias y el ajuste iterativo de auto-juego. ReaderLM-v2 supera a GPT-4o y a otros modelos más grandes en un 15-20% en los *benchmarks*, destacando especialmente en documentos que superan los 100 000 *tokens*, al tiempo que mantiene requisitos computacionales significativamente más bajos.
Conclusiones:
Un modelo de 1500 millones de parámetros supera a los modelos GPT-4o y de 32 000 millones en un 15-20% en la extracción de HTML, lo que demuestra que el ajuste fino específico de la tarea supera la escala bruta para la experiencia en el dominio.
El modelo genera sus propios datos de entrenamiento en la etapa 4 de "auto-juego", creando mejores conjuntos de datos que los seleccionados por humanos y mejorando continuamente el rendimiento a través de la retroalimentación recursiva.
El modelo sufrió una repetición catastrófica de *tokens* durante el entrenamiento, pero la adición de pérdida contrastiva para fomentar representaciones discriminativas eliminó por completo este problema de degeneración.
tagTIPS: Preentrenamiento de Texto-Imagen con Conciencia Espacial
Los modelos de visión-lenguaje entrenados con aprendizaje contrastivo sobresalen en la alineación global de imagen-texto, pero fallan en las tareas de comprensión espacial densa. TIPS combina el aprendizaje contrastivo con el modelado de imágenes enmascaradas y utiliza subtítulos generados sintéticamente que codifican relaciones espaciales, creando *embeddings* (Vectoriales) adecuados tanto para la comprensión densa como para la global sin un ajuste fino específico de la tarea. El enfoque demuestra cómo la conciencia espacial se puede incorporar en los modelos de *embedding* para una mejor comprensión de documentos y aplicaciones de recuperación multimodal.
Conclusiones:
Los subtítulos sintéticos con descripciones espaciales proporcionan señales de entrenamiento más ricas que los subtítulos web ruidosos para aprender representaciones con conciencia espacial
La combinación del aprendizaje contrastivo de imagen-texto con objetivos auto-supervisados cierra la brecha entre la comprensión global y la densa
El rendimiento inmediato en diversas tareas elimina la necesidad de un ajuste fino especializado en diferentes aplicaciones de visión
tagCut Cross-Entropy: Computación de Pérdida con Eficiencia de Memoria para Grandes Vocabularios
La computación de entropía cruzada domina el uso de memoria en los modelos de lenguaje de gran vocabulario, requiriendo la materialización de matrices *logit* proporcionales a batch_size × vocabulary_size. CCE reformula el cálculo para computar solo los componentes necesarios sobre la marcha utilizando *kernels* CUDA personalizados, reduciendo el consumo de memoria de gigabytes a megabytes mientras se mantienen dinámicas de entrenamiento idénticas. Esto permite el entrenamiento de modelos de *embedding* y *reranking* (Reorganización) con vocabularios más grandes en *hardware* limitado, particularmente beneficioso para aplicaciones multilingües y específicas de dominio.
Conclusiones:
La computación de pérdida de entropía cruzada puede consumir el 90% de la memoria de entrenamiento para modelos de gran vocabulario, convirtiéndose en el principal cuello de botella
La computación sobre la marcha de los términos log-sum-exp elimina la necesidad de materializar matrices *logit* completas sin aproximaciones matemáticas
La implementación de *kernel* personalizado permite una reducción dramática de la memoria mientras se preservan las propiedades de convergencia exactas
tagFlexPrefill: Atención Esparsa Consciente del Contexto para Secuencias Largas
La inferencia del transformador de secuencia larga sufre de complejidad de atención cuadrática. FlexPrefill determina dinámicamente los patrones de atención dispersos por encabezado utilizando la divergencia de Jensen-Shannon y asigna adaptativamente el presupuesto computacional en función de las puntuaciones de atención acumulativas, logrando aceleraciones significativas con una pérdida de precisión mínima en diversos tipos de contenido. El método permite el procesamiento eficiente de documentos largos para sistemas de búsqueda y recuperación, lo que permite que los modelos de lenguaje más pequeños manejen contextos extendidos para una mejor comprensión del documento.
Conclusiones:
Los patrones de atención dispersos dinámicos adaptados al tipo de contenido superan a las estrategias de dispersión fija en diferentes características de entrada.
La asignación de presupuesto adaptable por encabezado basada en la acumulación de puntuación de atención optimiza la distribución de la computación en tiempo real.
La dispersión consciente del contexto logra una aceleración de 13,7× con una pérdida de precisión del 0,1% sin necesidad de volver a entrenar el modelo.
tagCompresión eficaz de *Embeddings* (Embeddings) posteriores al entrenamiento mediante el control de la temperatura
El escalado de la temperatura en el aprendizaje contrastivo influye significativamente en la dimensionalidad intrínseca de los *embeddings* (Embeddings) aprendidos, con temperaturas más bajas que producen representaciones más compresibles. El artículo demuestra que los métodos de agregación de temperatura pueden reducir las dimensiones de los *embeddings* (Embeddings) en un orden de magnitud, manteniendo al mismo tiempo el rendimiento de la recuperación, lo que revela la compensación entre la eficacia de la agrupación y la precisión de la recuperación. Esto permite el despliegue eficiente de sistemas de recuperación densa donde las limitaciones de memoria son críticas para las aplicaciones de producción.
Conclusiones:
Los valores de temperatura más bajos en el entrenamiento contrastivo producen *embeddings* (Embeddings) con una dimensionalidad intrínseca más baja que se comprimen de forma más eficaz.
Las técnicas de agregación de temperatura logran ratios de compresión de 10× con una degradación mínima de la calidad en las tareas de recuperación.
El control sistemático de la temperatura durante el entrenamiento proporciona un mecanismo directo para optimizar la compensación entre compresión y rendimiento.
tagLa atención en los modelos de lenguaje grandes produce *Rerankers* (Reranker) eficientes de cero disparos
La re-clasificación en contexto (ICR) aprovecha los cambios en el patrón de atención en los LLM para realizar la re-clasificación de documentos sin generación de texto, reduciendo la complejidad computacional de O(N log N) a O(1). El método agrega pesos de atención a través de capas y encabezados para calcular las puntuaciones de relevancia, con calibración de consulta sin contenido para mitigar los sesgos del LLM. Este enfoque permite una re-clasificación eficiente con modelos de peso abierto, eliminando la necesidad de un ajuste fino especializado o procesos de generación costosos.
Conclusiones:
Los patrones de atención en los LLM contienen señales suficientes para la re-clasificación eficaz de documentos sin necesidad de generación de texto.
La calibración de consultas sin contenido mitiga con éxito los sesgos intrínsecos en los mecanismos de puntuación basados en la atención.
ICR logra un rendimiento y una eficiencia superiores en comparación con los métodos generativos, particularmente en tareas complejas de recuperación multi-salto.
tagPuente y modelado de correlaciones en datos por pares para la optimización directa de preferencias
El DPO tradicional sufre de correlaciones débiles entre las respuestas elegidas y las rechazadas en los pares de preferencias, lo que limita la eficacia de la alineación. BMC aborda esto sintetizando respuestas pseudo-preferidas que interpolan entre las respuestas ganadoras y perdedoras, luego aplica el modelado de correlación a nivel de "词元 (Tokens)" utilizando la confianza del modelo de política. El enfoque de dos fases primero une los pares de preferencias a través de modificaciones específicas, luego modela las correlaciones de grano fino durante el entrenamiento para mejorar la calidad de la señal de aprendizaje.
Conclusiones:
Las correlaciones débiles entre las respuestas elegidas y las rechazadas en los datos de preferencias limitan significativamente la eficacia del DPO para la alineación del modelo
La síntesis de respuestas pseudo-preferidas como interpolaciones entre pares de preferencias proporciona señales de aprendizaje más ricas para la optimización
El modelado de correlación a nivel de "词元 (Tokens)" que utiliza la confianza de la política pondera dinámicamente las señales de entrenamiento para capturar variaciones matizadas en los datos de preferencias
tagTAID: Destilación Interpolada Adaptativa Temporalmente para la Transferencia Eficiente de Conocimiento
La destilación de conocimiento enfrenta desafíos debido a las brechas de capacidad, el promedio de modo y el colapso de modo al transferir conocimiento entre modelos grandes y pequeños. TAID introduce un maestro intermedio dinámico que interpola entre las distribuciones del estudiante y del maestro, adaptando gradualmente la distribución objetivo en función del progreso del entrenamiento. Este enfoque previene el colapso de modo a través de garantías teóricas y logra un rendimiento superior en varios tamaños de modelo, lo que permite el desarrollo de modelos de lenguaje compactos pero capaces.
Conclusiones:
Los maestros intermedios dinámicos que se adaptan durante el entrenamiento proporcionan trayectorias de aprendizaje más suaves en comparación con la destilación de maestros fijos
TAID previene el colapso de modo a través de la interpolación adaptativa al tiempo que equilibra la transferencia de conocimiento a través de diferentes brechas de capacidad
El método permite el entrenamiento de modelos compactos de última generación sin requerir arquitecturas especializadas o un ajuste extenso de hiperparámetros
tagSVD-LLM: Descomposición de Valores Singulares Consciente del Truncamiento para la Compresión de Modelos de Lenguaje Grandes
Los métodos de compresión basados en SVD existentes no tienen en cuenta las activaciones de entrada durante la aproximación y carecen de un ajuste fino posterior al truncamiento. SVD-LLM incorpora un blanqueamiento de datos consciente del truncamiento que considera las distribuciones de activación y aplica un ajuste fino basado en LoRA después de la compresión. El método establece conexiones teóricas entre los valores singulares y la pérdida de compresión, lo que permite tomar decisiones de compresión más fundamentadas que superan los enfoques de poda estructurada y cuantificación.
Conclusiones:
El blanqueamiento de datos consciente del truncamiento que tiene en cuenta las activaciones de entrada mejora significativamente la eficacia de la compresión SVD en comparación con los métodos agnósticos a la activación.
El ajuste fino LoRA posterior a la compresión compensa la degradación de la precisión al tiempo que mantiene los beneficios de la factorización de bajo rango.
El análisis teórico que vincula los valores singulares con la pérdida de compresión permite tomar decisiones de truncamiento fundamentadas que superan los enfoques heurísticos.
tagVea Lo Que Se Le Dice: Sumidero de Atención Visual en Modelos Multimodales Grandes
Los modelos multimodales grandes exhiben un fenómeno llamado "sumidero de atención visual" donde consistentemente asignan altos pesos de atención a tokens visuales específicos que son irrelevantes para los tokens de texto correspondientes. Estos tokens visuales irrelevantes emergen de la activación masiva en dimensiones de estado oculto específicas, similar a los sumideros de atención en los modelos de lenguaje. El método de Redistribución de la Atención Visual (VAR) identifica los encabezados de atención centrados en la imagen y redistribuye el presupuesto de atención de los tokens de sumidero al contenido visual significativo, mejorando el rendimiento en las tareas de visión-lenguaje sin necesidad de capacitación adicional.
Conclusiones clave:
Los tokens de sumidero visual se pueden identificar por magnitudes de activación extremas en dimensiones fijas heredadas de los modelos de lenguaje base
La eliminación de los tokens de sumidero visual no afecta el rendimiento del modelo a pesar de recibir altos pesos de atención, lo que indica un desperdicio de recursos computacionales
VAR redistribuye la atención de los tokens de sumidero al contenido visual significativo, mejorando el rendimiento en visión-lenguaje general, la reducción de alucinaciones y las tareas centradas en la visión
tagHacia la equivalencia semántica de la tokenización en LLM multimodal
Los métodos tradicionales de tokenización de visión en los LLMs multimodales fragmentan la entrada visual utilizando parches fijos, corrompiendo la integridad semántica y conduciendo a una alineación visión-lenguaje deficiente. SeTok (Semantic-Equivalent Vision Tokenizer) aborda esto a través de la agrupación dinámica que agrupa las características visuales en unidades semánticas coherentes, con un recuento de tokens que se adapta a la complejidad de la imagen. El sistema utiliza objetivos de entrenamiento duales: pérdida contrastiva para la alineación semántica con el lenguaje y pérdida de reconstrucción para preservar los detalles a nivel de píxel para la reconstrucción de la imagen.
Conclusiones clave:
La tokenización de parche fijo interrumpe la integridad semántica visual al fragmentar los objetos a través de límites de parche arbitrarios
Los algoritmos de agrupación dinámica pueden determinar adaptativamente los recuentos de tokens óptimos en función de la complejidad semántica de la imagen en lugar de las estructuras de cuadrícula fija
El entrenamiento de objetivos duales equilibra la alineación semántica con el lenguaje al tiempo que preserva suficientes detalles visuales para las tareas de reconstrucción
tagHymba: una arquitectura de cabeza híbrida para modelos de lenguaje pequeños
Hymba introduce una arquitectura de cabeza híbrida que combina mecanismos de atención de transformador con modelos de espacio de estado (SSMs) en paralelo dentro de cada capa, lo que permite la recuperación simultánea de alta resolución y la resumen eficiente del contexto. La arquitectura incorpora meta tokens aprendibles, intercambio de clave-valor entre capas y atención de ventana deslizante parcial para lograr tamaños de caché compactos. Hymba-1.5B supera a todos los modelos sub-2B y supera a Llama-3.2-3B al tiempo que logra una reducción de caché de 11.67 × y una mejora del rendimiento de 3.49 ×.
Conclusiones clave:
La arquitectura de cabeza híbrida paralela supera el apilamiento secuencial de componentes de atención y SSM al permitir el procesamiento simultáneo de mecanismos complementarios
Los meta tokens aprendibles actúan como conocimiento mundial comprimido y alivian la carga de "obligado a asistir" de los mecanismos de atención softmax
Las optimizaciones de intercambio de clave-valor entre capas y atención de ventana deslizante logran reducciones dramáticas del tamaño de la caché sin sacrificar el rendimiento