Lo que aprendimos en ICLR2025

ICLR 2025 es una de las conferencias de aprendizaje automático más grandes e influyentes del mundo, junto con NeurIPS e ICML como los tres principales lugares para la investigación de IA de alto impacto. Este año marcó un hito histórico ya que ICLR se celebró en Asia por primera vez, teniendo lugar en el Singapore EXPO del 24 al 28 de abril. El momento no podría haber sido más perfecto: solo meses después del "momento DeepSeek" a finales de enero de 2025 que envió ondas de choque a través de Silicon Valley y demostró el rápido avance de la investigación de IA de China. Combinado con el nuevo acuerdo de exención mutua de visa de 30 días entre China y Singapur que entró en vigor en febrero de 2024, fuimos testigos de un aumento sin precedentes en la participación china en la conferencia.

Este año, nuestro equipo estaba emocionado de hacer el viaje a Singapur, con Sedigheh Eslami, Andreas Koukounas, Wang Feng y el CEO Han Xiao presentando tres artículos de investigación que muestran nuestra última investigación sobre jina-clip-v2 y ReaderLM-v2 para una mejor búsqueda. Si bien el resto del mundo de la IA parece estar encerrado en una carrera armamentista por modelos cada vez más grandes, decidimos nadar contra la norma, demostrando que los modelos más pequeños e inteligentes pueden superar con creces su peso cuando se acierta con el diseño.

Así que toma tu café, ponte cómodo y exploremos algunas de las investigaciones de ICLR que nos parecieron interesantes, comenzando con nuestra propia opinión sobre por qué lo pequeño puede ser poderoso.

Mitigate the Gap: Investigating Approaches for Improving Cross-Modal Alignment in CLIP

Contrastive Language--Image Pre-training (CLIP) has manifested remarkable improvements in zero-shot classification and cross-modal vision-language tasks. Yet, from a geometrical point of view, the CLIP embedding space has been found to have a pronounced modality gap. This gap renders the embedding space overly sparse and disconnected, with different modalities being densely distributed in distinct subregions of the hypersphere. In this work, we aim at answering three main questions: 1. Does sharing the parameter space between the multi-modal encoders reduce the modality gap? 2. Can the gap be mitigated by pushing apart the uni-modal embeddings via intra-modality separation? 3. How do these gap reduction approaches affect the downstream performance? We design AlignCLIP, in order to answer these questions and through extensive experiments, we show that AlignCLIP achieves noticeable enhancements in the cross-modal alignment of the embeddings, and thereby, reduces the modality gap, while improving the performance across several zero-shot and fine-tuning downstream evaluations.

arXiv.orgSedigheh Eslami

Los modelos CLIP sobresalen en las tareas de imagen-texto, pero sufren de una "brecha de modalidad": los vectores modelo (Embeddings) de imagen y texto se agrupan en regiones separadas, lo que limita el rendimiento. Este trabajo, dirigido por nuestra pasante Sedigheh Eslami durante su doctorado en el Hasso Plattner Institute, aborda este problema fundamental.

Descubrimos que la traducción simple de vectores rompe la estructura de los vectores modelo (Embeddings). En cambio, AlignCLIP utiliza parámetros de codificador compartidos con objetivos de separación semánticamente regularizados. Este enfoque dual reduce con éxito la brecha de modalidad al tiempo que mejora el rendimiento en las tareas de ajuste fino y cero disparos.

Conclusiones:

La brecha de modalidad es un cuello de botella crítico en el rendimiento de CLIP
El intercambio de parámetros + la separación semántica une eficazmente las diferencias modales
El enfoque ofrece ganancias medibles en las evaluaciones posteriores

tagjina-clip-v2: Vectores modelo (Embeddings) multilingües y multimodales para texto e imágenes

jina-clip-v2: Multilingual Multimodal Embeddings for Text and Images

Contrastive Language-Image Pretraining (CLIP) has been widely used for crossmodal information retrieval and multimodal understanding tasks. However, CLIP models are mainly optimized for crossmodal vision-language tasks and underperform in single-mode text tasks. Moreover, these models are often trained on English datasets and therefore lack multilingual understanding. Additionally, from a visual understanding perspective, previous CLIP-based models exhibit insufficient understanding of visually rich documents. In this work, we propose jina-clip-v2, a contrastive vision-language model trained on text pairs, triplets and image-text pairs via a multi-task and multi-stage contrastive learning paradigm in order to support both text-only and crossmodal tasks. We employ a multilingual text encoder and expand the training dataset to include multilingual texts from 29 non-English languages, including Hindi, Chinese, German, French, and others, as well as images of visually rich documents. We evaluate the model’s performance and show that jina-clip-v2 achieves notable improvements over state-of-the-art CLIP-based models in zero-shot text-only retrieval, semantic textual similarity, and crossmodal retrieval tasks in both English and multilingual settings. jina-clip-v2 also provides for flexibility in embedding dimensionality, enabling users to select the granularity of the representations. jina-clip-v2 is publicly available at https://huggingface.co/jinaai/jina-clip-v2.

arXiv.orgAndreas Koukounas

Este es el documento detrás de jina-clip-v2, un modelo de vector modelo (Embedding) multimodal multilingüe que admite tareas solo de texto e intermodales utilizando un enfoque de aprendizaje contrastivo multietapa y multitarea. El modelo combina un codificador de texto (Jina XLM-RoBERTa, 561 millones de parámetros) y un codificador de visión (EVA02-L14, 304 millones de parámetros) para un total de 865 millones de parámetros. Entrenamos con textos multilingües de 29 idiomas no ingleses y documentos visualmente ricos, empleando Matryoshka Representation Learning para una dimensionalidad de vector modelo (Embedding) flexible.

Conclusiones:

Mezclar datos de imagen-texto y texto-texto en lotes individuales con parámetros de temperatura compartidos funciona peor que el entrenamiento separado debido a la asimetría de la información de modalidad.
El entrenamiento para la alineación intermodal compromete inherentemente la calidad del vector modelo (Embedding) de texto puro, lo que muestra una compensación fundamental.
Recortar los vectores modelo (Embeddings) de 1024 a 256 dimensiones causa menos del 1% de pérdida de rendimiento, lo que revela una ineficiencia masiva en las representaciones de alta dimensión.

tagReaderLM-V2: Modelo de lenguaje pequeño para HTML a Markdown y JSON

ReaderLM-v2: Small Language Model for HTML to Markdown and JSON

We present ReaderLM-v2, a compact 1.5 billion parameter language model designed for efficient web content extraction. Our model processes documents up to 512K tokens, transforming messy HTML into clean Markdown or JSON formats with high accuracy -- making it an ideal tool for grounding large language models. The model’s effectiveness results from two key innovations: (1) a three-stage data synthesis pipeline that generates high quality, diverse training data by iteratively drafting, refining, and critiquing web content extraction; and (2) a unified training framework combining continuous pre-training with multi-objective optimization. Intensive evaluation demonstrates that ReaderLM-v2 outperforms GPT-4o-2024-08-06 and other larger models by 15-20\% on carefully curated benchmarks, particularly excelling at documents exceeding 100K tokens, while maintaining significantly lower computational requirements.

arXiv.orgFeng Wang

Este es el artículo detrás de ReaderLM-v2, un modelo de lenguaje compacto de 1500 millones de parámetros diseñado para la extracción eficiente de contenido web. El modelo procesa documentos de hasta 512 000 *tokens* (Tokens), transformando HTML desordenado en formatos Markdown o JSON limpios. Nuestro enfoque combina un *pipeline* de síntesis de datos de tres etapas (DRAFT-REFINE-CRITIQUE) que genera datos de entrenamiento de alta calidad a través del refinamiento iterativo con un marco de entrenamiento unificado que combina el preentrenamiento continuo, el ajuste fino supervisado, la optimización directa de preferencias y el ajuste iterativo de auto-juego. ReaderLM-v2 supera a GPT-4o y a otros modelos más grandes en un 15-20% en los *benchmarks*, destacando especialmente en documentos que superan los 100 000 *tokens*, al tiempo que mantiene requisitos computacionales significativamente más bajos.

Conclusiones:

Un modelo de 1500 millones de parámetros supera a los modelos GPT-4o y de 32 000 millones en un 15-20% en la extracción de HTML, lo que demuestra que el ajuste fino específico de la tarea supera la escala bruta para la experiencia en el dominio.
El modelo genera sus propios datos de entrenamiento en la etapa 4 de "auto-juego", creando mejores conjuntos de datos que los seleccionados por humanos y mejorando continuamente el rendimiento a través de la retroalimentación recursiva.
El modelo sufrió una repetición catastrófica de *tokens* durante el entrenamiento, pero la adición de pérdida contrastiva para fomentar representaciones discriminativas eliminó por completo este problema de degeneración.

tagTIPS: Preentrenamiento de Texto-Imagen con Conciencia Espacial

TIPS: Preentrenamiento de Texto-Imagen con Conciencia Espacial

Si bien el aprendizaje de la representación de imagen-texto se ha vuelto muy popular en los últimos años, los modelos existentes tienden a carecer de conciencia espacial y tienen una aplicabilidad directa limitada para tareas de comprensión densa. Por esta razón, el preentrenamiento auto-supervisado solo con imágenes sigue siendo el método preferido para muchas aplicaciones de visión densa (por ejemplo, estimación de profundidad, segmentación semántica), a pesar de la falta de señales de supervisión explícitas. En este artículo, cerramos esta brecha entre el aprendizaje de imagen-texto y el auto-supervisado, proponiendo un nuevo modelo de imagen-texto de propósito general, que se puede utilizar de forma eficaz para tareas de visión densa y global. Nuestro método, al que nos referimos como Preentrenamiento de Texto-Imagen con Conciencia Espacial (TIPS), aprovecha dos ideas simples y eficaces. Primero, en la supervisión textual: revelamos que reemplazar los subtítulos de imágenes web ruidosas por descripciones textuales generadas sintéticamente aumenta significativamente el rendimiento de la comprensión densa, debido a una señal mucho más rica para el aprendizaje de representaciones con conciencia espacial. Proponemos un método de entrenamiento adaptado que combina subtítulos ruidosos y sintéticos, lo que resulta en mejoras en las tareas de comprensión densa y global. En segundo lugar, en la técnica de aprendizaje: proponemos combinar el aprendizaje contrastivo de imagen-texto con el modelado de imágenes enmascaradas auto-supervisado, para fomentar la coherencia espacial, desbloqueando mejoras sustanciales para las aplicaciones posteriores. Basándonos en estas dos ideas, escalamos nuestro modelo utilizando la arquitectura *transformer*, entrenado en un conjunto curado de imágenes públicas. Nuestros experimentos se llevan a cabo en 8 tareas que involucran 16 conjuntos de datos en total, lo que demuestra un sólido rendimiento inmediato tanto en la comprensión densa como en la global, para varias tareas solo de imagen e imagen-texto. El código y los modelos se publican en https://github.com/google-deepmind/tips.

arXiv.orgKevis-Kokitsi Maninis

Los modelos de visión-lenguaje entrenados con aprendizaje contrastivo sobresalen en la alineación global de imagen-texto, pero fallan en las tareas de comprensión espacial densa. TIPS combina el aprendizaje contrastivo con el modelado de imágenes enmascaradas y utiliza subtítulos generados sintéticamente que codifican relaciones espaciales, creando *embeddings* (Vectoriales) adecuados tanto para la comprensión densa como para la global sin un ajuste fino específico de la tarea. El enfoque demuestra cómo la conciencia espacial se puede incorporar en los modelos de *embedding* para una mejor comprensión de documentos y aplicaciones de recuperación multimodal.

Conclusiones:

Los subtítulos sintéticos con descripciones espaciales proporcionan señales de entrenamiento más ricas que los subtítulos web ruidosos para aprender representaciones con conciencia espacial
La combinación del aprendizaje contrastivo de imagen-texto con objetivos auto-supervisados cierra la brecha entre la comprensión global y la densa
El rendimiento inmediato en diversas tareas elimina la necesidad de un ajuste fino especializado en diferentes aplicaciones de visión

tagCut Cross-Entropy: Computación de Pérdida con Eficiencia de Memoria para Grandes Vocabularios

Reduce Tus Pérdidas en Modelos de Lenguaje de Gran Vocabulario

A medida que los modelos de lenguaje crecen cada vez más, también lo hacen sus vocabularios. Esto ha desplazado la huella de memoria de los LLM durante el entrenamiento de forma desproporcionada a una sola capa: la entropía cruzada en el cálculo de la pérdida. La entropía cruzada construye una matriz *logit* con entradas para cada par de *tokens* de entrada y elementos de vocabulario y, para los modelos pequeños, consume un orden de magnitud más memoria que el resto del LLM combinado. Proponemos Cut Cross-Entropy (CCE), un método que calcula la pérdida de entropía cruzada sin materializar los *logits* para todos los *tokens* en la memoria global. Más bien, CCE solo calcula el *logit* para el *token* correcto y evalúa el log-sum-exp sobre todos los *logits* sobre la marcha. Implementamos un *kernel* personalizado que realiza las multiplicaciones de matrices y la reducción log-sum-exp sobre el vocabulario en la memoria *flash*, lo que hace que el consumo de memoria global para el cálculo de la entropía cruzada sea insignificante. Esto tiene un efecto dramático. Tomando el modelo Gemma 2 (2B) como ejemplo, CCE reduce la huella de memoria del cálculo de la pérdida de 24 GB a 1 MB, y el consumo total de memoria en tiempo de entrenamiento del encabezado del clasificador de 28 GB a 1 GB. Para mejorar el rendimiento de CCE, aprovechamos la escasez inherente de *softmax* y proponemos omitir elementos del cálculo del gradiente que tienen una contribución insignificante (es decir, por debajo de la precisión numérica) al gradiente. Los experimentos demuestran que la dramática reducción en el consumo de memoria se logra sin sacrificar la velocidad de entrenamiento o la convergencia.

arXiv.orgErik Wijmans

La computación de entropía cruzada domina el uso de memoria en los modelos de lenguaje de gran vocabulario, requiriendo la materialización de matrices *logit* proporcionales a batch_size × vocabulary_size. CCE reformula el cálculo para computar solo los componentes necesarios sobre la marcha utilizando *kernels* CUDA personalizados, reduciendo el consumo de memoria de gigabytes a megabytes mientras se mantienen dinámicas de entrenamiento idénticas. Esto permite el entrenamiento de modelos de *embedding* y *reranking* (Reorganización) con vocabularios más grandes en *hardware* limitado, particularmente beneficioso para aplicaciones multilingües y específicas de dominio.

Conclusiones:

La computación de pérdida de entropía cruzada puede consumir el 90% de la memoria de entrenamiento para modelos de gran vocabulario, convirtiéndose en el principal cuello de botella
La computación sobre la marcha de los términos log-sum-exp elimina la necesidad de materializar matrices *logit* completas sin aproximaciones matemáticas
La implementación de *kernel* personalizado permite una reducción dramática de la memoria mientras se preservan las propiedades de convergencia exactas

tagFlexPrefill: Atención Esparsa Consciente del Contexto para Secuencias Largas

FlexPrefill: Un Mecanismo de Atención Esparsa Consciente del Contexto para la Inferencia Eficiente de Secuencias Largas

Los modelos de lenguaje grandes (LLM) se enfrentan a desafíos computacionales durante la inferencia de secuencias largas, especialmente en la fase de prellenado de atención, donde la complejidad crece cuadráticamente con la longitud del *prompt* (prompt). Los esfuerzos anteriores para mitigar estos desafíos se han basado en patrones de atención dispersos fijos o en la identificación de patrones de atención dispersos basados en casos limitados. Sin embargo, estos métodos carecían de la flexibilidad necesaria para adaptarse de manera eficiente a las diferentes demandas de entrada. En este artículo, presentamos FlexPrefill, un mecanismo de prellenado disperso flexible que ajusta dinámicamente los patrones de atención dispersos y el presupuesto computacional en tiempo real para satisfacer los requisitos específicos de cada entrada y encabezado de atención. La flexibilidad de nuestro método se demuestra a través de dos innovaciones clave: 1) Determinación de patrones dispersos conscientes de la consulta: al medir la divergencia de Jensen-Shannon, este componente cambia adaptativamente entre patrones de atención diversos específicos de la consulta y patrones de atención predefinidos. 2) Selección de índice basada en la atención acumulativa: este componente selecciona dinámicamente los índices de consulta-clave que se calcularán en función de diferentes patrones de atención, asegurando que la suma de las puntuaciones de atención cumpla con un umbral predefinido. FlexPrefill optimiza adaptativamente el patrón disperso y la relación dispersa de cada encabezado de atención basándose en el *prompt* (prompt), lo que mejora la eficiencia en las tareas de inferencia de secuencias largas. Los resultados experimentales muestran mejoras significativas tanto en velocidad como en precisión con respecto a los métodos anteriores, lo que proporciona una solución más flexible y eficiente para la inferencia de LLM.

arXiv.orgXunhao Lai

La inferencia del transformador de secuencia larga sufre de complejidad de atención cuadrática. FlexPrefill determina dinámicamente los patrones de atención dispersos por encabezado utilizando la divergencia de Jensen-Shannon y asigna adaptativamente el presupuesto computacional en función de las puntuaciones de atención acumulativas, logrando aceleraciones significativas con una pérdida de precisión mínima en diversos tipos de contenido. El método permite el procesamiento eficiente de documentos largos para sistemas de búsqueda y recuperación, lo que permite que los modelos de lenguaje más pequeños manejen contextos extendidos para una mejor comprensión del documento.

Conclusiones:

Los patrones de atención dispersos dinámicos adaptados al tipo de contenido superan a las estrategias de dispersión fija en diferentes características de entrada.
La asignación de presupuesto adaptable por encabezado basada en la acumulación de puntuación de atención optimiza la distribución de la computación en tiempo real.
La dispersión consciente del contexto logra una aceleración de 13,7× con una pérdida de precisión del 0,1% sin necesidad de volver a entrenar el modelo.

tagCompresión eficaz de Embeddings (Embeddings) posteriores al entrenamiento mediante el control de la temperatura

Effective post-training embedding compression via temperature...

Fixed-size learned representations (dense representations, or embeddings) are widely used in many machine learning applications across language, vision or speech modalities. This paper investigates…

OpenReview.netGeorgiana Dinu

El escalado de la temperatura en el aprendizaje contrastivo influye significativamente en la dimensionalidad intrínseca de los *embeddings* (Embeddings) aprendidos, con temperaturas más bajas que producen representaciones más compresibles. El artículo demuestra que los métodos de agregación de temperatura pueden reducir las dimensiones de los *embeddings* (Embeddings) en un orden de magnitud, manteniendo al mismo tiempo el rendimiento de la recuperación, lo que revela la compensación entre la eficacia de la agrupación y la precisión de la recuperación. Esto permite el despliegue eficiente de sistemas de recuperación densa donde las limitaciones de memoria son críticas para las aplicaciones de producción.

Conclusiones:

Los valores de temperatura más bajos en el entrenamiento contrastivo producen *embeddings* (Embeddings) con una dimensionalidad intrínseca más baja que se comprimen de forma más eficaz.
Las técnicas de agregación de temperatura logran ratios de compresión de 10× con una degradación mínima de la calidad en las tareas de recuperación.
El control sistemático de la temperatura durante el entrenamiento proporciona un mecanismo directo para optimizar la compensación entre compresión y rendimiento.

tagLa atención en los modelos de lenguaje grandes produce Rerankers (Reranker) eficientes de cero disparos

Attention in Large Language Models Yields Efficient Zero-Shot Re-Rankers

Information retrieval (IR) systems have played a vital role in modern digital life and have cemented their continued usefulness in this new era of generative AI via retrieval-augmented generation. With strong language processing capabilities and remarkable versatility, large language models (LLMs) have become popular choices for zero-shot re-ranking in IR systems. So far, LLM-based re-ranking methods rely on strong generative capabilities, which restricts their use to either specialized or powerful proprietary models. Given these restrictions, we ask: is autoregressive generation necessary and optimal for LLMs to perform re-ranking? We hypothesize that there are abundant signals relevant to re-ranking within LLMs that might not be used to their full potential via generation. To more directly leverage such signals, we propose in-context re-ranking (ICR), a novel method that leverages the change in attention pattern caused by the search query for accurate and efficient re-ranking. To mitigate the intrinsic biases in LLMs, we propose a calibration method using a content-free query. Due to the absence of generation, ICR only requires two (

O(1)

) forward passes to re-rank

N

documents, making it substantially more efficient than generative re-ranking methods that require at least

O(N)

forward passes. Our novel design also enables ICR to be applied to any LLM without specialized training while guaranteeing a well-formed ranking. Extensive experiments with two popular open-weight LLMs on standard single-hop and multi-hop information retrieval benchmarks show that ICR outperforms RankGPT while cutting the latency by more than 60% in practice. Through detailed analyses, we show that ICR’s performance is specially strong on tasks that require more complex re-ranking signals. Our findings call for further exploration on novel ways of utilizing open-weight LLMs beyond text generation.

arXiv.orgShijie Chen

La re-clasificación en contexto (ICR) aprovecha los cambios en el patrón de atención en los LLM para realizar la re-clasificación de documentos sin generación de texto, reduciendo la complejidad computacional de O(N log N) a O(1). El método agrega pesos de atención a través de capas y encabezados para calcular las puntuaciones de relevancia, con calibración de consulta sin contenido para mitigar los sesgos del LLM. Este enfoque permite una re-clasificación eficiente con modelos de peso abierto, eliminando la necesidad de un ajuste fino especializado o procesos de generación costosos.

Conclusiones:

Los patrones de atención en los LLM contienen señales suficientes para la re-clasificación eficaz de documentos sin necesidad de generación de texto.
La calibración de consultas sin contenido mitiga con éxito los sesgos intrínsecos en los mecanismos de puntuación basados en la atención.
ICR logra un rendimiento y una eficiencia superiores en comparación con los métodos generativos, particularmente en tareas complejas de recuperación multi-salto.

tagPuente y modelado de correlaciones en datos por pares para la optimización directa de preferencias

Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization

La optimización directa de preferencias (DPO, Direct Preference Optimization), un algoritmo de optimización de preferencias offline ampliamente adoptado, tiene como objetivo alinear los modelos de lenguaje grandes (LLM, Large Language Models) con los comportamientos deseados por los humanos utilizando datos de preferencias por pares. Sin embargo, la generación de la respuesta ganadora y la respuesta perdedora dentro de los datos por pares suelen estar aisladas, lo que conduce a correlaciones débiles entre ellas, así como a un rendimiento de alineación subóptimo. Para abordar este problema, proponemos un marco eficaz para "Puente y Modelado de Correlaciones" (Bridging and Modeling Correlations) en datos por pares, denominado BMC. En primer lugar, aumentamos la coherencia y el poder informativo de las señales de preferencia por pares a través de modificaciones específicas, sintetizando una respuesta pseudo-ganadora mejorando la respuesta perdedora con la respuesta ganadora como referencia. En segundo lugar, identificamos que el DPO por sí solo es insuficiente para modelar estas correlaciones y capturar variaciones matizadas. Por lo tanto, proponemos aprender las correlaciones a nivel de "词元 (Tokens)" aprovechando dinámicamente la confianza del modelo de política durante el entrenamiento. Experimentos exhaustivos en tareas de QA, matemáticas y seguimiento de instrucciones demuestran la eficacia de nuestro enfoque, superando significativamente las líneas de base competitivas, incluido el DPO. Además, nuestro análisis cuantitativo en profundidad revela las razones detrás del rendimiento superior de nuestro método sobre el DPO y muestra su versatilidad a otras variantes de DPO. Lanzamos nuestro repositorio en https://github.com/YJiangcm/BMC.

arXiv.orgYuxin Jiang

El DPO tradicional sufre de correlaciones débiles entre las respuestas elegidas y las rechazadas en los pares de preferencias, lo que limita la eficacia de la alineación. BMC aborda esto sintetizando respuestas pseudo-preferidas que interpolan entre las respuestas ganadoras y perdedoras, luego aplica el modelado de correlación a nivel de "词元 (Tokens)" utilizando la confianza del modelo de política. El enfoque de dos fases primero une los pares de preferencias a través de modificaciones específicas, luego modela las correlaciones de grano fino durante el entrenamiento para mejorar la calidad de la señal de aprendizaje.

Conclusiones:

Las correlaciones débiles entre las respuestas elegidas y las rechazadas en los datos de preferencias limitan significativamente la eficacia del DPO para la alineación del modelo
La síntesis de respuestas pseudo-preferidas como interpolaciones entre pares de preferencias proporciona señales de aprendizaje más ricas para la optimización
El modelado de correlación a nivel de "词元 (Tokens)" que utiliza la confianza de la política pondera dinámicamente las señales de entrenamiento para capturar variaciones matizadas en los datos de preferencias

tagTAID: Destilación Interpolada Adaptativa Temporalmente para la Transferencia Eficiente de Conocimiento

TAID: Destilación Interpolada Adaptativa Temporalmente para la Transferencia Eficiente de Conocimiento en Modelos de Lenguaje

Los modelos de lenguaje causales han demostrado capacidades notables, pero su tamaño plantea desafíos importantes para el despliegue en entornos con recursos limitados. La destilación de conocimiento, una técnica ampliamente utilizada para transferir conocimiento de un modelo maestro grande a un modelo estudiante pequeño, presenta un enfoque prometedor para la compresión de modelos. Un problema importante que persiste radica en las principales diferencias entre los modelos maestro y estudiante, a saber, la importante brecha de capacidad, el promedio de modo y el colapso de modo, que plantean barreras durante la destilación. Para abordar estos problemas, presentamos

\textit{Temporally Adaptive Interpolated Distillation (TAID)}

, un nuevo enfoque de destilación de conocimiento que interpola dinámicamente las distribuciones de estudiante y maestro a través de una distribución intermedia adaptativa, cambiando gradualmente de la distribución inicial del estudiante hacia la distribución del maestro. Proporcionamos un análisis teórico que demuestra la capacidad de TAID para prevenir el colapso de modo y mostramos empíricamente su eficacia para abordar la brecha de capacidad al tiempo que equilibra el promedio de modo y el colapso de modo. Nuestros exhaustivos experimentos demuestran el rendimiento superior de TAID en varios tamaños y arquitecturas de modelos tanto en el ajuste de instrucciones como en escenarios de preentrenamiento. Además, mostramos el impacto práctico de TAID al desarrollar dos modelos de base compactos de última generación:

\texttt{TAID-LLM-1.5B}

para tareas de lenguaje y

\texttt{TAID-VLM-2B}

para tareas de visión-lenguaje. Estos resultados demuestran la eficacia de TAID en la creación de modelos eficientes y de alto rendimiento, lo que avanza el desarrollo de tecnologías de IA más accesibles.

arXiv.orgMakoto Shing

La destilación de conocimiento enfrenta desafíos debido a las brechas de capacidad, el promedio de modo y el colapso de modo al transferir conocimiento entre modelos grandes y pequeños. TAID introduce un maestro intermedio dinámico que interpola entre las distribuciones del estudiante y del maestro, adaptando gradualmente la distribución objetivo en función del progreso del entrenamiento. Este enfoque previene el colapso de modo a través de garantías teóricas y logra un rendimiento superior en varios tamaños de modelo, lo que permite el desarrollo de modelos de lenguaje compactos pero capaces.

Conclusiones:

Los maestros intermedios dinámicos que se adaptan durante el entrenamiento proporcionan trayectorias de aprendizaje más suaves en comparación con la destilación de maestros fijos
TAID previene el colapso de modo a través de la interpolación adaptativa al tiempo que equilibra la transferencia de conocimiento a través de diferentes brechas de capacidad
El método permite el entrenamiento de modelos compactos de última generación sin requerir arquitecturas especializadas o un ajuste extenso de hiperparámetros

tagSVD-LLM: Descomposición de Valores Singulares Consciente del Truncamiento para la Compresión de Modelos de Lenguaje Grandes

SVD-LLM: Descomposición de Valores Singulares Consciente del Truncamiento para la Compresión de Modelos de Lenguaje Grandes

Los avances en los Modelos de Lenguaje Grandes (LLM, Large Language Models) se han visto obstaculizados por sus tamaños sustanciales, lo que requiere métodos de compresión de LLM para un despliegue práctico. La Descomposición de Valores Singulares (SVD, Singular Value Decomposition) ofrece una solución prometedora para la compresión de LLM. Sin embargo, los métodos de compresión de LLM basados en SVD de última generación tienen dos limitaciones clave: truncar valores singulares más pequeños puede conducir a una mayor pérdida de compresión y la falta de actualización de los pesos comprimidos después del truncamiento de SVD. En este trabajo, proponemos SVD-LLM, un método de compresión de LLM posterior al entrenamiento basado en SVD que aborda las limitaciones de los métodos existentes. SVD-LLM incorpora una técnica de blanqueamiento de datos consciente del truncamiento para garantizar una asignación directa entre los valores singulares y la pérdida de compresión. Además, SVD-LLM adopta una actualización de parámetros con aproximación secuencial de bajo rango para compensar la degradación de la precisión después de la compresión SVD. Evaluamos SVD-LLM en 10 conjuntos de datos y siete modelos de tres familias diferentes de LLM en tres escalas diferentes. Nuestros resultados demuestran la superioridad de SVD-LLM sobre el estado del arte, especialmente en altas tasas de compresión de modelos. Nuestro código está disponible en https://github.com/AIoT-MLSys-Lab/SVD-LLM

arXiv.orgXin Wang

Los métodos de compresión basados en SVD existentes no tienen en cuenta las activaciones de entrada durante la aproximación y carecen de un ajuste fino posterior al truncamiento. SVD-LLM incorpora un blanqueamiento de datos consciente del truncamiento que considera las distribuciones de activación y aplica un ajuste fino basado en LoRA después de la compresión. El método establece conexiones teóricas entre los valores singulares y la pérdida de compresión, lo que permite tomar decisiones de compresión más fundamentadas que superan los enfoques de poda estructurada y cuantificación.

Conclusiones:

El blanqueamiento de datos consciente del truncamiento que tiene en cuenta las activaciones de entrada mejora significativamente la eficacia de la compresión SVD en comparación con los métodos agnósticos a la activación.
El ajuste fino LoRA posterior a la compresión compensa la degradación de la precisión al tiempo que mantiene los beneficios de la factorización de bajo rango.
El análisis teórico que vincula los valores singulares con la pérdida de compresión permite tomar decisiones de truncamiento fundamentadas que superan los enfoques heurísticos.

tagVea Lo Que Se Le Dice: Sumidero de Atención Visual en Modelos Multimodales Grandes

Vea Lo Que Se Le Dice: Sumidero de Atención Visual en Modelos Multimodales Grandes

Los modelos multimodales grandes (LMMs) "ven" las imágenes aprovechando el mecanismo de atención entre los tokens de texto y visuales en el decodificador del transformador. Idealmente, estos modelos deberían centrarse en la información visual clave relevante para el token de texto. Sin embargo, hallazgos recientes indican que los LMMs tienen una tendencia extraordinaria a asignar consistentemente altos pesos de atención a tokens visuales específicos, incluso cuando estos tokens son irrelevantes para el texto correspondiente. En este estudio, investigamos la propiedad detrás de la aparición de estos tokens visuales irrelevantes y examinamos sus características. Nuestros hallazgos muestran que este comportamiento surge debido a la activación masiva de ciertas dimensiones del estado oculto, que se asemeja al sumidero de atención encontrado en los modelos de lenguaje. Por lo tanto, nos referimos a este fenómeno como el sumidero de atención visual. En particular, nuestro análisis revela que la eliminación de los tokens de sumidero visual irrelevantes no afecta el rendimiento del modelo, a pesar de recibir altos pesos de atención. En consecuencia, reciclamos la atención a estos tokens como recursos excedentes, redistribuyendo el presupuesto de atención para mejorar el enfoque en la imagen. Para lograr esto, introducimos la Redistribución de la Atención Visual (VAR), un método que redistribuye la atención en los encabezados centrados en la imagen, que identificamos como inherentemente enfocados en la información visual. VAR se puede aplicar sin problemas en diferentes LMMs para mejorar el rendimiento en una amplia gama de tareas, incluidas las tareas generales de visión-lenguaje, las tareas de alucinación visual y las tareas centradas en la visión, todo ello sin la necesidad de capacitación, modelos o pasos de inferencia adicionales. Los resultados experimentales demuestran que VAR permite a los LMMs procesar la información visual de manera más eficaz ajustando sus mecanismos de atención internos, ofreciendo una nueva dirección para mejorar las capacidades multimodales de los LMMs.

arXiv.orgSeil Kang

Los modelos multimodales grandes exhiben un fenómeno llamado "sumidero de atención visual" donde consistentemente asignan altos pesos de atención a tokens visuales específicos que son irrelevantes para los tokens de texto correspondientes. Estos tokens visuales irrelevantes emergen de la activación masiva en dimensiones de estado oculto específicas, similar a los sumideros de atención en los modelos de lenguaje. El método de Redistribución de la Atención Visual (VAR) identifica los encabezados de atención centrados en la imagen y redistribuye el presupuesto de atención de los tokens de sumidero al contenido visual significativo, mejorando el rendimiento en las tareas de visión-lenguaje sin necesidad de capacitación adicional.

Conclusiones clave:

Los tokens de sumidero visual se pueden identificar por magnitudes de activación extremas en dimensiones fijas heredadas de los modelos de lenguaje base
La eliminación de los tokens de sumidero visual no afecta el rendimiento del modelo a pesar de recibir altos pesos de atención, lo que indica un desperdicio de recursos computacionales
VAR redistribuye la atención de los tokens de sumidero al contenido visual significativo, mejorando el rendimiento en visión-lenguaje general, la reducción de alucinaciones y las tareas centradas en la visión

tagHacia la equivalencia semántica de la tokenización en LLM multimodal

Hacia la equivalencia semántica de la tokenización en LLM multimodal

Los modelos de lenguaje grandes multimodales (MLLMs) han demostrado capacidades excepcionales en el procesamiento de tareas de visión-lenguaje. Uno de los puntos cruciales de los MLLMs radica en la tokenización de la visión, que implica transformar eficientemente las señales visuales de entrada en representaciones de características que son más beneficiosas para los LLMs. Sin embargo, los tokenizadores de visión existentes, esenciales para la alineación semántica entre la visión y el lenguaje, siguen siendo problemáticos. Los métodos existentes fragmentan agresivamente la entrada visual, corrompiendo la integridad semántica visual. Para abordar esto, este documento propone un nuevo tokenizador de visión semántico-equivalente dinámico (SeTok), que agrupa las características visuales en unidades semánticas a través de un algoritmo de agrupación dinámica, determinando de manera flexible el número de tokens en función de la complejidad de la imagen. Los tokens de visión resultantes preservan eficazmente la integridad semántica y capturan tanto las características visuales de baja frecuencia como las de alta frecuencia. El MLLM propuesto (Setokim) equipado con SeTok demuestra significativamente un rendimiento superior en varias tareas, como lo demuestran nuestros resultados experimentales. La página del proyecto está en https://chocowu.github.io/SeTok-web/.

arXiv.orgShengqiong Wu

Los métodos tradicionales de tokenización de visión en los LLMs multimodales fragmentan la entrada visual utilizando parches fijos, corrompiendo la integridad semántica y conduciendo a una alineación visión-lenguaje deficiente. SeTok (Semantic-Equivalent Vision Tokenizer) aborda esto a través de la agrupación dinámica que agrupa las características visuales en unidades semánticas coherentes, con un recuento de tokens que se adapta a la complejidad de la imagen. El sistema utiliza objetivos de entrenamiento duales: pérdida contrastiva para la alineación semántica con el lenguaje y pérdida de reconstrucción para preservar los detalles a nivel de píxel para la reconstrucción de la imagen.

Conclusiones clave:

La tokenización de parche fijo interrumpe la integridad semántica visual al fragmentar los objetos a través de límites de parche arbitrarios
Los algoritmos de agrupación dinámica pueden determinar adaptativamente los recuentos de tokens óptimos en función de la complejidad semántica de la imagen en lugar de las estructuras de cuadrícula fija
El entrenamiento de objetivos duales equilibra la alineación semántica con el lenguaje al tiempo que preserva suficientes detalles visuales para las tareas de reconstrucción

tagHymba: una arquitectura de cabeza híbrida para modelos de lenguaje pequeños

Hymba: una arquitectura de cabeza híbrida para modelos de lenguaje pequeños

Proponemos Hymba, una familia de modelos de lenguaje pequeños que presenta una arquitectura paralela de cabeza híbrida que integra los mecanismos de atención del transformador con los modelos de espacio de estado (SSMs) para mejorar la eficiencia. Los encabezados de atención proporcionan una recuperación de alta resolución, mientras que los encabezados SSM permiten una resumen eficiente del contexto. Además, introducimos meta tokens aprendibles que se anteponen a los prompts, almacenando información crítica y aliviando la carga de "obligado a asistir" asociada con los mecanismos de atención. Este modelo se optimiza aún más mediante la incorporación de intercambio de clave-valor (KV) entre capas y atención de ventana deslizante parcial, lo que resulta en un tamaño de caché compacto. Durante el desarrollo, realizamos un estudio controlado que comparaba varias arquitecturas en configuraciones idénticas y observamos ventajas significativas de nuestra arquitectura propuesta. En particular, Hymba logra resultados de vanguardia para los LMs pequeños: Nuestro modelo Hymba-1.5B-Base supera a todos los modelos públicos sub-2B en rendimiento e incluso supera a Llama-3.2-3B con un 1,32% más de precisión promedio, una reducción del tamaño de la caché de 11,67x y un rendimiento de 3,49x.

arXiv.orgXin Dong

Hymba introduce una arquitectura de cabeza híbrida que combina mecanismos de atención de transformador con modelos de espacio de estado (SSMs) en paralelo dentro de cada capa, lo que permite la recuperación simultánea de alta resolución y la resumen eficiente del contexto. La arquitectura incorpora meta tokens aprendibles, intercambio de clave-valor entre capas y atención de ventana deslizante parcial para lograr tamaños de caché compactos. Hymba-1.5B supera a todos los modelos sub-2B y supera a Llama-3.2-3B al tiempo que logra una reducción de caché de 11.67 × y una mejora del rendimiento de 3.49 ×.

Conclusiones clave:

La arquitectura de cabeza híbrida paralela supera el apilamiento secuencial de componentes de atención y SSM al permitir el procesamiento simultáneo de mecanismos complementarios
Los meta tokens aprendibles actúan como conocimiento mundial comprimido y alivian la carga de "obligado a asistir" de los mecanismos de atención softmax
Las optimizaciones de intercambio de clave-valor entre capas y atención de ventana deslizante logran reducciones dramáticas del tamaño de la caché sin sacrificar el rendimiento

Lo que aprendimos en ICLR2025

tagMitigar la brecha: mejorar la alineación intermodal en CLIP

tagjina-clip-v2: Vectores modelo (Embeddings) multilingües y multimodales para texto e imágenes

tagReaderLM-V2: Modelo de lenguaje pequeño para HTML a Markdown y JSON

tagTIPS: Preentrenamiento de Texto-Imagen con Conciencia Espacial

tagCut Cross-Entropy: Computación de Pérdida con Eficiencia de Memoria para Grandes Vocabularios

tagFlexPrefill: Atención Esparsa Consciente del Contexto para Secuencias Largas

tagCompresión eficaz de *Embeddings* (Embeddings) posteriores al entrenamiento mediante el control de la temperatura

tagLa atención en los modelos de lenguaje grandes produce *Rerankers* (Reranker) eficientes de cero disparos

tagPuente y modelado de correlaciones en datos por pares para la optimización directa de preferencias

tagTAID: Destilación Interpolada Adaptativa Temporalmente para la Transferencia Eficiente de Conocimiento

tagSVD-LLM: Descomposición de Valores Singulares Consciente del Truncamiento para la Compresión de Modelos de Lenguaje Grandes

tagVea Lo Que Se Le Dice: Sumidero de Atención Visual en Modelos Multimodales Grandes

tagHacia la equivalencia semántica de la tokenización en LLM multimodal

tagHymba: una arquitectura de cabeza híbrida para modelos de lenguaje pequeños

tagCompresión eficaz de Embeddings (Embeddings) posteriores al entrenamiento mediante el control de la temperatura

tagLa atención en los modelos de lenguaje grandes produce Rerankers (Reranker) eficientes de cero disparos