Ce que nous avons appris à ICLR2025

ICLR 2025 est l'une des conférences sur l'apprentissage automatique les plus importantes et les plus influentes au monde, se tenant aux côtés de NeurIPS et ICML comme les trois principaux lieux pour la recherche en IA à fort impact. Cette année a marqué une étape historique car ICLR s'est tenue en Asie pour la première fois, au Singapore EXPO du 24 au 28 avril. Le timing n'aurait pas pu être plus parfait : quelques mois seulement après le « moment DeepSeek » de fin janvier 2025 qui a envoyé des ondes de choc dans la Silicon Valley et démontré les progrès rapides de la recherche en IA en Chine. Combiné au nouvel accord d'exemption mutuelle de visa de 30 jours entre la Chine et Singapour entré en vigueur en février 2024, nous avons assisté à une augmentation sans précédent de la participation chinoise à la conférence. Cette année, notre équipe était ravie de faire le voyage à Singapour, avec Sedigheh Eslami, Andreas Koukounas, Wang Feng et le PDG Han Xiao présentant trois articles de recherche qui mettent en valeur nos dernières recherches sur jina-clip-v2 et ReaderLM-v2 pour une meilleure recherche. Alors que le reste du monde de l'IA semble enfermé dans une course à l'armement pour des modèles de plus en plus grands, nous avons décidé de nager à contre-courant, prouvant que des modèles plus petits et plus intelligents peuvent avoir un impact bien supérieur à leur taille lorsque la conception est correcte. Alors prenez votre café, installez-vous confortablement et explorons certaines recherches d'ICLR qui nous ont semblé intéressantes, en commençant par notre propre point de vue sur les raisons pour lesquelles la petite taille peut être puissante. ## Atténuer l'écart : améliorer l'alignement intermodal dans CLIP Les modèles CLIP excellent dans les tâches image-texte, mais souffrent d'un « écart de modalité » : les vecteurs modèles (Embeddings) d'image et de texte se regroupent dans des régions distinctes, ce qui limite les performances. Ce travail, dirigé par notre stagiaire Sedigheh Eslami pendant son doctorat à l'Institut Hasso Plattner, s'attaque à ce problème fondamental. Nous avons découvert qu'une simple translation de vecteur brise la structure des vecteurs modèles (Embeddings). Au lieu de cela, **AlignCLIP** utilise des paramètres d'encodeur partagés avec des objectifs de séparation à régularisation sémantique. Cette double approche réduit avec succès l'écart de modalité tout en améliorant les performances dans les tâches d'apprentissage zéro-shot et de réglage fin. **Points clés :** * L'écart de modalité est un goulot d'étranglement essentiel des performances de CLIP * Le partage de paramètres + la séparation sémantique comblent efficacement les différences modales * L'approche offre des gains mesurables sur les évaluations en aval ## jina-clip-v2 : Vecteurs modèles (Embeddings) multilingues et multimodaux pour le texte et les images Ceci est l'article derrière jina-clip-v2, un modèle de vecteurs modèles (Embeddings) multilingue et multimodal qui prend en charge les tâches de texte uniquement et intermodales à l'aide d'une approche d'apprentissage contrastif multi-tâches et multi-étapes. Le modèle combine un encodeur de texte (Jina XLM-RoBERTa, 561 millions de paramètres) et un encodeur de vision (EVA02-L14, 304 millions de paramètres) pour un total de 865 millions de paramètres. Nous nous entraînons sur des textes multilingues provenant de 29 langues autres que l'anglais et des documents riches en visuels, en utilisant l'apprentissage de représentation Matryoshka pour une dimensionnalité flexible des vecteurs modèles (Embeddings). **Points clés :** * Le mélange de données image-texte et texte-texte dans des lots uniques avec des paramètres de température partagés est moins performant qu'un entraînement séparé en raison de l'asymétrie des informations de modalité. * L'entraînement pour l'alignement intermodal compromet intrinsèquement la qualité de l'intégration de texte pur, ce qui montre un compromis fondamental. * La réduction des vecteurs modèles (Embeddings) de 1 024 à 256 dimensions entraîne une perte de performances inférieure à 1 %, ce qui révèle une inefficacité massive dans les représentations de haute dimension. ## ReaderLM-V2 : Petit modèle de langage pour HTML vers Markdown et JSON

Voici l'article à l'origine de ReaderLM-v2, un modèle de langage compact de 1,5 milliard de paramètres conçu pour une extraction efficace du contenu web. Le modèle traite des documents allant jusqu'à 512 000 tokens (Tokens), transformant le HTML désordonné en formats Markdown ou JSON propres. Notre approche combine un pipeline de synthèse de données en trois étapes (DRAFT-REFINE-CRITIQUE) qui génère des données d'entraînement de haute qualité grâce à un affinement itératif avec un cadre d'entraînement unifié combinant le pré-entraînement continu, le fine-tuning supervisé, l'optimisation directe des préférences et le réglage itératif en auto-jeu. ReaderLM-v2 surpasse GPT-4o et d'autres modèles plus importants de 15 à 20 % sur les benchmarks, excelle particulièrement dans les documents dépassant 100 000 tokens (Tokens) tout en maintenant des exigences de calcul considérablement inférieures.

Points clés :

Un modèle de 1,5 milliard de paramètres surpasse les modèles GPT-4o et 32B de 15 à 20 % en matière d'extraction HTML, prouvant que le fine-tuning spécifique à une tâche surpasse l'échelle brute pour l'expertise du domaine.
Le modèle génère ses propres données d'entraînement à l'étape 4 "auto-jeu", créant de meilleurs ensembles de données que ceux conservés par l'homme et améliorant continuellement les performances grâce à une rétroaction récursive.
Le modèle a souffert d'une répétition catastrophique de tokens (Tokens) pendant l'entraînement, mais l'ajout d'une perte contrastive pour encourager les représentations discriminatoires a complètement éliminé ce problème de dégénérescence.

tagTIPS : Pré-entraînement texte-image avec conscience spatiale

TIPS : Pré-entraînement texte-image avec conscience spatiale

Bien que l'apprentissage de la représentation image-texte soit devenu très populaire ces dernières années, les modèles existants ont tendance à manquer de conscience spatiale et ont une applicabilité directe limitée pour les tâches de compréhension dense. Pour cette raison, le pré-entraînement auto-supervisé uniquement sur image reste la méthode de choix pour de nombreuses applications de vision dense (par exemple, l'estimation de la profondeur, la segmentation sémantique), malgré le manque de signaux de supervision explicites. Dans cet article, nous comblons ce fossé entre l'apprentissage image-texte et l'apprentissage auto-supervisé, en proposant un nouveau modèle image-texte à usage général, qui peut être efficacement utilisé tel quel pour les tâches de vision dense et globale. Notre méthode, que nous appelons Text-Image Pretraining with Spatial awareness (TIPS), exploite deux idées simples et efficaces. Premièrement, sur la supervision textuelle : nous révélons que le remplacement des légendes d'images web bruyantes par des descriptions textuelles générées synthétiquement améliore considérablement les performances de compréhension dense, en raison d'un signal beaucoup plus riche pour l'apprentissage de représentations spatialement conscientes. Nous proposons une méthode d'entraînement adaptée qui combine des légendes bruyantes et synthétiques, ce qui entraîne des améliorations dans les tâches de compréhension dense et globale. Deuxièmement, sur la technique d'apprentissage : nous proposons de combiner l'apprentissage image-texte contrastif avec la modélisation d'image masquée auto-supervisée, afin d'encourager la cohérence spatiale, ce qui permet d'améliorer considérablement les applications en aval. En nous appuyant sur ces deux idées, nous mettons à l'échelle notre modèle à l'aide de l'architecture du transformateur, entraîné sur un ensemble organisé d'images publiques. Nos expériences sont menées sur 8 tâches impliquant 16 ensembles de données au total, démontrant de solides performances prêtes à l'emploi sur la compréhension dense et globale, pour plusieurs tâches d'image uniquement et d'image-texte. Le code et les modèles sont disponibles sur https://github.com/google-deepmind/tips.

arXiv.orgKevis-Kokitsi Maninis

Les modèles vision-langage entraînés avec l'apprentissage contrastif excellent dans l'alignement global image-texte, mais échouent dans les tâches de compréhension spatiale dense. TIPS combine l'apprentissage contrastif avec la modélisation d'image masquée et utilise des légendes générées synthétiquement qui encodent les relations spatiales, créant des 向量模型 (Embeddings) appropriés pour la compréhension dense et globale sans fine-tuning spécifique à la tâche. L'approche démontre comment la conscience spatiale peut être intégrée dans les modèles de 向量模型 (Embeddings) pour une meilleure compréhension des documents et des applications de récupération multimodale.

Points clés :

Les légendes synthétiques avec des descriptions spatiales fournissent des signaux d'entraînement plus riches que les légendes web bruyantes pour l'apprentissage de représentations spatialement conscientes.
La combinaison de l'apprentissage image-texte contrastif avec des objectifs auto-supervisés comble le fossé entre la compréhension globale et dense.
Les performances prêtes à l'emploi sur diverses tâches éliminent le besoin d'un fine-tuning spécialisé dans différentes applications de vision.

tagCut Cross-Entropy : Calcul de perte économe en mémoire pour les grands vocabulaires

Réduisez vos pertes dans les modèles de langage à grand vocabulaire

À mesure que les modèles de langage deviennent de plus en plus grands, leurs vocabulaires augmentent également. Cela a déplacé l'empreinte mémoire des LLM pendant l'entraînement de manière disproportionnée vers une seule couche : l'entropie croisée dans le calcul de la perte. L'entropie croisée construit une matrice logit avec des entrées pour chaque paire de tokens (Tokens) d'entrée et d'éléments de vocabulaire et, pour les petits modèles, consomme un ordre de grandeur plus de mémoire que le reste du LLM combiné. Nous proposons Cut Cross-Entropy (CCE), une méthode qui calcule la perte d'entropie croisée sans matérialiser les logits pour tous les tokens (Tokens) dans la mémoire globale. Au lieu de cela, CCE calcule uniquement le logit pour le token (Tokens) correct et évalue le log-sum-exp sur tous les logits à la volée. Nous implémentons un noyau personnalisé qui effectue les multiplications de matrices et la réduction log-sum-exp sur le vocabulaire dans la mémoire flash, ce qui rend la consommation de mémoire globale pour le calcul de l'entropie croisée négligeable. Cela a un effet spectaculaire. En prenant le modèle Gemma 2 (2B) comme exemple, CCE réduit l'empreinte mémoire du calcul de la perte de 24 Go à 1 Mo, et la consommation totale de mémoire au moment de l'entraînement de la tête du classificateur de 28 Go à 1 Go. Pour améliorer le débit de CCE, nous tirons parti de la rareté inhérente de softmax et proposons d'ignorer les éléments du calcul du gradient qui ont une contribution négligeable (c'est-à-dire inférieure à la précision numérique) au gradient. Les expériences démontrent que la réduction spectaculaire de la consommation de mémoire est réalisée sans sacrifier la vitesse d'entraînement ou la convergence.

arXiv.orgErik Wijmans

Le calcul de l'entropie croisée domine l'utilisation de la mémoire dans les modèles de langage à grand vocabulaire, nécessitant la matérialisation de matrices logit proportionnelles à batch_size × vocabulary_size. CCE reformule le calcul pour ne calculer que les composants nécessaires à la volée à l'aide de noyaux CUDA personnalisés, réduisant ainsi la consommation de mémoire de gigaoctets à mégaoctets tout en maintenant une dynamique d'entraînement identique. Cela permet d'entraîner des modèles de 向量模型 (Embeddings) et de 重排器 (Reranker) avec des vocabulaires plus grands sur du matériel limité, ce qui est particulièrement avantageux pour les applications multilingues et spécifiques à un domaine.

Points clés :

Le calcul de la perte d'entropie croisée peut consommer 90 % de la mémoire d'entraînement pour les modèles à grand vocabulaire, devenant ainsi le principal goulot d'étranglement.
Le calcul à la volée des termes log-sum-exp élimine le besoin de matérialiser des matrices logit complètes sans approximations mathématiques.
L'implémentation de noyaux personnalisés permet une réduction spectaculaire de la mémoire tout en préservant les propriétés de convergence exactes.

tagFlexPrefill : Attention clairsemée sensible au contexte pour les longues séquences

FlexPrefill : Un mécanisme d'attention clairsemée sensible au contexte pour une inférence efficace des séquences longues

Les grands modèles de langage (LLM) rencontrent des défis de calcul lors de l'inférence de longues séquences, en particulier dans la phase de pré-remplissage de l'attention, où la complexité croît de manière quadratique avec la longueur de la requête (Prompt). Les efforts précédents pour atténuer ces défis se sont appuyés sur des modèles d'attention clairsemée fixes ou sur l'identification de modèles d'attention clairsemée basés sur des cas limités. Cependant, ces méthodes manquaient de la flexibilité nécessaire pour s'adapter efficacement aux différentes exigences d'entrée. Dans cet article, nous présentons FlexPrefill, un mécanisme de pré-remplissage clairsemé flexible qui ajuste dynamiquement les modèles d'attention clairsemée et le budget de calcul en temps réel pour répondre aux exigences spécifiques de chaque entrée et tête d'attention. La flexibilité de notre méthode est démontrée par deux innovations clés : 1) Détermination de modèle clairsemé sensible à la requête : en mesurant la divergence de Jensen-Shannon, ce composant bascule de manière adaptative entre des modèles d'attention diversifiés spécifiques à la requête et des modèles d'attention prédéfinis. 2) Sélection d'index basée sur l'attention cumulative : ce composant sélectionne dynamiquement les index requête-clé à calculer en fonction de différents modèles d'attention, garantissant que la somme des scores d'attention atteint un seuil prédéfini. FlexPrefill optimise de manière adaptative le modèle clairsemé et le ratio clairsemé de chaque tête d'attention en fonction de la requête (Prompt), améliorant ainsi l'efficacité dans les tâches d'inférence de longues séquences. Les résultats expérimentaux montrent des améliorations significatives en termes de vitesse et de précision par rapport aux méthodes antérieures, offrant une solution plus flexible et efficace pour l'inférence LLM.

arXiv.orgXunhao Lai

L'inférence de transformateurs de longues séquences souffre d'une complexité d'attention quadratique. FlexPrefill détermine dynamiquement les modèles d'attention clairsemée par tête à l'aide de la divergence de Jensen-Shannon et alloue de manière adaptative le budget de calcul en fonction des scores d'attention cumulatifs, ce qui permet d'accélérer considérablement le traitement avec une perte de précision minimale pour divers types de contenu. La méthode permet un traitement efficace des longs documents pour les systèmes de recherche et de récupération, permettant aux modèles de langage plus petits de gérer des contextes étendus pour une meilleure compréhension des documents.

Points clés :

Les modèles d'attention clairsemée dynamiques adaptés au type de contenu surpassent les stratégies de clairsemage fixes pour différentes caractéristiques d'entrée.
L'allocation adaptative du budget par tête basée sur l'accumulation des scores d'attention optimise la distribution du calcul en temps réel.
La clairsemage sensible au contexte permet une accélération de 13,7× avec une perte de précision de 0,1 % sans nécessiter de réentraînement du modèle.

tagCompression efficace des vecteurs modèles (Embeddings) post-entraînement via le contrôle de la température

Effective post-training embedding compression via temperature...

Fixed-size learned representations (dense representations, or embeddings) are widely used in many machine learning applications across language, vision or speech modalities. This paper investigates…

OpenReview.netGeorgiana Dinu

La mise à l'échelle de la température dans l'apprentissage contrastif influence considérablement la dimensionnalité intrinsèque des vecteurs modèles (Embeddings) appris, les températures plus basses produisant des représentations plus compressibles. L'article démontre que les méthodes d'agrégation de température peuvent réduire les dimensions des vecteurs modèles (Embeddings) d'un ordre de grandeur tout en maintenant les performances de récupération, révélant ainsi le compromis entre l'efficacité du regroupement et la précision de la récupération. Cela permet un déploiement efficace des systèmes de récupération dense où les contraintes de mémoire sont essentielles pour les applications de production.

Points clés :

Les valeurs de température plus basses dans l'apprentissage contrastif produisent des vecteurs modèles (Embeddings) avec une dimensionnalité intrinsèque plus faible qui se compressent plus efficacement.
Les techniques d'agrégation de température permettent d'obtenir des taux de compression de 10× avec une dégradation minimale de la qualité dans les tâches de récupération.
Le contrôle systématique de la température pendant l'entraînement fournit un mécanisme direct pour optimiser le compromis compression-performance.

tagL'attention dans les grands modèles de langage (LLM) produit des re-classeurs (Reranker) efficaces à zéro coup

Attention in Large Language Models Yields Efficient Zero-Shot Re-Rankers

Information retrieval (IR) systems have played a vital role in modern digital life and have cemented their continued usefulness in this new era of generative AI via retrieval-augmented generation. With strong language processing capabilities and remarkable versatility, large language models (LLMs) have become popular choices for zero-shot re-ranking in IR systems. So far, LLM-based re-ranking methods rely on strong generative capabilities, which restricts their use to either specialized or powerful proprietary models. Given these restrictions, we ask: is autoregressive generation necessary and optimal for LLMs to perform re-ranking? We hypothesize that there are abundant signals relevant to re-ranking within LLMs that might not be used to their full potential via generation. To more directly leverage such signals, we propose in-context re-ranking (ICR), a novel method that leverages the change in attention pattern caused by the search query for accurate and efficient re-ranking. To mitigate the intrinsic biases in LLMs, we propose a calibration method using a content-free query. Due to the absence of generation, ICR only requires two (

O(1)

) forward passes to re-rank

N

documents, making it substantially more efficient than generative re-ranking methods that require at least

O(N)

forward passes. Our novel design also enables ICR to be applied to any LLM without specialized training while guaranteeing a well-formed ranking. Extensive experiments with two popular open-weight LLMs on standard single-hop and multi-hop information retrieval benchmarks show that ICR outperforms RankGPT while cutting the latency by more than 60% in practice. Through detailed analyses, we show that ICR’s performance is specially strong on tasks that require more complex re-ranking signals. Our findings call for further exploration on novel ways of utilizing open-weight LLMs beyond text generation.

arXiv.orgShijie Chen

Le re-classement (Reranker) In-Context (ICR) exploite les changements de modèle d'attention dans les grands modèles de langage (LLM) pour effectuer le re-classement de documents sans génération de texte, réduisant ainsi la complexité computationnelle de O(N log N) à O(1). La méthode agrège les poids d'attention à travers les couches et les têtes pour calculer les scores de pertinence, avec un étalonnage de la requête sans contenu pour atténuer les biais des LLM. Cette approche permet un re-classement efficace avec des modèles à poids ouverts, éliminant ainsi le besoin de réglage fin spécialisé ou de processus de génération coûteux.

Points clés :

Les modèles d'attention dans les grands modèles de langage (LLM) contiennent suffisamment de signaux pour un re-classement de documents efficace sans nécessiter de génération de texte.
L'étalonnage de la requête sans contenu atténue avec succès les biais intrinsèques dans les mécanismes de score basés sur l'attention.
L'ICR offre des performances et une efficacité supérieures par rapport aux méthodes génératives, en particulier dans les tâches complexes de récupération multi-sauts.

tagÉtablir des ponts et modéliser les corrélations dans les données par paires pour l'optimisation directe des préférences

Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization

L'optimisation directe des préférences (DPO, Direct Preference Optimization), un algorithme d'optimisation des préférences hors ligne largement adopté, vise à aligner les grands modèles de langage (LLM, Large Language Models) avec les comportements souhaités par l'humain en utilisant des données de préférence par paires. Cependant, la génération de la réponse gagnante et de la réponse perdante au sein des données par paires est généralement isolée, ce qui entraîne de faibles corrélations entre elles ainsi qu'une performance d'alignement sous-optimale. Pour résoudre ce problème, nous proposons un cadre efficace pour relier et modéliser les corrélations dans les données par paires, nommé BMC. Premièrement, nous augmentons la cohérence et l'informativité des signaux de préférence par paires grâce à des modifications ciblées, en synthétisant une pseudo-réponse gagnante en améliorant la réponse perdante avec la réponse gagnante comme référence. Deuxièmement, nous identifions que le DPO seul est insuffisant pour modéliser ces corrélations et capturer les variations nuancées. Par conséquent, nous proposons d'apprendre les corrélations au niveau des 词元 (Tokens) en tirant dynamiquement parti de la confiance du modèle de politique pendant l'entraînement. Des expériences complètes sur les tâches de QA, de mathématiques et de suivi d'instructions démontrent l'efficacité de notre approche, surpassant significativement les bases de référence compétitives, y compris le DPO. De plus, notre analyse quantitative approfondie révèle les raisons des performances supérieures de notre méthode par rapport au DPO et met en évidence sa polyvalence par rapport aux autres variantes de DPO. Nous publions notre dépôt sur https://github.com/YJiangcm/BMC.

arXiv.orgYuxin Jiang

Le DPO traditionnel souffre de faibles corrélations entre les réponses choisies et rejetées dans les paires de préférences, ce qui limite l'efficacité de l'alignement. BMC résout ce problème en synthétisant des pseudo-réponses préférées qui interpolent entre les réponses gagnantes et perdantes, puis applique une modélisation de la corrélation au niveau des 词元 (Tokens) en utilisant la confiance du modèle de politique. L'approche en deux phases relie d'abord les paires de préférences par le biais de modifications ciblées, puis modélise les corrélations fines pendant l'entraînement pour améliorer la qualité du signal d'apprentissage.

Points clés :

De faibles corrélations entre les réponses choisies et rejetées dans les données de préférences limitent considérablement l'efficacité du DPO pour l'alignement du modèle.
La synthèse de pseudo-réponses préférées en tant qu'interpolations entre les paires de préférences fournit des signaux d'apprentissage plus riches pour l'optimisation.
La modélisation de la corrélation au niveau des 词元 (Tokens) à l'aide de la confiance du modèle de politique pondère dynamiquement les signaux d'entraînement pour capturer les variations nuancées dans les données de préférences.

tagTAID : Distillation interpolée adaptative temporelle pour un transfert de connaissances efficace

TAID : Distillation interpolée adaptative temporelle pour un transfert de connaissances efficace dans les modèles de langage

Les modèles de langage causal ont démontré des capacités remarquables, mais leur taille pose des défis importants pour le déploiement dans des environnements aux ressources limitées. La distillation des connaissances, une technique largement utilisée pour transférer les connaissances d'un grand modèle enseignant à un petit modèle étudiant, présente une approche prometteuse pour la compression de modèles. Un problème important qui subsiste réside dans les différences majeures entre les modèles enseignant et étudiant, à savoir l'écart de capacité substantiel, la moyenne des modes et l'effondrement des modes, qui constituent des obstacles pendant la distillation. Pour résoudre ces problèmes, nous introduisons

\textit{Temporally Adaptive Interpolated Distillation (TAID)}

, une nouvelle approche de distillation des connaissances qui interpole dynamiquement les distributions étudiant et enseignant par le biais d'une distribution intermédiaire adaptative, passant progressivement de la distribution initiale de l'étudiant à la distribution de l'enseignant. Nous fournissons une analyse théorique démontrant la capacité de TAID à prévenir l'effondrement des modes et montrons empiriquement son efficacité à résoudre l'écart de capacité tout en équilibrant la moyenne des modes et l'effondrement des modes. Nos expériences complètes démontrent les performances supérieures de TAID sur différentes tailles et architectures de modèles dans les scénarios de réglage d'instructions et de pré-entraînement. De plus, nous mettons en évidence l'impact pratique de TAID en développant deux modèles de base compacts à la pointe de la technologie :

\texttt{TAID-LLM-1.5B}

pour les tâches de langage et

\texttt{TAID-VLM-2B}

pour les tâches de langage visuel. Ces résultats démontrent l'efficacité de TAID dans la création de modèles performants et efficaces, faisant progresser le développement de technologies d'IA plus accessibles.

arXiv.orgMakoto Shing

La distillation des connaissances est confrontée à des défis liés aux écarts de capacité, à la moyenne des modes et à l'effondrement des modes lors du transfert de connaissances entre les grands et les petits modèles. TAID introduit un enseignant intermédiaire dynamique qui interpole entre les distributions étudiant et enseignant, adaptant progressivement la distribution cible en fonction des progrès de l'entraînement. Cette approche empêche l'effondrement des modes grâce à des garanties théoriques et permet d'obtenir des performances supérieures sur différentes tailles de modèles, ce qui permet de développer des modèles de langage compacts mais performants.

Points clés :

Les enseignants intermédiaires dynamiques qui s'adaptent pendant l'entraînement offrent des trajectoires d'apprentissage plus fluides que la distillation avec un enseignant fixe.
TAID empêche l'effondrement des modes grâce à l'interpolation adaptative tout en équilibrant le transfert de connaissances sur différents écarts de capacité.
La méthode permet d'entraîner des modèles compacts à la pointe de la technologie sans nécessiter d'architectures spécialisées ni de réglage étendu des hyperparamètres.

tagSVD-LLM : Décomposition en valeurs singulières tenant compte de la troncature pour la compression des grands modèles de langage

SVD-LLM : Décomposition en valeurs singulières tenant compte de la troncature pour la compression des grands modèles de langage

Les progrès des grands modèles de langage (LLM, Large Language Models) ont été entravés par leur taille substantielle, ce qui nécessite des méthodes de compression des LLM pour un déploiement pratique. La décomposition en valeurs singulières (SVD, Singular Value Decomposition) offre une solution prometteuse pour la compression des LLM. Cependant, les méthodes de compression des LLM basées sur la SVD les plus récentes présentent deux limitations clés : la troncature des valeurs singulières plus petites peut entraîner une perte de compression plus importante, et l'absence de mise à jour des poids compressés après la troncature de la SVD. Dans ce travail, nous proposons SVD-LLM, une méthode de compression des LLM post-entraînement basée sur la SVD qui résout les limitations des méthodes existantes. SVD-LLM intègre une technique d'éclaircissement des données tenant compte de la troncature pour assurer une cartographie directe entre les valeurs singulières et la perte de compression. De plus, SVD-LLM adopte une mise à jour des paramètres avec une approximation séquentielle de faible rang pour compenser la dégradation de la précision après la compression SVD. Nous évaluons SVD-LLM sur 10 ensembles de données et sept modèles de trois familles de LLM différentes à trois échelles différentes. Nos résultats démontrent la supériorité de SVD-LLM par rapport aux méthodes les plus récentes, en particulier à des taux de compression de modèles élevés. Notre code est disponible sur https://github.com/AIoT-MLSys-Lab/SVD-LLM

arXiv.orgXin Wang

Les méthodes de compression existantes basées sur la SVD ne tiennent pas compte des activations d'entrée pendant l'approximation et manquent de mise au point après la troncature. SVD-LLM intègre un éclaircissement des données tenant compte de la troncature qui tient compte des distributions d'activation et applique une mise au point basée sur LoRA après la compression. La méthode établit des liens théoriques entre les valeurs singulières et la perte de compression, ce qui permet de prendre des décisions de compression plus raisonnées qui surpassent les approches d'élagage et de quantification structurées.

Points clés :

L'éclaircissement des données tenant compte de la troncature qui tient compte des activations d'entrée améliore considérablement l'efficacité de la compression SVD par rapport aux méthodes agnostiques à l'activation.
La mise au point LoRA post-compression compense la dégradation de la précision tout en conservant les avantages de la factorisation de faible rang.
L'analyse théorique reliant les valeurs singulières à la perte de compression permet de prendre des décisions de troncature raisonnées qui surpassent les approches heuristiques.

tagVoir ce qu'on vous dit : Puits d'attention visuelle dans les grands modèles multimodaux

Voir ce qu'on vous dit : Puits d'attention visuelle dans les grands modèles multimodaux

Les grands modèles multimodaux (LMMs) « voient » les images en tirant parti du mécanisme d'attention entre le texte et les *tokens* visuels dans le décodeur *transformer*. Idéalement, ces modèles devraient se concentrer sur les informations visuelles clés pertinentes pour le *token* de texte. Cependant, des découvertes récentes indiquent que les LMMs ont une tendance extraordinaire à allouer systématiquement des poids d'attention élevés à des *tokens* visuels spécifiques, même lorsque ces *tokens* ne sont pas pertinents pour le texte correspondant. Dans cette étude, nous étudions la propriété derrière l'apparition de ces *tokens* visuels non pertinents et examinons leurs caractéristiques. Nos résultats montrent que ce comportement résulte de l'activation massive de certaines dimensions d'état caché, ce qui ressemble au puits d'attention trouvé dans les modèles de langage. Par conséquent, nous appelons ce phénomène le puits d'attention visuel. En particulier, notre analyse révèle que la suppression des *tokens* de puits visuels non pertinents n'a pas d'impact sur les performances du modèle, bien qu'ils reçoivent des poids d'attention élevés. Par conséquent, nous recyclons l'attention portée à ces *tokens* comme des ressources excédentaires, en redistribuant le budget d'attention pour améliorer la concentration sur l'image. Pour ce faire, nous introduisons la Redistribution de l'Attention Visuelle (VAR (*Visual Attention Redistribution*)), une méthode qui redistribue l'attention dans les têtes centrées sur l'image, que nous identifions comme se concentrant naturellement sur l'information visuelle. VAR peut être appliqué de manière transparente à différents LMMs pour améliorer les performances sur un large éventail de tâches, y compris les tâches générales vision-langage, les tâches d'hallucination visuelle et les tâches centrées sur la vision, le tout sans avoir besoin de formation, de modèles ou d'étapes d'inférence supplémentaires. Les résultats expérimentaux démontrent que VAR permet aux LMMs de traiter l'information visuelle plus efficacement en ajustant leurs mécanismes d'attention internes, offrant ainsi une nouvelle direction pour améliorer les capacités multimodales des LMMs.

arXiv.orgSeil Kang

Les grands modèles multimodaux présentent un phénomène appelé « puits d'attention visuel » où ils allouent systématiquement des poids d'attention élevés à des *tokens* visuels spécifiques qui ne sont pas pertinents pour les *tokens* de texte correspondants. Ces *tokens* visuels non pertinents émergent d'une activation massive dans des dimensions d'état caché spécifiques, similaires aux puits d'attention dans les modèles de langage. La méthode de Redistribution de l'Attention Visuelle (VAR (*Visual Attention Redistribution*)) identifie les têtes d'attention centrées sur l'image et redistribue le budget d'attention des *tokens* de puits vers un contenu visuel significatif, améliorant ainsi les performances dans les tâches vision-langage sans nécessiter de formation supplémentaire.

Points clés :

Les *tokens* de puits visuels peuvent être identifiés par des amplitudes d'activation extrêmes dans des dimensions fixes héritées des modèles de langage de base
La suppression des *tokens* de puits visuels n'a pas d'impact sur les performances du modèle malgré la réception de poids d'attention élevés, ce qui indique un gaspillage de ressources de calcul
VAR redistribue l'attention des *tokens* de puits vers un contenu visuel significatif, améliorant ainsi les performances dans les tâches générales vision-langage, la réduction des hallucinations et les tâches centrées sur la vision

tagVers l'équivalence sémantique de la tokenisation dans les LLM multimodaux

Vers l'équivalence sémantique de la *tokenisation* dans les LLM multimodaux

Les grands modèles de langage multimodaux (MLLMs (*Multimodal Large Language Models*)) ont démontré des capacités exceptionnelles dans le traitement des tâches vision-langage. L'un des points cruciaux des MLLMs réside dans la *tokenisation* de la vision, qui consiste à transformer efficacement les signaux visuels d'entrée en représentations de caractéristiques qui sont les plus bénéfiques pour les LLMs. Cependant, les *tokeniseurs* de vision existants, essentiels pour l'alignement sémantique entre la vision et le langage, restent problématiques. Les méthodes existantes fragmentent agressivement l'entrée visuelle, corrompant l'intégrité sémantique visuelle. Pour résoudre ce problème, cet article propose un nouveau *Tokeniseur* de Vision Sémantique-Équivalent dynamique (SeTok (*Semantic-Equivalent Vision Tokenizer*)), qui regroupe les caractéristiques visuelles en unités sémantiques via un algorithme de *clustering* dynamique, déterminant de manière flexible le nombre de *tokens* en fonction de la complexité de l'image. Les *tokens* de vision résultants préservent efficacement l'intégrité sémantique et capturent à la fois les caractéristiques visuelles à basse et haute fréquence. Le MLLM (Setokim) proposé, équipé de SeTok, démontre de manière significative des performances supérieures dans diverses tâches, comme en témoignent nos résultats expérimentaux. La page du projet est disponible à l'adresse https://chocowu.github.io/SeTok-web/.

arXiv.orgShengqiong Wu

Les méthodes traditionnelles de *tokenisation* de la vision dans les LLMs multimodaux fragmentent l'entrée visuelle à l'aide de *patches* fixes, corrompant l'intégrité sémantique et conduisant à un mauvais alignement vision-langage. SeTok (*Semantic-Equivalent Vision Tokenizer*) résout ce problème grâce à un *clustering* dynamique qui regroupe les caractéristiques visuelles en unités sémantiques cohérentes, le nombre de *tokens* s'adaptant à la complexité de l'image. Le système utilise des objectifs d'apprentissage duaux : une perte contrastive pour l'alignement sémantique avec le langage et une perte de reconstruction pour préserver les détails au niveau des pixels pour la reconstruction de l'image.

Points clés :

La *tokenisation* à *patches* fixes perturbe l'intégrité sémantique visuelle en fragmentant les objets à travers des limites de *patches* arbitraires
Les algorithmes de *clustering* dynamique peuvent déterminer de manière adaptative le nombre optimal de *tokens* en fonction de la complexité sémantique de l'image plutôt que des structures de grille fixes
L'apprentissage à double objectif équilibre l'alignement sémantique avec le langage tout en préservant suffisamment de détails visuels pour les tâches de reconstruction

tagHymba : Une architecture à tête hybride pour les petits modèles de langage

Hymba : Une architecture à tête hybride pour les petits modèles de langage

Nous proposons Hymba, une famille de petits modèles de langage dotés d'une architecture parallèle à tête hybride qui intègre des mécanismes d'attention *transformer* avec des modèles d'espace d'état (SSMs (*state space models*)) pour une efficacité accrue. Les têtes d'attention permettent un rappel haute résolution, tandis que les têtes SSM permettent une synthèse efficace du contexte. De plus, nous introduisons des méta-*tokens* apprenables qui sont ajoutés aux *prompts*, stockant des informations critiques et atténuant le fardeau « d'attention forcée » associé aux mécanismes d'attention. Ce modèle est en outre optimisé en incorporant le partage clé-valeur (KV (*key-value*)) entre les couches et l'attention partielle de la fenêtre coulissante, ce qui se traduit par une taille de cache compacte. Au cours du développement, nous avons mené une étude contrôlée comparant diverses architectures dans des paramètres identiques et avons observé des avantages significatifs de notre architecture proposée. Notamment, Hymba obtient des résultats de pointe pour les petits LMs (*language models*) : notre modèle Hymba-1.5B-Base surpasse tous les modèles publics inférieurs à 2B en termes de performances et surpasse même Llama-3.2-3B avec une précision moyenne supérieure de 1,32 %, une réduction de la taille du cache de 11,67x et un débit de 3,49x.

arXiv.orgXin Dong

Hymba introduit une architecture à tête hybride qui combine des mécanismes d'attention *transformer* avec des modèles d'espace d'état (SSMs (*state space models*)) en parallèle au sein de chaque couche, permettant un rappel haute résolution simultané et une synthèse efficace du contexte. L'architecture intègre des méta-*tokens* apprenables, le partage clé-valeur entre les couches et l'attention partielle de la fenêtre coulissante pour obtenir des tailles de cache compactes. Hymba-1.5B surpasse tous les modèles inférieurs à 2B et surpasse Llama-3.2-3B tout en réalisant une réduction du cache de 11,67× et une amélioration du débit de 3,49×.

Points clés :

L'architecture hybride à tête parallèle surpasse l'empilement séquentiel des composants d'attention et SSM en permettant un traitement simultané des mécanismes complémentaires
Les méta-*tokens* apprenables agissent comme une connaissance du monde compressée et atténuent le fardeau « d'attention forcée » des mécanismes d'attention *softmax*
Les optimisations du partage clé-valeur entre les couches et de l'attention de la fenêtre coulissante permettent des réductions spectaculaires de la taille du cache sans sacrifier les performances

Ce que nous avons appris à ICLR2025

tagTIPS : Pré-entraînement texte-image avec conscience spatiale

tagCut Cross-Entropy : Calcul de perte économe en mémoire pour les grands vocabulaires

tagFlexPrefill : Attention clairsemée sensible au contexte pour les longues séquences

tagCompression efficace des vecteurs modèles (Embeddings) post-entraînement via le contrôle de la température

tagL'attention dans les grands modèles de langage (LLM) produit des re-classeurs (Reranker) efficaces à zéro coup

tagÉtablir des ponts et modéliser les corrélations dans les données par paires pour l'optimisation directe des préférences

tagTAID : Distillation interpolée adaptative temporelle pour un transfert de connaissances efficace

tagSVD-LLM : Décomposition en valeurs singulières tenant compte de la troncature pour la compression des grands modèles de langage

tagVoir ce qu'on vous dit : Puits d'attention visuelle dans les grands modèles multimodaux

tagVers l'équivalence sémantique de la *tokenisation* dans les LLM multimodaux

tagHymba : Une architecture à tête hybride pour les petits modèles de langage

tagVers l'équivalence sémantique de la tokenisation dans les LLM multimodaux