TIPS : Pré-entraînement texte-image avec conscience spatiale
Cut Cross-Entropy : Calcul de perte économe en mémoire pour les grands vocabulaires
FlexPrefill : Attention clairsemée sensible au contexte pour les longues séquences
Compression efficace des vecteurs modèles (Embeddings) post-entraînement via le contrôle de la température
L'attention dans les grands modèles de langage (LLM) produit des re-classeurs (Reranker) efficaces à zéro coup
Établir des ponts et modéliser les corrélations dans les données par paires pour l'optimisation directe des préférences
TAID : Distillation interpolée adaptative temporelle pour un transfert de connaissances efficace
SVD-LLM : Décomposition en valeurs singulières tenant compte de la troncature pour la compression des grands modèles de langage
Voir ce qu'on vous dit : Puits d'attention visuelle dans les grands modèles multimodaux
Vers l'équivalence sémantique de la *tokenisation* dans les LLM multimodaux
Hymba : Une architecture à tête hybride pour les petits modèles de langage
Événement
mai 25, 2025
Ce que nous avons appris à ICLR2025
Nous avons rassemblé quelques-uns des articles les plus intéressants de l'ICLR 2025, notamment TIPS, FlexPrefill, les réordonnateurs zéro-shot (Zero-Shot Rerankers), SVD-LLM, Hymba, etc.
Jina AI • 21 minutes lues
ICLR 2025 est l'une des conférences sur l'apprentissage automatique les plus importantes et les plus influentes au monde, se tenant aux côtés de NeurIPS et ICML comme les trois principaux lieux pour la recherche en IA à fort impact. Cette année a marqué une étape historique car ICLR s'est tenue en Asie pour la première fois, au Singapore EXPO du 24 au 28 avril. Le timing n'aurait pas pu être plus parfait : quelques mois seulement après le « moment DeepSeek » de fin janvier 2025 qui a envoyé des ondes de choc dans la Silicon Valley et démontré les progrès rapides de la recherche en IA en Chine. Combiné au nouvel accord d'exemption mutuelle de visa de 30 jours entre la Chine et Singapour entré en vigueur en février 2024, nous avons assisté à une augmentation sans précédent de la participation chinoise à la conférence.
Cette année, notre équipe était ravie de faire le voyage à Singapour, avec Sedigheh Eslami, Andreas Koukounas, Wang Feng et le PDG Han Xiao présentant trois articles de recherche qui mettent en valeur nos dernières recherches sur jina-clip-v2 et ReaderLM-v2 pour une meilleure recherche. Alors que le reste du monde de l'IA semble enfermé dans une course à l'armement pour des modèles de plus en plus grands, nous avons décidé de nager à contre-courant, prouvant que des modèles plus petits et plus intelligents peuvent avoir un impact bien supérieur à leur taille lorsque la conception est correcte.
Alors prenez votre café, installez-vous confortablement et explorons certaines recherches d'ICLR qui nous ont semblé intéressantes, en commençant par notre propre point de vue sur les raisons pour lesquelles la petite taille peut être puissante.
## Atténuer l'écart : améliorer l'alignement intermodal dans CLIP
Les modèles CLIP excellent dans les tâches image-texte, mais souffrent d'un « écart de modalité » : les vecteurs modèles (Embeddings) d'image et de texte se regroupent dans des régions distinctes, ce qui limite les performances. Ce travail, dirigé par notre stagiaire Sedigheh Eslami pendant son doctorat à l'Institut Hasso Plattner, s'attaque à ce problème fondamental.
Nous avons découvert qu'une simple translation de vecteur brise la structure des vecteurs modèles (Embeddings). Au lieu de cela, **AlignCLIP** utilise des paramètres d'encodeur partagés avec des objectifs de séparation à régularisation sémantique. Cette double approche réduit avec succès l'écart de modalité tout en améliorant les performances dans les tâches d'apprentissage zéro-shot et de réglage fin.
**Points clés :**
* L'écart de modalité est un goulot d'étranglement essentiel des performances de CLIP
* Le partage de paramètres + la séparation sémantique comblent efficacement les différences modales
* L'approche offre des gains mesurables sur les évaluations en aval
## jina-clip-v2 : Vecteurs modèles (Embeddings) multilingues et multimodaux pour le texte et les images
Ceci est l'article derrière jina-clip-v2, un modèle de vecteurs modèles (Embeddings) multilingue et multimodal qui prend en charge les tâches de texte uniquement et intermodales à l'aide d'une approche d'apprentissage contrastif multi-tâches et multi-étapes. Le modèle combine un encodeur de texte (Jina XLM-RoBERTa, 561 millions de paramètres) et un encodeur de vision (EVA02-L14, 304 millions de paramètres) pour un total de 865 millions de paramètres. Nous nous entraînons sur des textes multilingues provenant de 29 langues autres que l'anglais et des documents riches en visuels, en utilisant l'apprentissage de représentation Matryoshka pour une dimensionnalité flexible des vecteurs modèles (Embeddings).
**Points clés :**
* Le mélange de données image-texte et texte-texte dans des lots uniques avec des paramètres de température partagés est moins performant qu'un entraînement séparé en raison de l'asymétrie des informations de modalité.
* L'entraînement pour l'alignement intermodal compromet intrinsèquement la qualité de l'intégration de texte pur, ce qui montre un compromis fondamental.
* La réduction des vecteurs modèles (Embeddings) de 1 024 à 256 dimensions entraîne une perte de performances inférieure à 1 %, ce qui révèle une inefficacité massive dans les représentations de haute dimension.
## ReaderLM-V2 : Petit modèle de langage pour HTML vers Markdown et JSON
Voici l'article à l'origine de ReaderLM-v2, un modèle de langage compact de 1,5 milliard de paramètres conçu pour une extraction efficace du contenu web. Le modèle traite des documents allant jusqu'à 512 000 tokens (Tokens), transformant le HTML désordonné en formats Markdown ou JSON propres. Notre approche combine un pipeline de synthèse de données en trois étapes (DRAFT-REFINE-CRITIQUE) qui génère des données d'entraînement de haute qualité grâce à un affinement itératif avec un cadre d'entraînement unifié combinant le pré-entraînement continu, le fine-tuning supervisé, l'optimisation directe des préférences et le réglage itératif en auto-jeu. ReaderLM-v2 surpasse GPT-4o et d'autres modèles plus importants de 15 à 20 % sur les benchmarks, excelle particulièrement dans les documents dépassant 100 000 tokens (Tokens) tout en maintenant des exigences de calcul considérablement inférieures.
Points clés :
Un modèle de 1,5 milliard de paramètres surpasse les modèles GPT-4o et 32B de 15 à 20 % en matière d'extraction HTML, prouvant que le fine-tuning spécifique à une tâche surpasse l'échelle brute pour l'expertise du domaine.
Le modèle génère ses propres données d'entraînement à l'étape 4 "auto-jeu", créant de meilleurs ensembles de données que ceux conservés par l'homme et améliorant continuellement les performances grâce à une rétroaction récursive.
Le modèle a souffert d'une répétition catastrophique de tokens (Tokens) pendant l'entraînement, mais l'ajout d'une perte contrastive pour encourager les représentations discriminatoires a complètement éliminé ce problème de dégénérescence.
tagTIPS : Pré-entraînement texte-image avec conscience spatiale
Les modèles vision-langage entraînés avec l'apprentissage contrastif excellent dans l'alignement global image-texte, mais échouent dans les tâches de compréhension spatiale dense. TIPS combine l'apprentissage contrastif avec la modélisation d'image masquée et utilise des légendes générées synthétiquement qui encodent les relations spatiales, créant des 向量模型 (Embeddings) appropriés pour la compréhension dense et globale sans fine-tuning spécifique à la tâche. L'approche démontre comment la conscience spatiale peut être intégrée dans les modèles de 向量模型 (Embeddings) pour une meilleure compréhension des documents et des applications de récupération multimodale.
Points clés :
Les légendes synthétiques avec des descriptions spatiales fournissent des signaux d'entraînement plus riches que les légendes web bruyantes pour l'apprentissage de représentations spatialement conscientes.
La combinaison de l'apprentissage image-texte contrastif avec des objectifs auto-supervisés comble le fossé entre la compréhension globale et dense.
Les performances prêtes à l'emploi sur diverses tâches éliminent le besoin d'un fine-tuning spécialisé dans différentes applications de vision.
tagCut Cross-Entropy : Calcul de perte économe en mémoire pour les grands vocabulaires
Le calcul de l'entropie croisée domine l'utilisation de la mémoire dans les modèles de langage à grand vocabulaire, nécessitant la matérialisation de matrices logit proportionnelles à batch_size × vocabulary_size. CCE reformule le calcul pour ne calculer que les composants nécessaires à la volée à l'aide de noyaux CUDA personnalisés, réduisant ainsi la consommation de mémoire de gigaoctets à mégaoctets tout en maintenant une dynamique d'entraînement identique. Cela permet d'entraîner des modèles de 向量模型 (Embeddings) et de 重排器 (Reranker) avec des vocabulaires plus grands sur du matériel limité, ce qui est particulièrement avantageux pour les applications multilingues et spécifiques à un domaine.
Points clés :
Le calcul de la perte d'entropie croisée peut consommer 90 % de la mémoire d'entraînement pour les modèles à grand vocabulaire, devenant ainsi le principal goulot d'étranglement.
Le calcul à la volée des termes log-sum-exp élimine le besoin de matérialiser des matrices logit complètes sans approximations mathématiques.
L'implémentation de noyaux personnalisés permet une réduction spectaculaire de la mémoire tout en préservant les propriétés de convergence exactes.
tagFlexPrefill : Attention clairsemée sensible au contexte pour les longues séquences
L'inférence de transformateurs de longues séquences souffre d'une complexité d'attention quadratique. FlexPrefill détermine dynamiquement les modèles d'attention clairsemée par tête à l'aide de la divergence de Jensen-Shannon et alloue de manière adaptative le budget de calcul en fonction des scores d'attention cumulatifs, ce qui permet d'accélérer considérablement le traitement avec une perte de précision minimale pour divers types de contenu. La méthode permet un traitement efficace des longs documents pour les systèmes de recherche et de récupération, permettant aux modèles de langage plus petits de gérer des contextes étendus pour une meilleure compréhension des documents.
Points clés :
Les modèles d'attention clairsemée dynamiques adaptés au type de contenu surpassent les stratégies de clairsemage fixes pour différentes caractéristiques d'entrée.
L'allocation adaptative du budget par tête basée sur l'accumulation des scores d'attention optimise la distribution du calcul en temps réel.
La clairsemage sensible au contexte permet une accélération de 13,7× avec une perte de précision de 0,1 % sans nécessiter de réentraînement du modèle.
tagCompression efficace des vecteurs modèles (Embeddings) post-entraînement via le contrôle de la température
La mise à l'échelle de la température dans l'apprentissage contrastif influence considérablement la dimensionnalité intrinsèque des vecteurs modèles (Embeddings) appris, les températures plus basses produisant des représentations plus compressibles. L'article démontre que les méthodes d'agrégation de température peuvent réduire les dimensions des vecteurs modèles (Embeddings) d'un ordre de grandeur tout en maintenant les performances de récupération, révélant ainsi le compromis entre l'efficacité du regroupement et la précision de la récupération. Cela permet un déploiement efficace des systèmes de récupération dense où les contraintes de mémoire sont essentielles pour les applications de production.
Points clés :
Les valeurs de température plus basses dans l'apprentissage contrastif produisent des vecteurs modèles (Embeddings) avec une dimensionnalité intrinsèque plus faible qui se compressent plus efficacement.
Les techniques d'agrégation de température permettent d'obtenir des taux de compression de 10× avec une dégradation minimale de la qualité dans les tâches de récupération.
Le contrôle systématique de la température pendant l'entraînement fournit un mécanisme direct pour optimiser le compromis compression-performance.
tagL'attention dans les grands modèles de langage (LLM) produit des re-classeurs (Reranker) efficaces à zéro coup
Le re-classement (Reranker) In-Context (ICR) exploite les changements de modèle d'attention dans les grands modèles de langage (LLM) pour effectuer le re-classement de documents sans génération de texte, réduisant ainsi la complexité computationnelle de O(N log N) à O(1). La méthode agrège les poids d'attention à travers les couches et les têtes pour calculer les scores de pertinence, avec un étalonnage de la requête sans contenu pour atténuer les biais des LLM. Cette approche permet un re-classement efficace avec des modèles à poids ouverts, éliminant ainsi le besoin de réglage fin spécialisé ou de processus de génération coûteux.
Points clés :
Les modèles d'attention dans les grands modèles de langage (LLM) contiennent suffisamment de signaux pour un re-classement de documents efficace sans nécessiter de génération de texte.
L'étalonnage de la requête sans contenu atténue avec succès les biais intrinsèques dans les mécanismes de score basés sur l'attention.
L'ICR offre des performances et une efficacité supérieures par rapport aux méthodes génératives, en particulier dans les tâches complexes de récupération multi-sauts.
tagÉtablir des ponts et modéliser les corrélations dans les données par paires pour l'optimisation directe des préférences
Le DPO traditionnel souffre de faibles corrélations entre les réponses choisies et rejetées dans les paires de préférences, ce qui limite l'efficacité de l'alignement. BMC résout ce problème en synthétisant des pseudo-réponses préférées qui interpolent entre les réponses gagnantes et perdantes, puis applique une modélisation de la corrélation au niveau des 词元 (Tokens) en utilisant la confiance du modèle de politique. L'approche en deux phases relie d'abord les paires de préférences par le biais de modifications ciblées, puis modélise les corrélations fines pendant l'entraînement pour améliorer la qualité du signal d'apprentissage.
Points clés :
De faibles corrélations entre les réponses choisies et rejetées dans les données de préférences limitent considérablement l'efficacité du DPO pour l'alignement du modèle.
La synthèse de pseudo-réponses préférées en tant qu'interpolations entre les paires de préférences fournit des signaux d'apprentissage plus riches pour l'optimisation.
La modélisation de la corrélation au niveau des 词元 (Tokens) à l'aide de la confiance du modèle de politique pondère dynamiquement les signaux d'entraînement pour capturer les variations nuancées dans les données de préférences.
tagTAID : Distillation interpolée adaptative temporelle pour un transfert de connaissances efficace
La distillation des connaissances est confrontée à des défis liés aux écarts de capacité, à la moyenne des modes et à l'effondrement des modes lors du transfert de connaissances entre les grands et les petits modèles. TAID introduit un enseignant intermédiaire dynamique qui interpole entre les distributions étudiant et enseignant, adaptant progressivement la distribution cible en fonction des progrès de l'entraînement. Cette approche empêche l'effondrement des modes grâce à des garanties théoriques et permet d'obtenir des performances supérieures sur différentes tailles de modèles, ce qui permet de développer des modèles de langage compacts mais performants.
Points clés :
Les enseignants intermédiaires dynamiques qui s'adaptent pendant l'entraînement offrent des trajectoires d'apprentissage plus fluides que la distillation avec un enseignant fixe.
TAID empêche l'effondrement des modes grâce à l'interpolation adaptative tout en équilibrant le transfert de connaissances sur différents écarts de capacité.
La méthode permet d'entraîner des modèles compacts à la pointe de la technologie sans nécessiter d'architectures spécialisées ni de réglage étendu des hyperparamètres.
tagSVD-LLM : Décomposition en valeurs singulières tenant compte de la troncature pour la compression des grands modèles de langage
Les méthodes de compression existantes basées sur la SVD ne tiennent pas compte des activations d'entrée pendant l'approximation et manquent de mise au point après la troncature. SVD-LLM intègre un éclaircissement des données tenant compte de la troncature qui tient compte des distributions d'activation et applique une mise au point basée sur LoRA après la compression. La méthode établit des liens théoriques entre les valeurs singulières et la perte de compression, ce qui permet de prendre des décisions de compression plus raisonnées qui surpassent les approches d'élagage et de quantification structurées.
Points clés :
L'éclaircissement des données tenant compte de la troncature qui tient compte des activations d'entrée améliore considérablement l'efficacité de la compression SVD par rapport aux méthodes agnostiques à l'activation.
La mise au point LoRA post-compression compense la dégradation de la précision tout en conservant les avantages de la factorisation de faible rang.
L'analyse théorique reliant les valeurs singulières à la perte de compression permet de prendre des décisions de troncature raisonnées qui surpassent les approches heuristiques.
tagVoir ce qu'on vous dit : Puits d'attention visuelle dans les grands modèles multimodaux
Les grands modèles multimodaux présentent un phénomène appelé « puits d'attention visuel » où ils allouent systématiquement des poids d'attention élevés à des *tokens* visuels spécifiques qui ne sont pas pertinents pour les *tokens* de texte correspondants. Ces *tokens* visuels non pertinents émergent d'une activation massive dans des dimensions d'état caché spécifiques, similaires aux puits d'attention dans les modèles de langage. La méthode de Redistribution de l'Attention Visuelle (VAR (*Visual Attention Redistribution*)) identifie les têtes d'attention centrées sur l'image et redistribue le budget d'attention des *tokens* de puits vers un contenu visuel significatif, améliorant ainsi les performances dans les tâches vision-langage sans nécessiter de formation supplémentaire.
Points clés :
Les *tokens* de puits visuels peuvent être identifiés par des amplitudes d'activation extrêmes dans des dimensions fixes héritées des modèles de langage de base
La suppression des *tokens* de puits visuels n'a pas d'impact sur les performances du modèle malgré la réception de poids d'attention élevés, ce qui indique un gaspillage de ressources de calcul
VAR redistribue l'attention des *tokens* de puits vers un contenu visuel significatif, améliorant ainsi les performances dans les tâches générales vision-langage, la réduction des hallucinations et les tâches centrées sur la vision
tagVers l'équivalence sémantique de la *tokenisation* dans les LLM multimodaux
Les méthodes traditionnelles de *tokenisation* de la vision dans les LLMs multimodaux fragmentent l'entrée visuelle à l'aide de *patches* fixes, corrompant l'intégrité sémantique et conduisant à un mauvais alignement vision-langage. SeTok (*Semantic-Equivalent Vision Tokenizer*) résout ce problème grâce à un *clustering* dynamique qui regroupe les caractéristiques visuelles en unités sémantiques cohérentes, le nombre de *tokens* s'adaptant à la complexité de l'image. Le système utilise des objectifs d'apprentissage duaux : une perte contrastive pour l'alignement sémantique avec le langage et une perte de reconstruction pour préserver les détails au niveau des pixels pour la reconstruction de l'image.
Points clés :
La *tokenisation* à *patches* fixes perturbe l'intégrité sémantique visuelle en fragmentant les objets à travers des limites de *patches* arbitraires
Les algorithmes de *clustering* dynamique peuvent déterminer de manière adaptative le nombre optimal de *tokens* en fonction de la complexité sémantique de l'image plutôt que des structures de grille fixes
L'apprentissage à double objectif équilibre l'alignement sémantique avec le langage tout en préservant suffisamment de détails visuels pour les tâches de reconstruction
tagHymba : Une architecture à tête hybride pour les petits modèles de langage
Hymba introduit une architecture à tête hybride qui combine des mécanismes d'attention *transformer* avec des modèles d'espace d'état (SSMs (*state space models*)) en parallèle au sein de chaque couche, permettant un rappel haute résolution simultané et une synthèse efficace du contexte. L'architecture intègre des méta-*tokens* apprenables, le partage clé-valeur entre les couches et l'attention partielle de la fenêtre coulissante pour obtenir des tailles de cache compactes. Hymba-1.5B surpasse tous les modèles inférieurs à 2B et surpasse Llama-3.2-3B tout en réalisant une réduction du cache de 11,67× et une amélioration du débit de 3,49×.
Points clés :
L'architecture hybride à tête parallèle surpasse l'empilement séquentiel des composants d'attention et SSM en permettant un traitement simultané des mécanismes complémentaires
Les méta-*tokens* apprenables agissent comme une connaissance du monde compressée et atténuent le fardeau « d'attention forcée » des mécanismes d'attention *softmax*
Les optimisations du partage clé-valeur entre les couches et de l'attention de la fenêtre coulissante permettent des réductions spectaculaires de la taille du cache sans sacrifier les performances