La recette de la soupe de modèles pour les embeddings

En ces temps difficiles, rien ne vaut un bon bol de soupe chaude.

La minestrone est l'une des soupes italiennes classiques : épaisse, copieuse, savoureuse, combinant des haricots, des légumes consistants et du riz ou des pâtes. Son goût est le résultat de l'assemblage d'ingrédients divers. Elle ressemble un peu au bortsch en Europe de l'Est, aux plats en casserole en Amérique ou aux sautés maison en Asie du Pacifique, en ce sens qu'elle combine des ingrédients disponibles et peu coûteux pour en faire un plat apprécié.

Nous pouvons utiliser à peu près le même type de recette pour les modèles de réseaux neuronaux, selon une série d'articles commençant par Wortsman et al. (2022).

Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time

The conventional recipe for maximizing model accuracy is to (1) train multiple models with various hyperparameters and (2) pick the individual model which performs best on a held-out validation set…

PMLR

Les « soupes de modèles » (hélas, pas les « plats en casserole de modèles » ni les « sautés de modèles ») sont une classe de techniques d'assemblage de modèles conçues pour atténuer le coût de l'optimisation des données d'entraînement et des hyperparamètres des modèles. Lors de l'entraînement d'un réseau neuronal, vous essayez généralement différentes données et valeurs d'hyperparamètres et vous vous entraînez plusieurs fois, à la recherche du meilleur résultat. L'entraînement est très coûteux en termes de calcul, et les coûts s'additionnent rapidement.

Au lieu de cela, les soupes de modèles consistent à entraîner plusieurs modèles avec différents hyperparamètres et choix de données d'entraînement - comme vous le feriez habituellement - mais en les combinant ensuite. Le résultat est un modèle plus performant et plus robuste que le meilleur modèle individuel. Cela ne permet pas de réduire les coûts car vous entraînez toujours plusieurs modèles, mais vous pouvez obtenir un meilleur résultat pour le même prix.

L'approche de la soupe de modèles s'est déjà avérée utile pour les modèles d'intégration multimodaux texte-image (Wortsman et al. 2022) et les grands modèles de langage génératifs. (Takuya et al. 2025) Chez Jina AI, nous avons commencé à utiliser cette technique pour entraîner nos propres modèles, et jina-embeddings-v3 et reader-lm-v2 incorporent tous deux des soupes de modèles.

Dans cet article, nous allons examiner les soupes de modèles et montrer les résultats de certains de nos travaux avec elles. Plus précisément :

Pouvons-nous utiliser les soupes de modèles pour améliorer les performances en fusionnant des modèles à différents moments de leur entraînement ?
Pouvons-nous fusionner des modèles entraînés avec différents ensembles de données et pour différentes tâches afin d'obtenir de meilleures performances et une efficacité d'entraînement supérieure à celle obtenue en entraînant un seul modèle ?

Cela présente d'importants avantages potentiels :

Les soupes de modèles peuvent avoir des performances meilleures et plus robustes.
Les modèles d'intégration multilingues souffrent souvent de biais et d'échecs de performance causés par des quantités inégales de données d'entraînement. Ce serait une aubaine de pouvoir entraîner le meilleur modèle possible sur chaque tâche ou ensemble de données individuellement, puis de les combiner de manière égale.
Nous pourrions être en mesure d'améliorer l'apprentissage continu et la mise à jour des modèles en apportant des modifications à nos modèles de manière modulaire, en mettant à jour un modèle de composant à la fois, puis en le refusionnant avec les autres.

tagComment ça Marche ?

La fusion des sorties de plusieurs modèles est une technique ancienne dans la théorie statistique de la décision. Par exemple, il est courant dans les prévisions météorologiques de créer plusieurs modèles, souvent réalisés par différentes personnes avec différentes hypothèses, puis d'utiliser divers mécanismes pour faire la moyenne de leurs prédictions. Si les erreurs de chaque modèle sont distribuées aléatoirement, la moyenne des modèles conduira à des réponses avec moins d'erreurs.

Par exemple, si vous avez trois modèles différents qui produisent un « oui » ou un « non » binaire, et que chacun se trompe 10 % du temps, alors deux sur les trois se tromperont seulement 2,8 % du temps. Cinq modèles, avec un critère de décision majoritaire, ne se tromperont que 0,856 % du temps.

La moyenne des modèles fonctionne sur le même principe, mais au lieu de combiner les sorties de différents modèles, elle combine les modèles eux-mêmes.

L'approche utilisée est une extension de la moyenne stochastique des poids (Izmailov et al. 2018), qui s'appuie sur des connaissances approfondies des paysages de perte des réseaux neuronaux pour montrer qu'une simple moyenne des poids peut améliorer les performances de généralisation du modèle dans des conditions courantes.

La mécanique réelle de la moyenne des modèles est incroyablement simple : il suffit de faire la moyenne des poids de plusieurs modèles.

Comment les modèles sont fusionnés pour créer une soupe de modèles. Cet exemple est très petit et simple, mais il montre quand même la procédure : Additionnez les poids et divisez par le nombre de modèles fusionnés.

Si cela semble trop facile, il est important de noter qu'il existe des limitations lors de la fusion de modèles de cette manière. Vous ne pouvez pas simplement fusionner les poids de deux réseaux neuronaux et vous attendre à ce que cela fonctionne.

La moyenne des modèles ne fonctionne que sur des modèles très similaires, c'est-à-dire des modèles dont les poids ne sont pas très différents les uns des autres au départ. La façon de s'en assurer est de pré-entraîner un modèle, puis de créer plusieurs variantes de ce modèle en les affinant avec différents hyperparamètres ou différentes données. Ces modèles seront généralement suffisamment similaires pour être moyennés.

En termes plus techniques, le pré-entraînement produit généralement un modèle dont les poids sont proches du bas d'un bassin de perte, et l'affinage ne permet pas facilement d'échapper à ce bassin de perte. Si tous les modèles à fusionner ont des poids dans le même bassin de perte, alors leurs poids seront assez proches les uns des autres, et il est probable que leur moyenne fonctionne. Ce n'est pas garanti, mais empiriquement, cela semble être vrai assez souvent pour être utile.

tagConfiguration Expérimentale

Modèle de base : Pour les expériences décrites ici, nous avons utilisé xlm-roberta-base de FacebookAI (Conneau et al. 2020) comme modèle de base pré-entraîné. Ce modèle a 280 millions de paramètres et a été pré-entraîné sur 2,5 To de données Common Crawl contenant du texte dans environ 100 langues.

Nous avons affiné xlm-roberta-base sur notre ensemble d'entraînement de paires de phrases spécialement conçu pour l'entraînement des intégrations, avant d'effectuer nos expériences.

Données d'entraînement : Jina AI maintient des ensembles de données spécialement conçus pour l'entraînement. Pour la première expérience, nous avons utilisé des triplets de phrases spécialement conçus pour l'entraînement contrastif dans six langues : anglais, arabe, allemand, espagnol, japonais et chinois. Pour la deuxième expérience, nous avons utilisé des ensembles de données d'entraînement spécifiques à la tâche en anglais.

Évaluation : Nous avons utilisé les parties pertinentes de l'ensemble de référence MMTEB (Enevoldsen et al. 2025) et de l'ensemble de référence MIRACL (Zhang et al. 2023) pour évaluer les modèles produits par notre entraînement et notre fusion.

tagExpérience 1 : Moyenne à Passage Unique

Pour cette expérience, nous avons utilisé des triplets de phrases contrastives dans les six langues, mélangés, pour un total de 6 000 étapes d'entraînement avec une taille de lot de 1 024 éléments. Toutes les 2 000 étapes, nous avons enregistré l'état du modèle pour le calcul de la moyenne, produisant ainsi 3 modèles, chacun reflétant un point différent dans le processus d'entraînement.

Nous avons fait la moyenne des trois modèles pour produire un modèle final. Nous avons ensuite testé le modèle fusionné et les trois points de contrôle enregistrés par rapport aux ensembles de référence MMTEB-STS et MIRACL.

Nos résultats sont résumés dans le tableau ci-dessous :

Modèle	MIRACL (moyenne de 6 langues)	MMTEB-STS Anglais (moyenne de 8 benchmarks)	MMTEB-STS Multilingue (moyenne de 6 benchmarks)	Moyenne de 20 benchmarks
Pas d'entraînement par triplet	0.3163	0.7859	0.7322	0.6276
Étape 2000	0.4631	0.7924	0.7561	0.6813
Étape 4000	0.4639	0.7902	0.7583	0.6812
Étape 6000 (finale)	0.4680	0.7891	0.7575	0.6818
Modèle fusionné (les 3 points de contrôle stockés)	0.4669	0.7910	0.7579	0.6823

La fusion avec les points de contrôle précédents n'a généralement pas produit un modèle plus performant que le modèle le plus performant parmi les points de contrôle stockés sur les benchmarks individuels ou sur l'une des trois batteries de benchmarks utilisées. Cependant, il a produit le meilleur modèle sur tous les benchmarks moyennés ensemble.

Dans les benchmarks individuels, la différence entre le modèle fusionné et le point de contrôle le plus performant est dans tous les cas inférieure à 0,01. Cela est vrai non seulement pour les moyennes dans le tableau ci-dessus, mais aussi pour chaque test individuel.

Cela démontre que la fusion de différents points de contrôle d'entraînement peut produire un modèle plus robuste à un coût de performance très faible.

De plus, en fusionnant les différents points de contrôle, nous pouvons effectivement nous prémunir contre le surapprentissage. Le surapprentissage est récemment devenu un sujet important dans les réseaux neuronaux. (Springer et al., 2025) Un réseau peut être entraîné d'une manière qui le rend plus difficile et moins performant après un affinage supplémentaire.

Étant donné que le point de contrôle le plus performant dans notre expérience n'est souvent pas le dernier, nous avons probablement surappris notre modèle à 6 000 étapes d'entraînement. Le modèle fusionné se rapproche très près des performances du meilleur point de contrôle dans tous les tests, éliminant ainsi les défauts du surapprentissage.

tagExpérience 2 : Moyenne des Modèles Entraînés pour Différentes Tâches

Pour cette expérience, nous avons entraîné trois modèles, chacun pour une tâche d'intégration courante différente :

Similarité sémantique : Mesurer le chevauchement ou la similarité relative de sens entre deux textes, généralement de longueur comparable.
Récupération de documents basée sur des requêtes textuelles : Trouver les documents qui répondent le mieux à une requête. Les requêtes sont généralement des textes beaucoup plus courts que les documents auxquels elles correspondent.
Réponse aux questions : Trouver le document qui répond le mieux à une question en langage naturel. Les questions sont également généralement plus courtes que les textes auxquels elles correspondent.

L'entraînement de modèles pour les trois tâches à la fois est assez difficile car les objectifs sont très différents, et nous espérons que les soupes de modèles amélioreront le processus.

D'après notre expérience précédente, nous savions que chaque tâche nécessitait un nombre différent d'époques d'entraînement. L'entraînement est résumé ci-dessous :

Tâche	Étapes d'entraînement (taille du lot = 1 024)	Taille de l'ensemble de données d'entraînement (en éléments)
Réponse aux questions (QA)	2 000	256 000
Récupération de documents	3 000	384 000
Similarité sémantique (STS)	1 000	128 000

Cela a produit trois modèles, que nous avons ensuite fusionnés en un seul modèle. Nous avons testé le modèle résultant par rapport aux parties de l'ensemble de référence MMTEB pertinentes pour ces trois tâches : MIRACL, NanoBEIR et STSEval (parties anglaises et multilingues de MMTEB).

	MIRACL (moyenne de 6 langues)	NanoBEIR (moyenne de 13 benchmarks)	MMTEB-STS anglais (moyenne de 9 benchmarks)	MMTEB-STS multilingue (moyenne de 6 benchmarks)	Moyenne de 34 benchmarks
Aucun entraînement de triplet	0,3163	0,5089	0,7859	0,7322	0,5876
Entraînement QA	0,4489	0,5332	0,7843	0,7535	0,6237
Entraînement à la récupération	0,4272	0,5360	0,7766	0,7340	0,6154
Entraînement STS	0,1779	0,4519	0,7994	0,7651	0,5508
Modèle fusionné	0,4246	0,5309	0,7981	0,7640	0,6240

Nous constatons ici que les modèles entraînés pour des tâches spécifiques ont les meilleures performances pour chaque tâche. MIRACL est principalement un benchmark de réponse aux questions, même s'il est appelé benchmark de récupération, et le modèle entraîné à la QA surpasse tous les autres sur ce point, y compris le modèle fusionné. NanoBEIR est un ensemble de benchmarks de recherche d'informations plus conventionnel, et nous constatons que le modèle entraîné à la récupération est le plus performant. Le modèle de similarité sémantique (STS) obtient de très mauvais résultats sur ces benchmarks, mais bat les autres sur les tâches STS explicites. Pour chaque catégorie, le modèle fusionné est moins performant que le modèle entraîné pour une seule tâche.

Mais une fois de plus, si nous faisons la moyenne de tous les benchmarks, le modèle fusionné surpasse les autres, bien que son score ne représente qu'une très légère amélioration par rapport au modèle entraîné à la QA, et qu'il soit très peu performant sur les tâches STS.

Nous avons également fusionné uniquement les modèles QA et de récupération et avons noté le modèle résultant sur les mêmes benchmarks :

	MIRACL (moyenne de 6 langues)	NanoBEIR (moyenne de 13 benchmarks)	MMTEB-STS anglais (moyenne de 9 benchmarks)	MMTEB-STS multilingue (moyenne de 6 benchmarks)	Moyenne de 34 tests	Moyenne QA et IR (19 tests)	Moyenne STS (15 tests)
Meilleur modèle entraîné à une tâche	0,4489	0,5360	0,7994	0,7651	0,6237	0,5066	0,7857
Modèle fusionné	0,4246	0,5309	0,7981	0,7640	0,6240	0,4973	0,7845
Modèle fusionné QA+Récupération	0,4610	0,5404	0,7878	0,7498	0,6288	0,5153	0,7726

Nous constatons ici que si nous pouvons améliorer les performances en matière de réponse aux questions et de récupération en fusionnant des modèles entraînés pour les deux tâches, l'ajout de modèles entraînés au STS réduit les performances spécifiques à chaque tâche dans toutes les catégories. Cela suggère que la similarité sémantique est, à certains égards importants, différente de la QA et de la récupération, et qu'un modèle entraîné au STS n'est pas adapté à la fusion avec les deux autres.

Ceci est probablement dû au fait que la réponse aux questions et la récupération impliquent la mise en correspondance de textes courts (questions et requêtes) avec des documents plus longs, tandis que la similarité sémantique implique la comparaison de documents de longueur plus similaire.

Wortsman et al. (2022) décrivent une approche sélective de la moyenne qu'ils appellent la fusion « gloutonne ». Elle consiste à prendre un modèle, généralement le plus performant d'un ensemble de modèles, puis à n'ajouter que les modèles qui améliorent individuellement les performances. Avec seulement trois modèles, il était peu utile d'utiliser la fusion gloutonne pour cette expérience. Cependant, nous pourrions imaginer un cas avec plus de modèles et utiliser une technique comme celle-ci comme base pour déterminer le degré de similarité entre les tâches. Nous avons constaté ici que la similarité sémantique est différente des deux autres. Nous pourrions alors évaluer quand un modèle peut effectuer de nombreuses tâches et quand il est plus rentable d'utiliser un modèle différent.

tagÀ table !

Les soupes de modèles mélangent la diversité en quelque chose de plus grand que la somme de leurs parties. La valeur de cette approche réside dans sa capacité à offrir une plus grande cohérence, une plus grande robustesse et à agir comme une sauvegarde contre le surentraînement sans coût d'entraînement supplémentaire. Nos expériences montrent que la fusion de points de contrôle ou de modèles spécialisés dans les tâches peut améliorer les performances globales, même si cela se fait parfois au détriment des pics spécifiques aux tâches.

En fin de compte, les soupes de modèles offrent un moyen pratique et très simple de créer des modèles plus adaptables, bien que cela s'accompagne de quelques mises en garde. Ce n'est pas une panacée, et cela ne s'applique que lorsque les modèles sont déjà très similaires.

Comme on dit sur Internet, Your Mileage May Vary. Mais il est facile et peu coûteux de découvrir si les soupes de modèles peuvent vous aider lorsque vous entraînez vos modèles.