Model Soup’s Rezept für Embeddings

In diesen schwierigen Zeiten geht nichts über eine schöne, warme Schüssel Suppe.

Minestrone ist eine der klassischen italienischen Suppen: dick, herzhaft, schmackhaft, eine Kombination aus Bohnen, herzhaftem Gemüse und Reis oder Nudeln. Ihr Geschmack ist das Ergebnis der Zusammenstellung verschiedener Zutaten. Sie ähnelt ein wenig Borschtsch in Osteuropa, Aufläufen in Amerika oder einem hausgemachten Stir-Fry in der Pazifikregion Asiens, da sie verfügbare, preiswerte Zutaten zu einem beliebten Gericht kombiniert.

Wir können eine ähnliche Art von Rezept für neuronale Netzwerkmodelle verwenden, wie aus einer Reihe von Arbeiten hervorgeht, die mit Wortsman et al. (2022) beginnen.

Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time

The conventional recipe for maximizing model accuracy is to (1) train multiple models with various hyperparameters and (2) pick the individual model which performs best on a held-out validation set…

PMLR

“Model soups” (leider nicht “Model Casseroles” oder “Model Stir-Fries”) sind eine Klasse von Model-Ensembling-Techniken, die dazu dienen, die Kosten für die Optimierung von Trainingsdaten und Modell-Hyperparametern zu senken. Beim Trainieren eines neuronalen Netzes probieren Sie typischerweise verschiedene Daten und Hyperparameterwerte aus und trainieren mehrmals, um das beste Ergebnis zu erzielen. Das Training ist sehr rechenintensiv, und die Kosten summieren sich schnell.

Stattdessen beinhaltet Model Soups das Trainieren mehrerer Modelle mit unterschiedlichen Hyperparametern und Trainingsdaten – genau wie Sie es normalerweise tun würden –, aber dann das Kombinieren dieser Modelle. Das Ergebnis ist ein leistungsfähigeres und robusteres Modell als das beste Einzelmodell. Es spart keine Kosten, da Sie immer noch mehrere Modelle trainieren, aber Sie können ein besseres Ergebnis zum gleichen Preis erzielen.

Der Model-Soup-Ansatz hat sich bereits für multimodale Text-Bild-Einbettungsmodelle (Wortsman et al. 2022) und generative Large Language Models als nützlich erwiesen. (Takuya et al. 2025) Bei Jina AI haben wir begonnen, diese Technik zum Trainieren unserer eigenen Modelle zu verwenden, und jina-embeddings-v3 und reader-lm-v2 enthalten beide Model Soups.

In diesem Artikel werden wir uns Model Soups ansehen und die Ergebnisse einiger unserer Arbeiten damit zeigen. Insbesondere:

Können wir Model Soups verwenden, um die Leistung zu verbessern, indem wir Modelle zu verschiedenen Zeitpunkten ihres Trainings zusammenführen?
Können wir Modelle zusammenführen, die mit verschiedenen Datensätzen und für verschiedene Aufgaben trainiert wurden, um eine bessere Leistung und eine höhere Trainingseffizienz zu erzielen, als durch das Training eines einzelnen Modells?

Dies hat wichtige potenzielle Vorteile:

Model Soups können eine bessere und robustere Leistung haben.
Mehrsprachige Einbettungsmodelle leiden oft unter Verzerrungen und Leistungseinbußen, die durch ungleiche Mengen an Trainingsdaten verursacht werden. Es wäre ein Segen, in der Lage zu sein, das beste Modell, das wir können, für jede Aufgabe oder jeden Datensatz einzeln zu trainieren und sie dann gleichwertig zu kombinieren.
Wir können möglicherweise ein besseres kontinuierliches Lernen und Modell-Updating durchführen, indem wir Änderungen an unseren Modellen auf modulare Weise vornehmen, jeweils eine Komponentenmodell aktualisieren und es dann wieder mit den anderen zusammenführen.

tagWie funktioniert es?

Das Zusammenführen der Ausgaben mehrerer Modelle ist eine alte Technik in der statistischen Entscheidungstheorie. Zum Beispiel ist es in der Wettervorhersage üblich, mehrere Modelle zu erstellen, oft von verschiedenen Personen mit unterschiedlichen Annahmen, und dann eine Vielzahl von Mechanismen zu verwenden, um ihre Vorhersagen zu mitteln. Wenn die Fehler jedes Modells zufällig verteilt sind, führt die Mittelung der Modelle zu Antworten mit weniger Fehlern.

Wenn Sie zum Beispiel drei verschiedene Modelle haben, die ein binäres “Ja” oder “Nein” ausgeben, und jedes liegt 10 % der Zeit falsch, dann liegen zwei von drei nur 2,8 % der Zeit falsch. Fünf Modelle mit einem Mehrheitsentscheidungskriterium liegen nur 0,856 % der Zeit falsch.

Die Mittelung von Modellen funktioniert nach dem gleichen Prinzip, aber anstatt die Ausgaben verschiedener Modelle zu kombinieren, kombiniert sie die Modelle selbst.

Der verwendete Ansatz ist eine Erweiterung der stochastic weight averaging (Izmailov et al. 2018), die auf Erkenntnissen über die Verlustlandschaften neuronaler Netze beruht, um zu zeigen, dass eine einfache Gewichtungsmittelung die Generalisierungsleistung des Modells unter gängigen Bedingungen verbessern kann.

Die eigentliche Mechanik der Mittelung der Modelle ist erschreckend einfach: Sie mitteln einfach die Gewichte mehrerer Modelle.

Wie Modelle zusammengeführt werden, um eine Model Soup herzustellen. Dieses Beispiel ist sehr klein und einfach, zeigt aber dennoch das Verfahren: Summieren Sie die Gewichte und teilen Sie sie durch die Anzahl der zusammengeführten Modelle.

Wenn dies zu einfach erscheint, ist es wichtig zu beachten, dass es Einschränkungen gibt, wenn Modelle auf diese Weise zusammengeführt werden. Sie können nicht einfach die Gewichte von zwei beliebigen neuronalen Netzen zusammenführen und erwarten, dass es funktioniert.

Die Modellmittelung funktioniert nur bei sehr ähnlichen Modellen, d. h. Modellen, deren Gewichte sich von vornherein nicht sehr voneinander unterscheiden. Um dies sicherzustellen, besteht die Möglichkeit, ein Modell vorzutrainieren und dann mehrere Varianten dieses Modells zu erstellen, indem man sie mit unterschiedlichen Hyperparametern oder unterschiedlichen Daten feinabstimmt. Diese Modelle sind in der Regel ähnlich genug, um sie zu mitteln.

In technischeren Begriffen führt das Vortraining in der Regel zu einem Modell, dessen Gewichte sich in der Nähe des Bodens eines Verlustbeckens befinden, und die Feinabstimmung führt nicht ohne weiteres dazu, dass dieses Verlustbecken verlassen wird. Wenn alle zu verschmelzenden Modelle Gewichte im gleichen Verlustbecken haben, dann sind ihre Gewichte ziemlich nahe beieinander, und das Mitteln ist wahrscheinlich erfolgreich. Dies ist nicht garantiert, aber empirisch scheint es oft genug wahr zu sein, um nützlich zu sein.

tagExperimenteller Aufbau

Basismodell: Für die hier beschriebenen Experimente verwendeten wir xlm-roberta-base von FacebookAI (Conneau et al. 2020) als unser vortrainiertes Basismodell. Dieses Modell hat 280 Millionen Parameter und wurde auf 2,5 TB Common Crawl-Daten vortrainiert, die Texte in etwa 100 Sprachen enthalten.

Wir haben xlm-roberta-base auf unserem kuratierten Satzpaar-Trainingssatz für das Einbettungstraining feinabgestimmt, bevor wir unsere Experimente durchführten.

Trainingsdaten: Jina AI unterhält kundenspezifisch kuratierte Datensätze für das Training. Für das erste Experiment verwendeten wir Satz-Tripletts, die speziell für das kontrastive Training in sechs Sprachen kuratiert wurden: Englisch, Arabisch, Deutsch, Spanisch, Japanisch und Chinesisch. Für das zweite Experiment verwendeten wir aufgabenspezifische Trainingsdatensätze in Englisch.

Evaluation: Wir verwendeten relevante Teile des MMTEB Benchmark Sets (Enevoldsen et al. 2025) und MIRACL Benchmarks (Zhang et al. 2023), um die von unserem Training und der Zusammenführung erzeugten Modelle zu bewerten.

tagExperiment 1: Single-Run Averaging

Für dieses Experiment verwendeten wir kontrastive Satz-Tripletts in allen sechs Sprachen, gemischt, für insgesamt 6.000 Trainingsschritte mit einer Batch-Größe von 1.024 Elementen. Alle 2.000 Schritte speicherten wir den Modellstatus zur Mittelung, wodurch 3 Modelle entstanden, die jeweils einen anderen Punkt im Trainingsprozess widerspiegeln.

Wir haben die drei Modelle gemittelt, um ein endgültiges Modell zu erstellen. Anschließend testeten wir das zusammengeführte Modell und die drei gespeicherten Checkpoints anhand der MMTEB-STS- und MIRACL-Benchmark-Sätze.

Unsere Ergebnisse sind in der folgenden Tabelle zusammengefasst:

Model	MIRACL (avg 6 languages)	MMTEB-STS English (avg 8 benchmarks)	MMTEB-STS Multilingual (avg 6 benchmarks)	Average of 20 benchmarks
No triplet training	0.3163	0.7859	0.7322	0.6276
Step 2000	0.4631	0.7924	0.7561	0.6813
Step 4000	0.4639	0.7902	0.7583	0.6812
Step 6000 (final)	0.4680	0.7891	0.7575	0.6818
Merged model (all 3 stored checkpoints)	0.4669	0.7910	0.7579	0.6823

Das Zusammenführen mit vorherigen Checkpoints führte im Allgemeinen nicht zu einem besseren Modell als das leistungsstärkste Modell unter den gespeicherten Checkpoints bei einzelnen Benchmarks oder bei einem der drei verwendeten Benchmark-Batterien. Es führte jedoch zum besten Modell bei allen zusammen gemittelten Benchmarks.

Bei einzelnen Benchmarks beträgt der Unterschied zwischen dem zusammengeführten Modell und dem leistungsstärksten Checkpoint in jedem Fall weniger als 0,01. Dies gilt nicht nur für die Durchschnittswerte in der obigen Tabelle, sondern für jeden einzelnen Test.

Dies zeigt, dass das Zusammenführen verschiedener Trainings-Checkpoints zu einem robusteren Modell mit sehr geringen Leistungseinbußen führen kann.

Darüber hinaus können wir durch das Zusammenführen der verschiedenen Checkpoints eine Überanpassung wirksam verhindern. Übertraining ist in letzter Zeit zu einem wichtigen Thema in neuronalen Netzen geworden. (Springer et al., 2025) Ein Netzwerk kann so trainiert werden, dass es nach einer weiteren Feinabstimmung schwieriger und schlechter wird.

Da der leistungsstärkste Checkpoint in unserem Experiment oft nicht der letzte ist, haben wir unser Modell wahrscheinlich bei 6.000 Trainingsschritten übertrainiert. Das zusammengeführte Modell kommt der Leistung des besten Checkpoints in allen Tests sehr nahe und beseitigt die Defekte des Übertrainings.

tagExperiment 2: Mittelung von Modellen, die für verschiedene Aufgaben trainiert wurden

Für dieses Experiment haben wir drei Modelle trainiert, jedes für eine andere gängige Einbettungsaufgabe:

Semantische Ähnlichkeit: Messung der relativen Überschneidung oder Ähnlichkeit in der Bedeutung zwischen zwei Texten, typischerweise von vergleichbarer Länge.
Dokumentenabruf auf der Grundlage von Textanfragen: Finden der Dokumente, die eine Anfrage am besten erfüllen. Anfragen sind in der Regel viel kürzere Texte als die Dokumente, mit denen sie übereinstimmen.
Frage-Antwort-Systeme: Finden des Dokuments, das eine Frage in natürlicher Sprache am besten beantwortet. Fragen sind im Allgemeinen auch kürzer als die Texte, mit denen sie übereinstimmen.

Das gleichzeitige Trainieren von Modellen für alle drei Aufgaben ist recht schwierig, da die Ziele sehr unterschiedlich sind, und wir hoffen, dass Model Soups den Prozess verbessern werden.

Aufgrund früherer Erfahrungen wussten wir, dass jede Aufgabe eine andere Anzahl von Trainingsepochen erfordert. Das Training ist im Folgenden zusammengefasst:

Aufgabe	Trainingsschritte (Batchgröße = 1.024)	Größe des Trainingsdatensatzes (in Elementen)
Frage-Antwort-Systeme (QA)	2.000	256.000
Dokumentenabruf	3.000	384.000
Semantische Ähnlichkeit (STS)	1.000	128.000

Dadurch entstanden drei Modelle, die wir dann zu einem einzigen Modell zusammenführten. Wir haben das resultierende Modell anhand der für diese drei Aufgaben relevanten Teile des MMTEB-Benchmark-Sets getestet: MIRACL, NanoBEIR und STSEval (englische und mehrsprachige Teile von MMTEB).

	MIRACL (Durchschnitt aus 6 Sprachen)	NanoBEIR (Durchschnitt aus 13 Benchmarks)	MMTEB-STS Englisch (Durchschnitt aus 9 Benchmarks)	MMTEB-STS Mehrsprachig (Durchschnitt aus 6 Benchmarks)	Durchschnitt aus 34 Benchmarks
Kein Triplet-Training	0.3163	0.5089	0.7859	0.7322	0.5876
QA-Training	0.4489	0.5332	0.7843	0.7535	0.6237
Retrieval-Training	0.4272	0.5360	0.7766	0.7340	0.6154
STS-Training	0.1779	0.4519	0.7994	0.7651	0.5508
Zusammengeführtes Modell	0.4246	0.5309	0.7981	0.7640	0.6240

Wir sehen hier, dass die aufgabenspezifisch trainierten Modelle die beste Leistung bei jeder Aufgabe erzielen. MIRACL ist in erster Linie ein Frage-Antwort-Benchmark, auch wenn es sich um einen Retrieval-Benchmark handelt, und das QA-trainierte Modell übertrifft alle anderen, einschließlich des zusammengeführten Modells. NanoBEIR ist ein konventionelleres Information-Retrieval-Benchmark-Set, und wir sehen, dass das Retrieval-trainierte Modell hier am besten abschneidet. Das semantische Ähnlichkeitsmodell (STS) schneidet bei diesen Benchmarks recht schlecht ab, schlägt aber die anderen bei expliziten STS-Aufgaben. In jeder Kategorie schneidet das zusammengeführte Modell schlechter ab als das einzeln trainierte Modell.

Aber wiederum, wenn wir alle Benchmarks mitteln, übertrifft das zusammengeführte Modell die anderen, obwohl seine Punktzahl nur eine sehr geringe Verbesserung gegenüber dem QA-trainierten Modell darstellt und es bei STS-Aufgaben sehr schlecht abschneidet.

Wir haben auch nur die QA- und Retrieval-Modelle zusammengeführt und das resultierende Modell anhand derselben Benchmarks bewertet:

	MIRACL (Durchschnitt aus 6 Sprachen)	NanoBEIR (Durchschnitt aus 13 Benchmarks)	MMTEB-STS Englisch (Durchschnitt aus 9 Benchmarks)	MMTEB-STS Mehrsprachig (Durchschnitt aus 6 Benchmarks)	Durchschnitt aus 34 Tests	Durchschnitt QA & IR (19 Tests)	Durchschnitt STS (15 Tests)
Bestes aufgabenspezifisch trainiertes Modell	0.4489	0.5360	0.7994	0.7651	0.6237	0.5066	0.7857
Zusammengeführtes Modell	0.4246	0.5309	0.7981	0.7640	0.6240	0.4973	0.7845
QA+Retrieval zusammengeführtes Modell	0.4610	0.5404	0.7878	0.7498	0.6288	0.5153	0.7726

Wir sehen hier, dass wir zwar die Leistung sowohl bei Frage-Antwort-Systemen als auch beim Retrieval verbessern können, indem wir trainierte Modelle für die beiden Aufgaben zusammenführen, aber das Hinzufügen von STS-trainierten Modellen die aufgabenspezifische Leistung in allen Kategorien reduziert. Dies deutet darauf hin, dass die semantische Ähnlichkeit in gewisser Hinsicht anders ist als QA und Retrieval, und ein STS-trainiertes Modell ist nicht geeignet, mit den anderen beiden zusammengeführt zu werden.

Dies liegt wahrscheinlich daran, dass Frage-Antwort-Systeme und Retrieval das Abgleichen von kurzen Texten — Fragen und Anfragen — mit längeren Dokumenten beinhalten, während semantische Ähnlichkeit den Vergleich von Dokumenten ähnlicher Länge beinhaltet.

Wortsman et al. (2022) beschreiben einen selektiven Ansatz zur Mittelwertbildung, den sie als „gieriges“ Zusammenführen bezeichnen. Dabei wird ein Modell genommen, in der Regel das leistungsstärkste einer Reihe von Modellen, und dann werden nur die Modelle hinzugefügt, die die Leistung einzeln verbessern. Bei nur drei Modellen war es für dieses Experiment wenig sinnvoll, gieriges Zusammenführen zu verwenden. Wir könnten uns jedoch einen Fall mit mehr Modellen vorstellen und eine solche Technik als Grundlage für die Bestimmung des Ähnlichkeitsgrades zwischen Aufgaben verwenden. Wir haben hier festgestellt, dass die semantische Ähnlichkeit anders ist als die beiden anderen. Wir könnten dann beurteilen, wann ein Modell viele Aufgaben erfüllen kann und wann es kostengünstiger ist, ein anderes Modell zu verwenden.

tagSoup’s on!

Model Soups mischen Vielfalt zu etwas, das größer ist als die Summe ihrer Teile. Der Wert dieses Ansatzes liegt in seiner Fähigkeit, mehr Konsistenz und Robustheit zu bieten und als Schutz vor Übertraining ohne zusätzliche Trainingskosten zu dienen. Unsere Experimente zeigen, dass das Zusammenführen von Checkpoints oder aufgabenspezifischen Modellen die Gesamtleistung verbessern kann, auch wenn dies gelegentlich auf Kosten aufgabenspezifischer Spitzen geht.

Letztendlich bieten Model Soups eine praktische und sehr einfache Möglichkeit, anpassungsfähigere Modelle zu erstellen, obwohl dies mit einigen Einschränkungen verbunden ist. Es ist kein Allheilmittel und nur anwendbar, wenn sich Modelle bereits sehr ähnlich sind.

Wie man im Internet sagt: Your Mileage May Vary. Aber es ist billig und einfach herauszufinden, ob Model Soups helfen können, wenn Sie Ihre Modelle trainieren.