La ricetta di Model Soup per gli Embeddings

In questi tempi difficili, niente batte una bella ciotola di zuppa calda.

Il minestrone è una delle zuppe classiche italiane: densa, sostanziosa, saporita, che combina fagioli, verdure sostanziose e riso o pasta. Il suo sapore è il risultato dell'assemblaggio di diversi ingredienti. È un po' come il borscht nell'Europa orientale, le casseruole in America o un saltato in padella fatto in casa nell'Asia del Pacifico, in quanto combina ingredienti disponibili ed economici in un piatto amato.

Possiamo usare più o meno lo stesso tipo di ricetta per i modelli di rete neurale, secondo una serie di articoli a partire da Wortsman et al. (2022).

Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time

The conventional recipe for maximizing model accuracy is to (1) train multiple models with various hyperparameters and (2) pick the individual model which performs best on a held-out validation set…

PMLR

Le "model soups" (ahimè, non "model casseroles" o "model stir-fries") sono una classe di tecniche di model ensembling progettate per mitigare il costo dell'ottimizzazione dei dati di training e degli iperparametri del modello. Quando si addestra una rete neurale, in genere si provano diversi dati e valori di iperparametri e si addestra più volte, cercando il risultato con le prestazioni migliori. L'addestramento è molto costoso dal punto di vista computazionale e i costi si sommano rapidamente.

Invece, le model soups prevedono l'addestramento di più modelli con diversi iperparametri e scelte di dati di training — lo stesso che si farebbe normalmente — ma poi li si combina. Il risultato è un modello più performante e più robusto del singolo modello con le prestazioni migliori. Non consente di risparmiare sui costi perché si addestrano comunque più modelli, ma si può ottenere un risultato migliore allo stesso prezzo.

L'approccio model soup si è già dimostrato utile per i modelli di embedding multimodale testo-immagine (Wortsman et al. 2022) e per i modelli generativi di grandi dimensioni del linguaggio. (Takuya et al. 2025) In Jina AI, abbiamo iniziato a utilizzare questa tecnica per addestrare i nostri modelli e sia jina-embeddings-v3 che reader-lm-v2 incorporano model soups.

In questo articolo, esamineremo le model soups e mostreremo i risultati di alcuni dei nostri lavori con esse. Nello specifico:

Possiamo usare le model soups per migliorare le prestazioni unendo modelli in diversi punti del loro addestramento?
Possiamo unire modelli addestrati con diversi set di dati e per diversi compiti per ottenere prestazioni migliori e una maggiore efficienza di addestramento rispetto all'addestramento di un singolo modello?

Questo ha importanti potenziali vantaggi:

Le model soups possono avere prestazioni migliori e più robuste.
I modelli di embedding multilingue spesso soffrono di bias e cali di prestazioni causati da quantità disuguali di dati di training. Sarebbe un vantaggio poter addestrare individualmente il modello migliore possibile per ogni compito o set di dati e poi combinarli equamente.
Potremmo essere in grado di fare un apprendimento continuo e un aggiornamento del modello migliori apportando modifiche ai nostri modelli in modo modulare, aggiornando un componente del modello alla volta e poi riunendolo con gli altri.

tagCome funziona?

Unire gli output di più modelli è una vecchia tecnica nella teoria delle decisioni statistiche. Ad esempio, è una pratica comune nelle previsioni del tempo creare più modelli, spesso realizzati da persone diverse con presupposti diversi, e quindi utilizzare una varietà di meccanismi per calcolare la media delle loro previsioni. Se gli errori di ciascun modello sono distribuiti in modo casuale, la media dei modelli porterà a risposte con meno errori.

Ad esempio, se si hanno tre diversi modelli che restituiscono un "sì" o un "no" binario e ognuno di essi è sbagliato il 10% delle volte, allora due su tre saranno sbagliati solo il 2,8% delle volte. Cinque modelli, con un criterio di decisione a maggioranza, saranno sbagliati solo lo 0,856% delle volte.

La media dei modelli funziona sullo stesso principio, ma invece di combinare gli output di modelli diversi, combina i modelli stessi.

L'approccio utilizzato è un'estensione dello stochastic weight averaging (Izmailov et al. 2018), che si basa su intuizioni sui paesaggi di perdita delle reti neurali per mostrare che la semplice media dei pesi può migliorare le prestazioni di generalizzazione del modello in condizioni comuni.

La meccanica effettiva della media dei modelli è incredibilmente semplice: basta fare la media dei pesi di più modelli.

Come vengono uniti i modelli per creare una model soup. Questo esempio è molto piccolo e semplice, ma mostra comunque la procedura: sommare i pesi e dividere per il numero di modelli da unire.

Se questo sembra troppo facile, è importante notare che ci sono dei limiti quando si uniscono i modelli in questo modo. Non si possono semplicemente unire i pesi di due reti neurali qualsiasi e aspettarsi che funzioni.

La media dei modelli funziona solo su modelli molto simili, cioè modelli i cui pesi non sono molto diversi l'uno dall'altro per cominciare. Il modo per assicurarsi che sia così è quello di pre-addestrare un modello e poi creare più varianti di quel modello mettendolo a punto con diversi iperparametri o dati diversi. Questi modelli saranno in genere abbastanza simili da poter essere mediati.

In termini più tecnici, il pre-addestramento di solito produce un modello i cui pesi sono vicini al fondo di un bacino di perdita e la messa a punto non porta facilmente a sfuggire a quel bacino di perdita. Se tutti i modelli da unire hanno pesi nello stesso bacino di perdita, allora i loro pesi saranno abbastanza vicini tra loro ed è probabile che la loro media funzioni. Questo non è garantito, ma empiricamente sembra essere vero abbastanza spesso da essere utile.

tagConfigurazione sperimentale

Modello di base: per gli esperimenti qui descritti, abbiamo usato xlm-roberta-base di FacebookAI (Conneau et al. 2020) come modello di base pre-addestrato. Questo modello ha 280 milioni di parametri ed è stato pre-addestrato su 2,5 TB di dati Common Crawl contenenti testo in circa 100 lingue.

Abbiamo messo a punto xlm-roberta-base sul nostro set di training di coppie di frasi curato per l'addestramento di embedding, prima di eseguire i nostri esperimenti.

Dati di training: Jina AI mantiene set di dati curati personalizzati per l'addestramento. Per il primo esperimento, abbiamo usato terne di frasi specificamente curate per l'addestramento contrastivo in sei lingue: inglese, arabo, tedesco, spagnolo, giapponese e cinese. Per il secondo esperimento, abbiamo usato set di dati di training specifici per il compito in inglese.

Valutazione: abbiamo usato parti rilevanti del set di benchmark MMTEB (Enevoldsen et al. 2025) e del benchmark MIRACL (Zhang et al. 2023) per valutare i modelli prodotti dal nostro addestramento e dall'unione.

tagEsperimento 1: media a esecuzione singola

Per questo esperimento, abbiamo usato terne di frasi contrastive in tutte e sei le lingue, mescolate insieme, per un totale di 6.000 passaggi di addestramento con una dimensione del batch di 1.024 elementi. Ogni 2.000 passaggi, abbiamo salvato lo stato del modello per la media, producendo 3 modelli, ognuno dei quali riflette un punto diverso nel processo di addestramento.

Abbiamo fatto la media dei tre modelli per produrre un modello finale. Abbiamo quindi testato il modello unito e i tre checkpoint salvati rispetto ai set di benchmark MMTEB-STS e MIRACL.

I nostri risultati sono riassunti nella tabella seguente:

Modello	MIRACL (media di 6 lingue)	MMTEB-STS inglese (media di 8 benchmark)	MMTEB-STS multilingue (media di 6 benchmark)	Media di 20 benchmark
Nessun training a terne	0.3163	0.7859	0.7322	0.6276
Passaggio 2000	0.4631	0.7924	0.7561	0.6813
Passaggio 4000	0.4639	0.7902	0.7583	0.6812
Passaggio 6000 (finale)	0.4680	0.7891	0.7575	0.6818
Modello unito (tutti e 3 i checkpoint memorizzati)	0.4669	0.7910	0.7579	0.6823

L'unione con i checkpoint precedenti non ha in genere prodotto un modello con prestazioni migliori rispetto al modello con le prestazioni migliori tra i checkpoint memorizzati sui singoli benchmark o su una qualsiasi delle tre batterie di benchmark utilizzate. Tuttavia, ha prodotto il modello migliore su tutti i benchmark mediati insieme.

Nei singoli benchmark, la differenza tra il modello unito e il checkpoint con le prestazioni migliori è in ogni caso inferiore a 0,01. Questo è vero non solo per le medie nella tabella sopra, ma per ogni singolo test.

Questo dimostra che l'unione di diversi checkpoint di addestramento può produrre un modello più robusto a un costo di prestazioni molto basso.

Inoltre, unendo i diversi checkpoint, possiamo proteggerci efficacemente dall'overtraining. L'overtraining è recentemente diventato un argomento importante nelle reti neurali. (Springer et al., 2025) Una rete può essere addestrata in un modo che la rende più difficile e con prestazioni peggiori dopo un'ulteriore messa a punto.

Poiché il checkpoint con le prestazioni migliori nel nostro esperimento non è spesso l'ultimo, probabilmente abbiamo sovra-addestrato il nostro modello a 6.000 passaggi di addestramento. Il modello unito si avvicina molto alle prestazioni del checkpoint migliore in tutti i test, rimuovendo i difetti dell'overtraining.

tagEsperimento 2: media dei modelli addestrati per compiti diversi

Per questo esperimento, abbiamo addestrato tre modelli, ognuno per un diverso compito di embedding comune:

Somiglianza semantica: misurazione della sovrapposizione relativa o della somiglianza di significato tra due testi, tipicamente di lunghezza comparabile.
Recupero di documenti basato su query testuali: trovare i documenti che meglio soddisfano una query. Le query sono generalmente testi molto più brevi rispetto ai documenti a cui corrispondono.
Risposta a domande: trovare il documento che meglio risponde a una domanda in linguaggio naturale. Anche le domande sono generalmente più brevi dei testi a cui corrispondono.

Addestrare modelli per tutte e tre le attività contemporaneamente è piuttosto difficile perché gli obiettivi sono molto dissimili e speriamo che le "model soup" migliorino il processo.

In base all'esperienza precedente, sapevamo che ogni attività richiedeva un numero diverso di epoche di addestramento. L'addestramento è riassunto di seguito:

Task	Training Steps (batchsize = 1,024)	Training Dataset Size (in items)
Question Answering (QA)	2,000	256,000
Document Retrieval	3,000	384,000
Semantic Similarity (STS)	1,000	128,000

Questo ha prodotto tre modelli, che abbiamo poi unito in un unico modello. Abbiamo testato il modello risultante rispetto alle parti del benchmark MMTEB rilevanti per quelle tre attività: MIRACL, NanoBEIR e STSEval (parti inglese e multilingue di MMTEB).

	MIRACL (media di 6 lingue)	NanoBEIR (media di 13 benchmark)	MMTEB-STS English (media di 9 benchmark)	MMTEB-STS Multilingual (media di 6 benchmark)	Media di 34 benchmark
Nessun addestramento tripletto	0.3163	0.5089	0.7859	0.7322	0.5876
Addestramento QA	0.4489	0.5332	0.7843	0.7535	0.6237
Addestramento al recupero	0.4272	0.5360	0.7766	0.7340	0.6154
Addestramento STS	0.1779	0.4519	0.7994	0.7651	0.5508
Modello unito	0.4246	0.5309	0.7981	0.7640	0.6240

Qui vediamo che i modelli addestrati per attività specifiche hanno le migliori prestazioni su ciascuna attività. MIRACL è principalmente un benchmark di risposta a domande, anche se viene chiamato di recupero, e il modello addestrato per QA supera tutti gli altri, incluso il modello unito. NanoBEIR è un insieme di benchmark di information retrieval più convenzionale e vediamo che il modello addestrato per il recupero è il migliore. Il modello di similarità semantica (STS) ottiene punteggi piuttosto bassi su questi benchmark, ma batte gli altri su attività STS esplicite. Per ogni categoria, il modello unito si comporta peggio del modello addestrato per una singola attività.

Ma ancora una volta, se facciamo la media di tutti i benchmark, il modello unito supera gli altri, anche se il suo punteggio rappresenta solo un piccolissimo miglioramento rispetto al modello addestrato per QA ed è un interprete molto scarso nelle attività STS.

Abbiamo anche unito solo i modelli QA e di recupero e abbiamo valutato il modello risultante sugli stessi benchmark:

	MIRACL (media di 6 lingue)	NanoBEIR (media di 13 benchmark)	MMTEB-STS English (media di 9 benchmark)	MMTEB-STS Multilingual (media di 6 benchmark)	Media di 34 test	Media QA & IR (19 test)	Media STS (15 test)
Miglior modello addestrato per task	0.4489	0.5360	0.7994	0.7651	0.6237	0.5066	0.7857
Modello unito	0.4246	0.5309	0.7981	0.7640	0.6240	0.4973	0.7845
Modello unito QA+Retrieval	0.4610	0.5404	0.7878	0.7498	0.6288	0.5153	0.7726

Vediamo qui che, sebbene possiamo migliorare le prestazioni sia nella risposta a domande che nel recupero unendo modelli addestrati per le due attività, l'aggiunta di modelli addestrati per STS riduce le prestazioni specifiche per attività in tutte le categorie. Ciò suggerisce che la similarità semantica è, per alcuni aspetti importanti, diversa da QA e recupero e un modello addestrato per STS non è adatto per essere unito agli altri due.

Ciò è probabilmente dovuto al fatto che la risposta a domande e il recupero implicano l'abbinamento di testi brevi, ovvero domande e query, a documenti più lunghi, mentre la similarità semantica implica il confronto di documenti di lunghezza più simile.

Wortsman et al. (2022) descrivono un approccio selettivo alla media che chiamano fusione "greedy". Consiste nel prendere un modello, di solito il migliore di una serie di modelli, e quindi aggiungere solo quei modelli che migliorano individualmente le prestazioni. Con soli tre modelli, non aveva molto senso utilizzare la fusione greedy per questo esperimento. Tuttavia, potremmo immaginare un caso con più modelli e utilizzare una tecnica come questa come base per determinare il grado di similarità tra le attività. Qui abbiamo scoperto che la similarità semantica è diversa dalle altre due. Potremmo quindi valutare quando un modello può eseguire molte attività e quando è più conveniente utilizzare un modello diverso.

tagSoup’s on!

Le "model soup" fondono la diversità in qualcosa di più grande della somma delle loro parti. Il valore di questo approccio risiede nella sua capacità di offrire maggiore coerenza, robustezza e di agire come salvaguardia contro l'overtraining senza costi di addestramento aggiuntivi. I nostri esperimenti dimostrano che l'unione di checkpoint o modelli specializzati per attività può migliorare le prestazioni complessive, anche se a volte ciò avviene a scapito dei picchi specifici per attività.

Alla fine, le "model soup" offrono un modo pratico e molto semplice per costruire modelli più adattabili, anche se con alcune avvertenze. Non è una panacea ed è applicabile solo quando i modelli sono già molto simili.

Come si dice su internet, Your Mileage May Vary. Ma è economico e facile scoprire se le "model soup" possono aiutarti quando addestri i tuoi modelli.