Quando l'IA crea l'IA: Dati Sintetici, Distillazione dei Modelli e Collasso dei Modelli

Il discorso sull'AI è spesso apocalittico. Parte della colpa è dovuta al modo in cui la fantascienza apocalittica ha creato la nostra immagine mentale dell'intelligenza artificiale. Le visioni di macchine intelligenti che possono creare altre macchine sono state un tema comune nella fantascienza per generazioni.

Molte persone si sono espresse sui rischi esistenziali degli recenti sviluppi dell'AI, molti di loro sono leader aziendali coinvolti nella commercializzazione dell'AI, e persino alcuni scienziati e ricercatori. È diventato un elemento dell'hype dell'AI: qualcosa abbastanza potente da far contemplare la fine del mondo a figure apparentemente sobrie della scienza e dell'industria deve sicuramente essere abbastanza potente da generare profitto, giusto?

Quindi, dovremmo preoccuparci dei rischi esistenziali dell'AI? Dobbiamo temere che Sam Altman creerà Ultron da ChatGPT e farà sì che il suo esercito di AI ci lanci contro città dell'Europa orientale? Dovremmo preoccuparci che Palantir di Peter Thiel stia costruendo Skynet e inviando robot con accenti austriaci inspiegabili indietro nel tempo per ucciderci?

Probabilmente no. I leader del settore devono ancora identificare un modo chiaro per far sì che l'AI paghi i propri conti, figuriamoci sconvolgere le industrie, e ancor meno minacciare l'umanità a un livello paragonabile al cambiamento climatico o alle armi nucleari.

I modelli di AI che abbiamo attualmente sono ben lontani dall'essere in grado di sterminare l'umanità. Faticano a disegnare le mani, non riescono a contare più di tre cose, pensano che sia accettabile vendere formaggio rosicchiato dai topi, e eseguono battesimi cattolici con il Gatorade. I rischi mondani e non esistenziali dell'AI — il modo in cui la tecnologia può aiutare a disinformare, molestare, generare spam ed essere utilizzata male da persone che non ne comprendono i limiti — sono già abbastanza preoccupanti.

Ma un rischio esistenziale dell'intelligenza artificiale è sicuramente legittimo: l'AI rappresenta un pericolo chiaro e presente per... l'AI.

Questa preoccupazione viene solitamente chiamata "model collapse" ed ha ricevuto una forte dimostrazione empirica in Shumailov et al. (2023) e Alemohammad et al. (2023). L'idea è semplice: se addestri modelli di AI da dati generati dall'AI, e poi prendi l'AI risultante e usi il suo output per addestrare un altro modello, ripetendo il processo per più generazioni, l'AI diventerà oggettivamente sempre peggiore. È come fare una fotocopia di una fotocopia di una fotocopia.

Deteriorating copies of an ad for the Intertec Superbrain, taken from BYTE magazine, Sept. 1981. — Copie deteriorate di una pubblicità dell'Intertec Superbrain, presa da BYTE magazine, Sept. 1981.

Recentemente c'è stata qualche discussione sul model collapse, e stanno apparendo titoli sulla stampa riguardo all'AI che sta esaurendo i dati. Se Internet si riempirà di dati generati dall'AI, e i dati creati dall'uomo diventeranno più difficili da identificare e utilizzare, allora, prima o poi, i modelli di AI raggiungeranno un limite qualitativo.

Allo stesso tempo, c'è un crescente utilizzo di tecniche di dati sintetici e model distillation nello sviluppo dell'AI. Entrambe consistono nell'addestrare modelli di AI almeno in parte sull'output di altri modelli di AI. Queste due tendenze sembrano contraddirsi a vicenda.

Le cose sono un po' più complicate di così. L'AI generativa intaserà il sistema e soffocherà il proprio progresso? O l'AI ci aiuterà a creare una migliore AI? O entrambe le cose?

Cercheremo di trovare alcune risposte in questo articolo.

tagModel Collapse

Per quanto apprezziamo Alemohammad et al. per aver inventato il termine "Model Autophagy Disorder (MAD)", "model collapse" è molto più accattivante e non coinvolge parole greche per l'auto-cannibalismo. La metafora del fare fotocopie di fotocopie comunica il problema in termini semplici, ma c'è qualcosa di più nella teoria sottostante.

Addestrare un modello di AI è un tipo di modellazione statistica, un'estensione di ciò che statistici e data scientist fanno da molto tempo. Ma, il primo giorno del corso di data science, si impara il motto del data scientist:

Tutti i modelli sono sbagliati, ma alcuni sono utili.

Questa citazione, attribuita a George Box, è la luce rossa lampeggiante che dovrebbe essere sopra ogni modello di AI. Si può sempre creare un modello statistico per qualsiasi dato, e quel modello darà sempre una risposta, ma assolutamente nulla garantisce che quella risposta sia giusta o anche solo vicina alla verità.

Un modello statistico è un'approssimazione di qualcosa. I suoi output possono essere utili, potrebbero persino essere abbastanza buoni, ma sono comunque approssimazioni. Anche se si ha un modello ben validato che, in media, è molto accurato, può e probabilmente farà ancora grandi errori a volte.

I modelli di AI ereditano tutti i problemi della modellazione statistica. Chiunque abbia giocato con ChatGPT o qualsiasi altro grande modello di AI ha visto i suoi errori.

Quindi, se un modello di AI è un'approssimazione di qualcosa di reale, un modello di AI addestrato sull'output di un altro modello di AI è un'approssimazione di un'approssimazione. Gli errori si accumulano, e intrinsecamente deve essere un modello meno corretto rispetto al modello da cui è stato addestrato.

Alemohammad et al. dimostrano che non si può risolvere il problema aggiungendo alcuni dei dati di addestramento originali all'output dell'AI prima di addestrare il nuovo modello "figlio". Questo rallenta solo il model collapse, non può fermarlo. A meno che non si introducano sufficienti dati nuovi, mai visti prima, del mondo reale durante l'addestramento con l'output dell'AI, il model collapse è inevitabile.

Quanti nuovi dati siano sufficienti dipende da fattori difficili da prevedere e specifici per ogni caso, ma più dati nuovi e reali e meno dati generati dall'AI è sempre meglio del contrario.

E questo è un problema perché tutte le fonti facilmente accessibili di nuovi dati creati dall'uomo sono già esaurite mentre la quantità di dati di immagini e testi generati dall'AI là fuori sta crescendo a passi da gigante. Il rapporto tra contenuti creati dall'uomo e contenuti creati dall'AI su Internet sta diminuendo, forse rapidamente. Non esiste un modo affidabile per rilevare automaticamente i dati generati dall'AI e molti ricercatori credono che non possa esisterne uno. L'accesso pubblico ai modelli di generazione di immagini e testi AI assicura che questo problema crescerà, probabilmente in modo drammatico, e non ha una soluzione ovvia.

La quantità di traduzioni automatiche su Internet potrebbe significare che è già troppo tardi. Il testo tradotto automaticamente su Internet ha inquinato le nostre fonti di dati per anni, molto prima della rivoluzione dell'AI generativa. Secondo Thompson, et al., 2024, possibilmente metà del testo su Internet potrebbe essere tradotto da un'altra lingua, e una grandissima parte di queste traduzioni è di scarsa qualità e mostra segni di generazione automatica. Questo può distorcere un modello linguistico addestrato su tali dati.

Come esempio, di seguito è riportato uno screenshot di una pagina del sito web Die Welt der Habsburger che mostra chiari segni di traduzione automatica. "Hamster buying" è una traduzione troppo letterale della parola tedesca hamstern, che significa fare scorta o acquisti dettati dal panico. Troppe istanze di questo tipo porteranno un modello AI a pensare che "hamster buying" sia una cosa reale in inglese e che il tedesco hamstern abbia qualcosa a che fare con i criceti domestici.

In quasi tutti i casi, avere più output AI nei dati di addestramento è negativo. Il quasi è importante, e discuteremo due eccezioni qui sotto.

tagDati Sintetici

I dati sintetici sono dati di addestramento o valutazione dell'AI che sono stati generati artificialmente invece che trovati nel mondo reale. Nikolenko (2021) fa risalire i dati sintetici ai primi progetti di computer vision negli anni '60 e ne delinea la storia come elemento importante di quel campo.

Ci sono molte ragioni per utilizzare dati sintetici. Una delle più importanti è combattere il bias.

I modelli linguistici di grandi dimensioni e i generatori di immagini hanno ricevuto molte critiche di alto profilo riguardo al bias. La parola bias ha un significato rigoroso in statistica, ma queste critiche spesso riflettono considerazioni morali, sociali e politiche che non hanno una semplice forma matematica o soluzione ingegneristica.

Il bias che non si vede facilmente è molto più dannoso e molto più difficile da correggere. I modelli che l'AI impara a replicare sono quelli visti nei suoi dati di addestramento, e dove questi dati hanno carenze sistematiche, il bias è una conseguenza inevitabile. Più cose diverse ci aspettiamo che l'AI faccia — più diversi sono gli input al modello — più possibilità ci sono che commetta errori perché non ha mai visto abbastanza casi simili nel suo addestramento.

Il ruolo principale dei dati sintetici nell'addestramento dell'AI oggi è garantire che ci siano abbastanza esempi di certi tipi di situazioni nei dati di addestramento, situazioni che potrebbero non essere sufficientemente presenti nei dati naturali disponibili.

Di seguito è riportata un'immagine che MidJourney ha prodotto quando sollecitato con "doctor": quattro uomini, tre bianchi, tre in camici bianchi con stetoscopi, e uno decisamente anziano. Questo non riflette la reale razza, età, genere o abbigliamento dei veri medici nella maggior parte dei paesi e contesti, ma probabilmente riflette le immagini etichettate che si trovano su Internet.

Quando sollecitato di nuovo, ha prodotto una donna e tre uomini, tutti bianchi, anche se uno è un cartone animato. L'AI può essere strana.

Questa particolare fonte di bias è una di quelle che i generatori di immagini AI hanno cercato di prevenire, quindi non otteniamo più risultati così chiaramente distorti come forse un anno fa dagli stessi sistemi. Un bias è visibilmente ancora presente, ma non è ovvio come dovrebbe apparire un risultato privo di bias.

Tuttavia, non è difficile capire come un'AI possa acquisire questi tipi di pregiudizi. Di seguito sono riportate le prime tre immagini trovate per "doctor" sul sito di foto Shutterstock: Tre uomini, due più anziani e bianchi. I bias dell'AI sono i bias del suo addestramento, e se si addestrano modelli utilizzando dati non curati, si troveranno sempre questi tipi di bias.

Un modo per mitigare questo problema è utilizzare un generatore di immagini AI per creare immagini di medici più giovani, donne medico, medici che sono persone di colore e medici che indossano camici, completi o altri indumenti, e poi includerli nell'addestramento. I dati sintetici utilizzati in questo modo possono migliorare le prestazioni del modello AI, almeno rispetto a qualche norma esterna, invece di portare al collasso del modello. Tuttavia, distorcere artificialmente le distribuzioni dei dati di addestramento può creare effetti collaterali indesiderati, come Google ha recentemente scoperto.

tagDistillazione del Modello

La distillazione del modello è una tecnica per addestrare un modello direttamente da un altro. Un modello generativo addestrato — l'"insegnante" — crea tanti dati quanti ne servono per addestrare un modello "studente" non addestrato o meno addestrato.

Come ci si aspetterebbe, il modello "studente" non può mai essere migliore dell'"insegnante". A prima vista, ha poco senso addestrare un modello in questo modo, ma ci sono dei vantaggi. Il principale è che il modello "studente" può essere molto più piccolo, veloce o efficiente dell'"insegnante", pur approssimandone da vicino le prestazioni.

La relazione tra dimensione del modello, dati di addestramento e prestazioni finali è complicata. Tuttavia, in generale, a parità di condizioni:

Un modello più grande ha prestazioni migliori di uno piccolo.
Un modello addestrato con più dati o dati migliori (o almeno dati di addestramento più diversificati) ha prestazioni migliori di uno addestrato con meno dati o dati di qualità inferiore.

Questo significa che un modello piccolo può, a volte, avere prestazioni pari a quelle di uno grande. Per esempio, jina-embeddings-v2-base-en supera significativamente molti modelli molto più grandi nei benchmark standard:

Model	Size in parameters	MTEB average score
jina-embeddings-v2-base-en	137M	60.38
`multilingual-e5-base`	278M	59.45
`sentence-t5-xl`	1240M	57.87

La distillazione del modello è un modo per prendere un modello grande, troppo costoso da eseguire, e utilizzarlo per creare un modello più piccolo ed economico. In ogni caso c'è una certa perdita di prestazioni, ma nei casi migliori può essere molto ridotta. Dati i costi associati ai modelli di AI molto grandi, questi benefici sono piuttosto sostanziali. La distillazione produce modelli che funzionano più velocemente, su chip più economici, con meno memoria e minor consumo energetico. Inoltre, i modelli grandi possono apprendere pattern sorprendentemente sottili da dati non curati, pattern che un modello più piccolo non potrebbe mai apprendere dagli stessi dati. Un modello grande può quindi produrre dati di training molto più diversificati rispetto a quelli su cui è stato addestrato, abbastanza da permettere al modello più piccolo di apprendere gli stessi pattern sottili. Una volta che si ha un grande modello addestrato, lo si può utilizzare per "insegnare" ciò che ha appreso a un modello più piccolo che non avrebbe mai potuto apprenderlo da solo. La distillazione è, in questi casi, talvolta un modo migliore per apprendere rispetto all'uso di dati di training reali. ## Stiamo Quindi Andando Tutti All'Inferno? Forse. La buona notizia è che senza una soluzione al collasso del modello, probabilmente non saremo in grado di addestrare un'AI superintelligente capace di sterminare l'umanità, almeno non con i metodi che abbiamo usato finora. Possiamo tranquillamente tornare a preoccuparci del cambiamento climatico e della guerra nucleare.

⚠️

Se il paragrafo precedente suonava sarcastico, è intenzionale.

Per l'industria dell'AI, il quadro non è altrettanto ottimistico. Il motto del machine learning è stato a lungo "più dati sono dati migliori". (A volte: "Non ci sono dati come più dati".) Gli statistici sanno tutti che è sbagliato. Il buon senso dice che è sbagliato. Ma è una strategia che ha funzionato per i ricercatori di AI per molto tempo, almeno da quando ho iniziato come ricercatore nella traduzione automatica nei primi anni 2000. Ci sono ragioni per questo. I _dati diversificati_ — dati che includono molte possibilità diverse — sono una fonte di training molto migliore dei dati uniformi. E, in pratica, nel mondo reale, più dati significano solitamente dati più diversificati. Ma stiamo esaurendo le nuove fonti di dati buoni e diversificati, e la creazione di nuove opere umane difficilmente terrà il passo con la generazione AI. In un modo o nell'altro, dovremo alla fine cambiare il modo in cui addestriamo i modelli AI. Altrimenti, potremmo raggiungere una soglia di prestazioni che non riusciamo più a superare. Questo trasformerebbe l'industria, poiché l'attenzione si sposterebbe dalla costruzione e dall'esecuzione di modelli più grandi e costosi allo sviluppo di framework, contesti e nicchie in cui i modelli esistenti possono portare nuovo valore aggiunto. ## Come Jina AI Addestra i Suoi Modelli AI In Jina AI, cerchiamo di portare ai nostri utenti i benefici delle migliori pratiche AI. Anche se non produciamo LLM generativi di testo o generatori di immagini AI, siamo comunque preoccupati del problema del collasso del modello. Utilizziamo sottoinsiemi del Common Crawl per la maggior parte del nostro pre-training e poi utilizziamo dati curati e sintetici per ottimizzare le prestazioni dei nostri modelli. Ci sforziamo di portare prestazioni all'avanguardia a modelli economicamente vantaggiosi e embedding compatti e a bassa dimensionalità. Tuttavia, il collasso del modello è un problema inevitabile per i dati del Common Crawl. Prevediamo di passare nel tempo a utilizzare più dati curati e meno del Common Crawl. Ci aspettiamo che altri attori dell'industria AI facciano lo stesso. Questo avrà dei costi — sia in termini di denaro che di tasso di miglioramento della qualità — ma è troppo presto per cercare di stimarli. Utilizziamo dati sintetici in aree dove i modelli di embedding hanno problemi noti. Per esempio, i modelli AI faticano a rappresentare la negazione. "Ricette con carne" e "ricette senza carne" tipicamente hanno embedding molto vicini tra loro, ma gli utenti spesso hanno bisogno che siano molto distanti. Il nostro maggior uso di dati sintetici è la creazione di un ampio corpus di coppie di frasi generate dall'AI distinte da quel tipo di negazione (chiamata _polarità_ in AI e in alcuni tipi di linguistica), e poi utilizzarlo per migliorare i nostri modelli. Per esempio, qui sotto c'è una proiezione 2D di embedding ipotetici. "Ricette con carne" e "Ricette senza carne" sono relativamente vicine tra loro. "Hamburger con formaggio e bacon" è molto più vicino a "Ricette con carne" che a qualsiasi altra cosa, e "Falafel" è più vicino a "Ricette senza carne" che a "Ricette con carne". Tuttavia, "Hamburger con formaggio e bacon" è molto più vicino a "Ricette senza carne" di quanto lo sia "Falafel".

Una proiezione 2D di embedding ipotetici.

Guardando solo gli embedding, potremmo concludere che gli hamburger con formaggio e bacon sono un esempio migliore di una ricetta senza carne rispetto al falafel. Per prevenire questo, addestriamo i nostri modelli con dati sintetici. Utilizziamo un LLM per generare coppie di frasi con polarità opposte – come "X con Y" / "X senza Y" – e addestriamo i nostri modelli di embedding a separare queste coppie. Utilizziamo anche dati sintetici per altri tipi di negative mining mirato, una collezione di tecniche utilizzate per migliorare aspetti specifici delle prestazioni del modello AI presentandogli dati curati.

Una proiezione 2D di embedding ipotetici dopo aver migliorato il modello sottostante. — Una proiezione 2D di embedding ipotetici dopo aver migliorato il modello sottostante con coppie di frasi a polarità invertita.

Utilizziamo anche l'AI generativa per addestrare modelli di embedding per linguaggi di programmazione, sfruttando grandi modelli che generano copiosi esempi di codice, in modo da poter incorporare correttamente anche caratteristiche piuttosto oscure di specifici linguaggi e framework. La distillazione del modello è fondamentale per come produciamo modelli compatti che risparmiano risorse di calcolo. La distillazione è molto più efficiente e affidabile dell'addestramento da zero, e i nostri risultati mostrano che un modello distillato può ancora avere prestazioni di prima qualità. La tabella seguente mostra i modelli reranker distillati di Jina AI confrontati con il reranker base usato per addestrarli e con altri modelli con molti più parametri ma prestazioni inferiori.

	Model	BEIR Score	Parameter count
	jina-reranker-v1-base-en	52.45	137M
Distilled	jina-reranker-v1-turbo-en	49.60	38M
Distilled	jina-reranker-v1-tiny-en	48.54	33M
	`mxbai-rerank-base-v1`	49.19	184M
	`mxbai-rerank-xsmall-v1`	48.80	71M
	`bge-reranker-base`	47.89	278M

Sappiamo che l'AI può essere un investimento costoso e che le imprese sono sempre più consapevoli dei loro obblighi morali e legali di ridurre le emissioni di carbonio. Anche noi siamo consapevoli di queste cose. La distillazione del modello è una parte importante di come affrontiamo queste preoccupazioni. ## Lascia Che Ti Aiutiamo a Navigare nell'AI Jina AI si impegna a portare alle imprese soluzioni AI accessibili, efficienti e funzionanti. Possiamo integrarci con la tua infrastruttura cloud esistente su Azure e AWS. Forniamo API web che rispettano rigorosi standard di sicurezza e privacy e non conservano i tuoi dati per il nostro addestramento. Possiamo aiutarti a installare i nostri modelli open-source sul tuo hardware, mantenendo l'intera operazione in-house. Può essere difficile separare l'hype dalla tecnologia e rimanere al passo con le migliori pratiche in questo campo in rapida evoluzione. Lascia che lo facciamo noi per te.