Wenn KI KI erschafft: Synthetische Daten, Model Distillation und Model Collapse

Gespräche über KI sind oft apokalyptisch. Ein Teil der Schuld liegt darin, wie apokalyptische Science-Fiction unser mentales Bild von künstlicher Intelligenz geprägt hat. Visionen von intelligenten Maschinen, die weitere Maschinen herstellen können, sind seit Generationen ein häufiges Motiv in der Science-Fiction.

Viele Menschen haben sich zu existenziellen Risiken durch die jüngsten Entwicklungen in der KI geäußert, viele davon Wirtschaftsführer, die an der Kommerzialisierung von KI beteiligt sind, und sogar einige Wissenschaftler und Forscher. Es ist zu einem Bestandteil des KI-Hypes geworden: Etwas, das mächtig genug ist, um nüchtern wirkende Ikonen aus Wissenschaft und Industrie über das Ende der Welt nachdenken zu lassen, muss sicherlich auch mächtig genug sein, um Profit zu machen, oder?

Sollten wir uns also Sorgen über existenzielle Risiken durch KI machen? Müssen wir befürchten, dass Sam Altman aus ChatGPT einen Ultron erschafft und dessen KI-Armee osteuropäische Städte auf uns wirft? Sollten wir uns Sorgen machen, dass Peter Thiels Palantir Skynet aufbaut und Roboter mit unerklärlichem österreichischem Akzent in die Vergangenheit schickt, um uns zu töten?

Wahrscheinlich nicht. Wirtschaftsführer haben bisher noch keinen klaren Weg gefunden, wie KI ihre eigenen Rechnungen bezahlen kann, geschweige denn Industrien durcheinanderbringen, und noch weniger die Menschheit in einem Ausmaß bedrohen kann, das mit dem Klimawandel oder Atomwaffen vergleichbar wäre.

Die KI-Modelle, die wir tatsächlich haben, sind kaum in der Lage, die Menschheit auszulöschen. Sie haben Schwierigkeiten, Hände zu zeichnen, können nicht mehr als drei Dinge zählen, denken, es sei in Ordnung, Menschen Käse zu verkaufen, an dem Ratten genagt haben, und führen katholische Taufen mit Gatorade durch. Die mundanen, nicht-existenziellen Risiken der KI – die Art und Weise, wie die Technologie dabei helfen kann, Fehlinformationen zu verbreiten, zu belästigen, Spam zu generieren und von Menschen, die sich ihrer Grenzen nicht bewusst sind, schlecht eingesetzt zu werden – sind besorgniserregend genug.

Aber ein existenzielles Risiko der künstlichen Intelligenz ist definitiv legitim: KI stellt eine klare und gegenwärtige Gefahr für... KI dar.

Diese Befürchtung wird normalerweise als "Model Collapse" bezeichnet und wurde in Shumailov et al. (2023) und Alemohammad et al. (2023) empirisch nachgewiesen. Die Idee ist einfach: Wenn man KI-Modelle mit KI-generierten Daten trainiert und dann die resultierende KI verwendet, um ein weiteres Modell zu trainieren, wobei dieser Prozess über mehrere Generationen wiederholt wird, wird die KI objektiv immer schlechter. Es ist wie eine Fotokopie einer Fotokopie einer Fotokopie.

Deteriorating copies of an ad for the Intertec Superbrain, taken from BYTE magazine, Sept. 1981. — Sich verschlechternde Kopien einer Werbung für den Intertec Superbrain, aus der BYTE Zeitschrift, Sept. 1981.

In letzter Zeit gab es einige Diskussionen über den Model Collapse, und es erscheinen Schlagzeilen darüber, dass KI-Unternehmen die Trainingsdaten ausgehen. Wenn das Internet mit KI-generierten Daten überfüllt wird und von Menschen erstellte Daten schwieriger zu identifizieren und zu nutzen sind, werden KI-Modelle bald an eine Qualitätsgrenze stoßen.

Gleichzeitig gibt es eine zunehmende Verwendung von synthetischen Daten und Model Distillation Techniken in der KI-Entwicklung. Beide bestehen darin, KI-Modelle zumindest teilweise mit der Ausgabe anderer KI-Modelle zu trainieren. Diese beiden Trends scheinen sich zu widersprechen.

Die Dinge sind etwas komplizierter als das. Wird generative KI den Fortschritt durch Spam ersticken und seinen eigenen Fortschritt behindern? Oder wird KI uns helfen, bessere KI zu entwickeln? Oder beides?

Wir werden versuchen, in diesem Artikel einige Antworten zu finden.

tagModel Collapse

So sehr wir Alemohammad et al. dafür schätzen, dass sie den Begriff "Model Autophagy Disorder (MAD)" erfunden haben, "Model Collapse" ist viel eingängiger und kommt ohne griechische Wörter für Selbstkannibalismus aus. Die Metapher vom Anfertigen von Fotokopien von Fotokopien vermittelt das Problem in einfachen Worten, aber es steckt noch etwas mehr hinter der zugrunde liegenden Theorie.

Das Training eines KI-Modells ist eine Art der statistischen Modellierung, eine Erweiterung dessen, was Statistiker und Data Scientists schon lange tun. Aber am ersten Tag der Data Science-Klasse lernt man das Motto des Data Scientists:

Alle Modelle sind falsch, aber einige sind nützlich.

Dieses Zitat, das George Box zugeschrieben wird, ist das blinkende rote Licht, das über jedem KI-Modell stehen sollte. Man kann immer ein statistisches Modell für beliebige Daten erstellen, und dieses Modell wird immer eine Antwort geben, aber absolut nichts garantiert, dass diese Antwort richtig oder auch nur annähernd richtig ist.

Ein statistisches Modell ist eine Annäherung an etwas. Seine Ausgaben können nützlich sein, sie könnten sogar gut genug sein, aber es bleiben Annäherungen. Selbst wenn man ein gut validiertes Modell hat, das im Durchschnitt sehr genau ist, kann und wird es wahrscheinlich trotzdem manchmal große Fehler machen.

KI-Modelle erben alle Probleme der statistischen Modellierung. Jeder, der mit ChatGPT oder einem anderen großen KI-Modell gespielt hat, hat gesehen, wie es Fehler macht.

Wenn also ein KI-Modell eine Annäherung an etwas Reales ist, dann ist ein KI-Modell, das mit der Ausgabe eines anderen KI-Modells trainiert wurde, eine Annäherung an eine Annäherung. Die Fehler häufen sich, und es muss zwangsläufig ein weniger korrektes Modell sein als das Modell, von dem es trainiert wurde.

Alemohammad et al. zeigen, dass man das Problem nicht beheben kann, indem man einige der ursprünglichen Trainingsdaten zur KI-Ausgabe hinzufügt, bevor man das neue "Kind"-Modell trainiert. Das verlangsamt den Model Collapse nur, kann ihn aber nicht aufhalten. Wenn nicht genügend neue, bisher ungesehene Daten aus der realen Welt beim Training mit KI-Ausgabe eingeführt werden, ist der Model Collapse unvermeidlich.

Wie viele neue Daten ausreichend sind, hängt von schwer vorhersehbaren, fallspezifischen Faktoren ab, aber mehr neue, echte Daten und weniger KI-generierte Daten sind immer besser als das Gegenteil.

Und das ist ein Problem, weil alle leicht zugänglichen Quellen für neue, von Menschen erstellte Daten bereits ausgeschöpft sind, während die Menge an KI-generierten Bild- und Textdaten dort draußen sprunghaft zunimmt. Das Verhältnis von menschlich erstellten zu KI-erstellten Inhalten im Internet sinkt, möglicherweise sogar schnell. Es gibt keine zuverlässige Möglichkeit, KI-generierte Daten automatisch zu erkennen, und viele Forscher glauben, dass es keine geben kann. Der öffentliche Zugang zu KI-Bild- und Textgenerierungsmodellen sorgt dafür, dass dieses Problem wachsen wird, wahrscheinlich dramatisch wachsen wird, und keine offensichtliche Lösung hat.

Die Menge an maschineller Übersetzung im Internet könnte bedeuten, dass es bereits zu spät ist. Maschinell übersetzte Texte im Internet verschmutzen unsere Datenquellen schon seit Jahren, lange vor der generativen KI-Revolution. Laut Thompson et al., 2024 könnte möglicherweise die Hälfte der Texte im Internet aus einer anderen Sprache übersetzt sein, und ein sehr großer Teil dieser Übersetzungen ist von schlechter Qualität und zeigt Anzeichen maschineller Erzeugung. Dies kann ein Sprachmodell, das mit solchen Daten trainiert wurde, verzerren.

Als Beispiel sehen Sie unten einen Screenshot von einer Seite der Website Die Welt der Habsburger, der deutliche Anzeichen maschineller Übersetzung zeigt. "Hamster buying" ist eine zu wörtliche Übersetzung des deutschen Wortes hamstern, das to hoard oder panic-buying bedeutet. Zu viele solcher Fälle werden dazu führen, dass ein KI-Modell denkt, "hamster buying" sei eine echte Sache im Englischen und das deutsche hamstern hätte etwas mit Haustierhamstern zu tun.

In fast allen Fällen ist es schlecht, mehr KI-Output in Ihren Trainingsdaten zu haben. Das fast ist wichtig, und wir werden unten zwei Ausnahmen besprechen.

tagSynthetische Daten

Synthetische Daten sind KI-Trainings- oder Evaluierungsdaten, die künstlich erzeugt wurden, anstatt in der realen Welt gefunden zu werden. Nikolenko (2021) datiert synthetische Daten zurück zu frühen Computer-Vision-Projekten in den 1960er Jahren und skizziert ihre Geschichte als wichtiges Element dieses Feldes.

Es gibt viele Gründe, synthetische Daten zu verwenden. Einer der wichtigsten ist die Bekämpfung von Voreingenommenheit.

Große Sprachmodelle und Bildgeneratoren haben viele bekannte Beschwerden über Voreingenommenheit erhalten. Das Wort Voreingenommenheit hat eine strenge Bedeutung in der Statistik, aber diese Beschwerden spiegeln oft moralische, soziale und politische Überlegungen wider, die keine einfache mathematische Form oder technische Lösung haben.

Die Voreingenommenheit, die man nicht leicht sieht, ist weitaus schädlicher und viel schwieriger zu beheben. Die Muster, die KI-Modelle lernen zu replizieren, sind diejenigen, die in ihren Trainingsdaten zu sehen sind, und wo diese Daten systematische Mängel aufweisen, ist Voreingenommenheit eine unvermeidliche Folge. Je mehr verschiedene Dinge wir von KI erwarten - je vielfältiger die Eingaben für das Modell - desto größer ist die Chance, dass es etwas falsch macht, weil es nie genug ähnliche Fälle in seinem Training gesehen hat.

Die Hauptrolle synthetischer Daten im KI-Training heute besteht darin, genügend Beispiele für bestimmte Arten von Situationen in den Trainingsdaten zu gewährleisten, Situationen, die in verfügbaren natürlichen Daten möglicherweise nicht ausreichend vorhanden sind.

Unten ist ein Bild, das MidJourney produzierte, als es mit "doctor" aufgefordert wurde: vier Männer, drei weiß, drei in weißen Kitteln mit Stethoskopen, und einer tatsächlich alt. Dies spiegelt nicht die tatsächliche Rasse, das Alter, das Geschlecht oder die Kleidung echter Ärzte in den meisten Ländern und Kontexten wider, ist aber wahrscheinlich ein Spiegelbild der beschrifteten Bilder, die man im Internet findet.

Bei erneuter Aufforderung produzierte es eine Frau und drei Männer, alle weiß, obwohl einer ein Cartoon ist. KI kann seltsam sein.

Diese besondere Art von Voreingenommenheit ist eine, die KI-Bildgeneratoren zu verhindern versuchen, sodass wir nicht mehr so deutlich voreingenommene Ergebnisse erhalten wie vielleicht noch vor einem Jahr von denselben Systemen. Eine Voreingenommenheit ist sichtbar noch vorhanden, aber es ist nicht offensichtlich, wie ein unvoreingenommenes Ergebnis aussehen würde.

Dennoch ist es nicht schwer zu erkennen, wie eine KI diese Art von Vorurteilen entwickeln könnte. Unten sind die ersten drei Bilder für "doctor" auf der Shutterstock-Foto-Website: Drei Männer, zwei älter und weiß. Die Vorurteile der KI sind die Vorurteile ihres Trainings, und wenn Sie Modelle mit unkurierten Daten trainieren, werden Sie immer diese Art von Voreingenommenheit finden.

Eine Möglichkeit, dieses Problem zu mindern, besteht darin, einen KI-Bildgenerator zu verwenden, um Bilder von jüngeren Ärzten, Ärztinnen, Ärzten verschiedener Hautfarben und Ärzten in OP-Kleidung, Anzügen oder anderer Kleidung zu erstellen und diese dann ins Training einzubeziehen. Auf diese Weise verwendete synthetische Daten können die KI-Modellleistung verbessern, zumindest in Bezug auf eine externe Norm, anstatt zum Modellkollaps zu führen. Allerdings kann die künstliche Verzerrung von Trainingsdatenverteilungen unbeabsichtigte Nebenwirkungen haben, wie Google kürzlich feststellte.

tagModelldestillation

Modelldestillation ist eine Technik zum direkten Training eines Modells von einem anderen. Ein trainiertes generatives Modell - der "Lehrer" - erstellt so viele Daten wie nötig, um ein untrainiertes oder weniger trainiertes "Schüler"-Modell zu trainieren.

Wie zu erwarten, kann das "Schüler"-Modell nie besser sein als der "Lehrer". Auf den ersten Blick erscheint es wenig sinnvoll, ein Modell auf diese Weise zu trainieren, aber es gibt Vorteile. Der wichtigste ist, dass das "Schüler"-Modell viel kleiner, schneller oder effizienter sein kann als der "Lehrer", während es seine Leistung immer noch eng approximiert.

Die Beziehung zwischen Modellgröße, Trainingsdaten und endgültiger Leistung ist kompliziert. Im Großen und Ganzen gilt jedoch unter sonst gleichen Bedingungen:

Ein größeres Modell leistet mehr als ein kleines.
Ein Modell, das mit mehr oder besseren Trainingsdaten (oder zumindest vielfältigeren Trainingsdaten) trainiert wurde, leistet mehr als eines mit weniger oder schlechteren Daten.

Dies bedeutet, dass ein kleines Modell manchmal genauso gut funktionieren kann wie ein großes. Zum Beispiel übertrifft jina-embeddings-v2-base-en viele viel größere Modelle bei Standard-Benchmarks deutlich:

Model	Size in parameters	MTEB average score
jina-embeddings-v2-base-en	137M	60.38
`multilingual-e5-base`	278M	59.45
`sentence-t5-xl`	1240M	57.87

Die Modell-Destillation ist eine Methode, um aus einem großen, zu kostenintensiven Modell ein kleineres, kostengünstigeres Modell zu erstellen. In jedem Fall gibt es einen gewissen Leistungsverlust, der in den besten Fällen jedoch sehr gering sein kann. Angesichts der Kosten, die mit sehr großen KI-Modellen verbunden sind, sind diese Vorteile beträchtlich. Destillation führt zu Modellen, die schneller laufen, auf günstigeren Chips, mit weniger Speicher und geringerem Stromverbrauch. Darüber hinaus können große Modelle bemerkenswert subtile Muster aus unkurierten Daten lernen - Muster, die ein kleineres Modell aus denselben Daten niemals lernen könnte. Ein großes Modell kann dann weitaus vielfältigere Trainingsdaten produzieren als die, mit denen es trainiert wurde, genug damit das kleinere Modell dieselben subtilen Muster lernen kann. Sobald man ein großes trainiertes Modell hat, kann man es nutzen, um einem kleineren Modell das "beizubringen", was es gelernt hat - etwas, das das kleinere Modell alleine nie hätte lernen können. In solchen Fällen ist Destillation manchmal ein besserer Lernweg als die Verwendung echter Trainingsdaten. ## Gehen wir also alle den Bach runter? Vielleicht. Die gute Nachricht ist, dass wir ohne eine Lösung für den Modell-Kollaps wahrscheinlich keine superintelligente KI trainieren können, die die Menschheit auslöschen könnte - zumindest nicht mit den Methoden, die wir bisher verwendet haben. Wir können uns wieder sicher dem Klimawandel und Atomkrieg widmen.

⚠️

Wenn der vorherige Absatz sarkastisch klang, war das Absicht.

Für die KI-Branche sieht das Bild nicht ganz so optimistisch aus. Das Motto des maschinellen Lernens war lange Zeit "mehr Daten sind bessere Daten." (Manchmal auch: "Es gibt keine besseren Daten als mehr Daten.") Statistiker wissen alle, dass das falsch ist. Der gesunde Menschenverstand sagt, dass das falsch ist. Aber es ist eine Strategie, die für KI-Forscher lange Zeit funktioniert hat, mindestens seit ich Anfang der 2000er Jahre als Forscher in der maschinellen Übersetzung begonnen habe. Es gibt Gründe dafür. _Diverse Daten_ - Daten, die viele verschiedene Möglichkeiten beinhalten - sind eine viel bessere Trainingsquelle als einheitliche Daten. Und in der Praxis bedeuten mehr Daten in der realen Welt normalerweise auch vielfältigere Daten. Aber uns gehen die neuen Quellen für gute, diverse Daten aus, und die Schaffung neuer menschengemachter Werke wird wahrscheinlich nicht mit der KI-Generierung Schritt halten können. Früher oder später werden wir die Art und Weise, wie wir KI-Modelle trainieren, ändern müssen. Andernfalls erreichen wir möglicherweise eine Leistungsgrenze, die wir nicht mehr überschreiten können. Dies würde die Branche transformieren, da der Fokus sich vom Aufbau und Betrieb größerer, teurerer Modelle zur Entwicklung von Frameworks, Kontexten und Nischen verlagern würde, in denen bestehende Modelle neuen Mehrwert schaffen können. ## Wie Jina AI seine KI-Modelle trainiert Bei Jina AI versuchen wir, unseren Nutzern die Vorteile der KI-Best-Practices zu bieten. Obwohl wir keine textgenerierenden LLMs oder KI-Bildgeneratoren produzieren, beschäftigt uns das Problem des Modell-Kollapses. Wir verwenden Teilmengen des Common Crawl für den Großteil unseres Pre-Trainings und nutzen dann kuratierte und synthetische Daten, um die Leistung unserer Modelle zu optimieren. Wir streben danach, State-of-the-Art-Performance in kosteneffektiven Modellen und kompakten, niedrigdimensionalen Embeddings zu erreichen. Dennoch ist der Modell-Kollaps ein unvermeidliches Problem für Common Crawl Daten. Wir erwarten, dass wir mit der Zeit zu mehr kuratierten Daten und weniger Common Crawl übergehen werden. Wir erwarten, dass andere Akteure in der KI-Branche dasselbe tun werden. Dies wird Kosten verursachen - sowohl in Bezug auf Geld als auch auf die Rate der Qualitätsverbesserung - aber es ist zu früh, um diese zu schätzen. Wir verwenden synthetische Daten in Bereichen, wo Embedding-Modelle bekannte Probleme haben. Zum Beispiel haben KI-Modelle Schwierigkeiten mit der Darstellung von Verneinung. "Rezepte mit Fleisch" und "Rezepte ohne Fleisch" haben typischerweise Embeddings, die sehr nahe beieinander liegen, aber Benutzer brauchen oft, dass sie sehr weit auseinander liegen. Unsere größte Nutzung synthetischer Daten besteht darin, ein großes Korpus von KI-generierten Satzpaaren zu erstellen, die sich durch diese Art von Verneinung unterscheiden (in KI und einigen Arten der Linguistik _Polarität_ genannt), und es dann zu verwenden, um unsere Modelle zu verbessern. Zum Beispiel zeigt die folgende 2D-Projektion hypothetische Embeddings. "Rezepte mit Fleisch" und "Rezepte ohne Fleisch" liegen relativ nahe beieinander. "Bacon Cheeseburger" ist viel näher an "Rezepte mit Fleisch" als an allem anderen, und "Falafel" ist näher an "Rezepte ohne Fleisch" als an "Rezepte mit Fleisch". Allerdings ist "Bacon Cheeseburger" viel näher an "Rezepte ohne Fleisch" als "Falafel".

Eine 2D-Projektion hypothetischer Embeddings.

Wenn man nur die Embeddings betrachtet, könnte man schlussfolgern, dass Bacon Cheeseburger ein besseres Beispiel für ein Rezept ohne Fleisch ist als Falafel. Um dies zu verhindern, trainieren wir unsere Modelle mit synthetischen Daten. Wir verwenden ein LLM, um Satzpaare mit entgegengesetzten Polaritäten zu generieren - wie "X mit Y" / "X ohne Y" - und trainieren unsere Embedding-Modelle darauf, diese Paare auseinander zu bewegen. Wir verwenden synthetische Daten auch für andere Arten des gezielten Negative Mining, einer Sammlung von Techniken zur Verbesserung spezifischer Aspekte der KI-Modellleistung durch die Präsentation kuratierter Daten.

Eine 2D-Projektion hypothetischer Embeddings nach Verbesserung des zugrundeliegenden Modells. — Eine 2D-Projektion hypothetischer Embeddings nach Verbesserung des zugrundeliegenden Modells mit polaritätsinvertierten Satzpaaren.

Wir nutzen generative KI auch zum Training von Embedding-Modellen für Programmiersprachen, indem wir große Modelle einsetzen, die umfangreiche Codebeispiele generieren, damit wir auch ziemlich obskure Features spezifischer Sprachen und Frameworks korrekt einbetten können. Modell-Destillation ist der Schlüssel dafür, wie wir kompakte Modelle produzieren, die Computerressourcen sparen. Destillation ist viel effizienter und zuverlässiger als Training von Grund auf, und unsere Ergebnisse zeigen, dass ein destilliertes Modell immer noch Top-Qualität-Performance haben kann. Die folgende Tabelle zeigt Jina AIs destillierte Reranker-Modelle im Vergleich zum Basis-Reranker, der zu ihrem Training verwendet wurde, und zu anderen Modellen mit weitaus mehr Parametern aber schlechterer Performance.

	Model	BEIR Score	Parameter count
	jina-reranker-v1-base-en	52.45	137M
Distilled	jina-reranker-v1-turbo-en	49.60	38M
Distilled	jina-reranker-v1-tiny-en	48.54	33M
	`mxbai-rerank-base-v1`	49.19	184M
	`mxbai-rerank-xsmall-v1`	48.80	71M
	`bge-reranker-base`	47.89	278M

Wir wissen, dass KI eine teure Investition sein kann und dass Unternehmen sich zunehmend ihrer moralischen und rechtlichen Verpflichtungen zur Reduzierung von CO2-Emissionen bewusst sind. Auch wir sind uns dieser Dinge bewusst. Modell-Destillation ist ein wichtiger Teil unserer Antwort auf diese Bedenken. ## Lassen Sie uns Ihnen bei der Navigation durch KI helfen Jina AI hat sich verpflichtet, Unternehmen erschwingliche, effiziente, funktionierende KI-Lösungen zu bieten. Wir können uns in Ihre bestehende Cloud-Infrastruktur auf Azure und AWS integrieren. Wir bieten Web-APIs an, die strenge Sicherheits- und Datenschutzstandards einhalten und Ihre Daten nicht für unser eigenes Training speichern. Wir können Ihnen helfen, unsere Open-Source-Modelle auf Ihrer eigenen Hardware zu installieren, sodass Ihr gesamter Betrieb intern bleibt. Es kann schwierig sein, den Hype von der Technik zu trennen und in diesem sich schnell verändernden Bereich mit den Best Practices Schritt zu halten. Lassen Sie uns das für Sie tun.