當 AI 製造 AI：合成資料、模型蒸餾與模型崩塌

對 AI 的討論經常帶有末世論調。部分原因在於末世科幻作品塑造了我們對人工智慧的印象。能夠製造更多機器的智慧機器，幾代以來一直是科幻小說中的常見主題。

許多人對近期 AI 發展帶來的存亡風險大聲疾呼，其中包括許多參與 AI 商業化的企業領袖，甚至一些科學家和研究人員。這已成為 AI 炒作的一部分：如果某個東西強大到能讓看似冷靜的科技和產業標誌性人物都在擔憂世界末日，那它肯定也強大到能夠賺取利潤，對吧？

那麼，我們是否應該擔心 AI 帶來的存亡威脅？我們需要擔心 Sam Altman 會用 ChatGPT 製造出奧創，讓它的AI 軍隊向我們投擲東歐城市嗎？我們應該擔心Peter Thiel 的 Palantir 建造天網並派遣帶著難以解釋的奧地利口音的機器人回到過去殺死我們嗎？

可能不用。業界領袖們至今尚未找到讓 AI 自負盈虧的明確方法，更別說顛覆產業了，更不用說對人類造成可與氣候變遷或核武器相比的威脅。

我們現有的 AI 模型離滅絕人類還差得遠。它們在繪畫手部時都有困難，無法數超過三個物件，認為販賣被老鼠啃過的乳酪是可以接受的，還會用佳得樂進行天主教洗禮。AI 帶來的平凡、非存亡性的風險——比如技術可能助長誤導、騷擾、產生垃圾訊息，以及被不了解其限制的人錯誤使用——已經夠令人擔憂的了。

但人工智慧確實存在一個合理的存亡風險：AI 對....AI 自身構成明確而迫切的危險。

這種擔憂通常被稱為"模型崩塌"，並在 Shumailov 等人（2023）和 Alemohammad 等人（2023）的研究中得到了有力的實證。這個概念很簡單：如果你用 AI 生成的數據來訓練 AI 模型，然後用這個結果再去訓練另一個模型，如此重複多代，AI 的表現會客觀上變得越來越差。這就像複印品的複印品再複印。

Deteriorating copies of an ad for the Intertec Superbrain, taken from BYTE magazine, Sept. 1981. — 取自 BYTE 雜誌 1981 年 9 月號的 Intertec Superbrain 廣告逐漸劣化的複印效果。

最近有不少關於模型崩塌的討論，且新聞標題開始出現關於 AI 用盡數據的報導。如果互聯網充斥著 AI 生成的數據，而人類製作的數據變得越來越難以識別和使用，那麼 AI 模型很快就會遇到品質上限。

同時，在 AI 開發中越來越多地使用合成數據和模型蒸餾技術。這兩種方法都包含使用其他 AI 模型的輸出來訓練 AI 模型。這兩個趨勢似乎相互矛盾。

事情比這更複雜。生成式 AI 會製造垃圾內容並阻礙自身進步嗎？或者 AI 會幫助我們製造更好的 AI？還是兩者都會發生？

我們將在本文中嘗試找到一些答案。

tag模型崩塌

雖然我們很喜歡 Alemohammad 等人發明的"模型自噬失調症（MAD）"這個術語，但"模型崩塌"更朗朗上口，且不涉及希臘語中的自我吞噬含義。用複印品再複印的比喻簡單地闡述了這個問題，但背後的理論還有更多內容。

訓練 AI 模型是一種統計建模，是統計學家和數據科學家長期以來工作的延伸。但在數據科學課程的第一天，你就會學到數據科學家的座右銘：

所有模型都是錯的，但有些是有用的。

這句歸因於George Box 的話，應該作為每個 AI 模型頂部的閃爍警示燈。你總可以為任何數據建立統計模型，該模型也總會給你一個答案，但絕對沒有任何保證這個答案是對的，甚至是接近正確的。

統計模型是某事物的近似。它的輸出可能有用，甚至可能足夠好，但它們仍然是近似值。即使你有一個經過良好驗證的模型，平均來說很準確，它仍然可能且很可能會偶爾犯大錯。

AI 模型繼承了統計建模的所有問題。任何玩過 ChatGPT 或其他大型 AI 模型的人都見過它犯錯。

所以，如果 AI 模型是某個真實事物的近似，那麼用另一個 AI 模型的輸出訓練的 AI 模型就是近似的近似。錯誤會累積，它本質上必然會比訓練它的模型更不準確。

Alemohammad 等人的研究表明，在訓練新的"子代"模型前，在 AI 輸出中添加一些原始訓練數據也無法解決這個問題。這只能減緩模型崩塌，無法阻止它。除非在使用 AI 輸出進行訓練時引入足夠的新的、之前未見過的真實世界數據，否則模型崩塌是不可避免的。

需要多少新數據才足夠取決於難以預測的、具體情況相關的因素，但新的、真實數據越多，AI 生成的數據越少總是更好。

這就是問題所在，因為所有容易獲取的人類製作的數據來源都已耗盡，而網路上 AI 生成的圖像和文字數據卻在快速增長。互聯網上人類製作與 AI 製作內容的比例正在下降，可能正在快速下降。沒有可靠的方法自動檢測 AI 生成的數據，且許多研究人員認為這是不可能的。公眾對 AI 圖像和文字生成模型的使用確保了這個問題會不斷增長，很可能會劇烈增長，且沒有明顯的解決方案。

網路上機器翻譯的數量可能意味著現在已經太遲了。機器翻譯的文本在網路上已經污染我們的數據來源多年，遠在生成式 AI 革命之前就已經存在。根據 Thompson 等人（2024）的研究，可能有一半的網路文本是從其他語言翻譯而來，而這些翻譯中有很大一部分品質低劣，並顯示出機器生成的跡象。這可能會扭曲從這些數據訓練出來的語言模型。

舉例來說，以下是來自 Die Welt der Habsburger 網站的一個頁面截圖，明顯可見機器翻譯的痕跡。"Hamster buying" 是德語單詞 hamstern 的過於直白的翻譯，其實際意思是囤積或恐慌性購買。太多這樣的實例會導致 AI 模型誤以為 "hamster buying" 是英語中的真實用語，並認為德語 hamstern 與寵物倉鼠有關。

在幾乎所有情況下，訓練數據中包含更多 AI 輸出都是不利的。這裡的幾乎很重要，我們將在下面討論兩個例外。

tag合成數據

合成數據是人工生成而非來自真實世界的 AI 訓練或評估數據。Nikolenko（2021）追溯合成數據的起源至 1960 年代的早期電腦視覺專案，並概述了它作為該領域重要元素的歷史。

使用合成數據有許多原因。其中最重要的一個是對抗偏見。

大型語言模型和圖像生成器因偏見問題而收到許多高調的投訴。"偏見"在統計學中有嚴格的定義，但這些投訴通常反映的是道德、社會和政治層面的考量，這些並沒有簡單的數學形式或工程解決方案。

不容易察覺的偏見更具破壞性，也更難修正。AI 模型學習複製的模式來自其訓練數據，當數據存在系統性缺陷時，偏見就不可避免。我們期望 AI 能做的事情越多──模型的輸入越多樣化──它就越有可能因為在訓練中沒有見過足夠的類似案例而出錯。

合成數據在當今 AI 訓練中的主要作用是確保訓練數據中包含足夠多某些特定情況的範例，這些情況在可用的自然數據中可能並不充足。

以下是 MidJourney 在接收 "doctor" 提示詞後生成的圖像：四個男性，三個白人，三個穿著白大褂並戴著聽診器，其中一個明顯年長。這並不反映大多數國家和情境中真實醫生的種族、年齡、性別或著裝，但可能反映了網路上可以找到的標記圖像。

再次提示時，它生成了一個女性和三個男性，全都是白人，雖然其中一個是卡通形象。AI 有時確實很奇怪。

這種特定的偏見是 AI 圖像生成器一直在試圖防止的，所以我們現在從相同系統得到的結果不像可能一年前那樣明顯帶有偏見。偏見仍然明顯存在，但什麼才是無偏見的結果並不明確。

不過，要弄清楚 AI 如何產生這些偏見並不難。以下是在 Shutterstock 圖片網站上搜索 "doctor" 時找到的前三張圖片：三個男性，其中兩個是年長的白人。AI 的偏見就是其訓練的偏見，如果你使用未經策劃的數據訓練模型，你總是會發現這些類型的偏見。

緩解這個問題的一種方法是使用 AI 圖像生成器來創建年輕醫生、女性醫生、有色人種醫生，以及穿著手術服、西裝或其他服裝的醫生的圖像，然後將它們納入訓練中。這樣使用的合成數據可以改善 AI 模型的表現，至少相對於某些外部標準而言，而不是導致模型崩潰。然而，人為扭曲訓練數據分佈可能會產生意想不到的副作用，就像 Google 最近發現的那樣。

tag模型蒸餾

模型蒸餾是一種直接從一個模型訓練另一個模型的技術。一個已訓練的生成模型──"教師"──創建所需的數據量來訓練一個未訓練或訓練較少的"學生"模型。

如你所料，"學生"模型永遠不可能比"教師"更好。乍看之下，這樣訓練模型似乎沒有意義，但這確實有其好處。主要的一個好處是"學生"模型可能比"教師"小得多、更快或更有效率，同時仍能近似其表現。

模型大小、訓練數據和最終表現之間的關係很複雜。然而，總的來說，在其他條件相同的情況下：

更大的模型比小型模型表現更好。
使用更多或更好的訓練數據（或至少更多樣化的訓練數據）訓練的模型比使用較少或較差數據訓練的模型表現更好。

這意味著小型模型有時可以表現得和大型模型一樣好。例如，jina-embeddings-v2-base-en 在標準基準測試中明顯優於許多更大的模型：

Model	Size in parameters	MTEB average score
jina-embeddings-v2-base-en	137M	60.38
`multilingual-e5-base`	278M	59.45
`sentence-t5-xl`	1240M	57.87

模型蒸餾是一種將大型模型（運行成本過高的模型）轉化為較小、較便宜模型的方法。每種情況下都會有一些性能損失，但在最佳情況下，這種損失可能非常小。考慮到大型 AI 模型的相關成本，這些好處相當可觀。蒸餾可以讓模型運行更快、在更便宜的晶片上運行、使用更少的記憶體，並消耗更少的電力。此外，大型模型可以從未經整理的數據中學習到非常微妙的模式，這些模式是小型模型永遠無法從相同數據中學習到的。大型模型然後可以產生比其訓練數據更多樣化的訓練數據，足以讓較小的模型學習相同的微妙模式。一旦你有了一個訓練好的大型模型，你就可以用它來「教導」較小的模型學習那些它單獨無法學習的內容。在這些情況下，蒸餾有時比使用真實訓練數據更好。 ## 那麼我們是否都在走向毀滅？也許吧。好消息是，如果沒有解決模型崩塌的方案，我們可能無法用目前使用的方法訓練出能夠消滅人類的超級智能 AI。我們可以安心地回去擔心氣候變化和核戰爭了。

⚠️

如果前面那段話聽起來像是諷刺，那是故意的。

對 AI 產業來說，前景並不那麼樂觀。機器學習的座右銘一直是「更多數據就是更好的數據」（有時是：「沒有比更多數據更好的數據」）。統計學家都知道這是錯的。常識也說這是錯的。但這個策略對 AI 研究人員來說一直都很有效，至少從我在 2000 年代初期開始從事機器翻譯研究以來就是如此。這是有原因的。多樣化的數據—包含許多不同可能性的數據—比統一的數據是更好的訓練來源。而在實際世界中，更多的數據通常意味著更多樣化的數據。但我們正在用盡新的優質多樣化數據來源，而新的人類創作作品的產生速度不太可能跟上 AI 生成的速度。無論如何，我們最終都必須改變我們進行 AI 模型訓練的方式。否則，我們可能會達到一個無法突破的性能門檻。這將改變整個行業，因為重點將從建立和運行更大、更昂貴的模型轉向開發框架、場景和利基市場，使現有模型能夠帶來新的附加價值。 ## Jina AI 如何訓練其 AI 模型在 Jina AI，我們努力為用戶帶來 AI 最佳實踐的好處。儘管我們不生產文本生成 LLM 或 AI 圖像生成器，我們仍然關注模型崩塌的問題。我們使用 Common Crawl 的子集進行大部分預訓練，然後使用經過整理的數據和合成數據來優化我們模型的性能。我們致力於將最先進的性能帶入具有成本效益的模型和緊湊、低維度的嵌入中。儘管如此，模型崩塌對 Common Crawl 數據來說是不可避免的問題。我們預計隨著時間推移，將過渡到使用更多經過整理的數據，減少使用 Common Crawl。我們預期其他 AI 業界參與者也會這樣做。這將帶來成本—無論是在金錢方面還是在質量改進率方面—但現在估算這些成本還為時過早。我們在嵌入模型存在已知問題的領域使用合成數據。例如，AI 模型在表示否定方面存在困難。「含肉的食譜」和「不含肉的食譜」通常具有非常接近的嵌入，但用戶往往需要它們相距很遠。我們最大的合成數據用途是創建由這種否定（在 AI 和某些語言學中稱為極性）區分的大量 AI 生成句子對，然後用它來改進我們的模型。例如，下面是假設嵌入的 2D 投影。「含肉的食譜」和「不含肉的食譜」相對接近。「培根芝士漢堡」比其他任何東西都更接近「含肉的食譜」，而「炸豆丸」更接近「不含肉的食譜」。然而，「培根芝士漢堡」比「炸豆丸」更接近「不含肉的食譜」。

僅從嵌入來看，我們可能會得出結論：培根芝士漢堡比炸豆丸更適合作為不含肉的食譜的例子。為了防止這種情況，我們用合成數據訓練我們的模型。我們使用 LLM 生成具有相反極性的句子對—比如「帶有 Y 的 X」/「不帶 Y 的 X」—並訓練我們的嵌入模型將這些對子分開。我們也將合成數據用於其他類型的集中式負面挖掘，這是一系列通過呈現經過整理的數據來改進 AI 模型特定方面性能的技術。

我們還使用生成式 AI 來訓練程式語言的嵌入模型，利用能生成大量代碼示例的大型模型，讓我們能夠正確嵌入特定語言和框架的相當罕見的功能。模型蒸餾是我們生產節省計算資源的緊湊型模型的關鍵。蒸餾比從頭開始訓練效率更高且更可靠，我們的結果表明，經過蒸餾的模型仍然可以保持頂級性能。下表顯示了 Jina AI 的蒸餾重排序模型與用於訓練它們的基礎重排序器以及具有更多參數但性能較差的其他模型的比較。

	Model	BEIR Score	Parameter count
	jina-reranker-v1-base-en	52.45	137M
Distilled	jina-reranker-v1-turbo-en	49.60	38M
Distilled	jina-reranker-v1-tiny-en	48.54	33M
	`mxbai-rerank-base-v1`	49.19	184M
	`mxbai-rerank-xsmall-v1`	48.80	71M
	`bge-reranker-base`	47.89	278M

我們知道 AI 可能是一項昂貴的投資，而企業越來越意識到他們在減少碳排放方面的道德和法律義務。我們也意識到這些問題。模型蒸餾是我們解決這些問題的重要方式。 ## 讓我們幫助你駕馭 AI Jina AI 致力於為企業帶來可負擔、高效、實用的 AI 解決方案。我們可以與你在 Azure 和 AWS 上的現有雲端基礎設施整合。我們提供符合嚴格安全和隱私標準的網頁 API，不會保留你的數據用於我們自己的訓練。我們可以幫助你在自己的硬體上安裝我們的開源模型，讓你的整個操作都在內部進行。在這個快速變化的領域中，要區分炒作和技術並掌握最佳實踐可能很困難。讓我們為你做這些工作。