当 AI 创造 AI：合成数据、模型蒸馏与模型崩塌

对 AI 的讨论常常带有末日色彩。这部分要归咎于末日科幻作品塑造了我们对人工智能的认知。几代科幻作品中都出现过智能机器能制造更多机器的情节。

许多人都对近期 AI 发展带来的存在性风险发出警告，其中包括很多参与 AI 商业化的商界领袖，甚至还有一些科学家和研究人员。这已经成为 AI 炒作的一部分：如果连这些看似稳重的科技和工业界标志性人物都在考虑世界末日，那这项技术肯定有足够的力量带来利润，对吧？

那么，我们是否应该担心 AI 带来的存在性风险？我们需要担心 Sam Altman 会用 ChatGPT 制造出 Ultron，让其AI 军团向我们投掷东欧城市吗？我们是否应该担心Peter Thiel 的 Palantir 建造天网并派出带着莫名其妙奥地利口音的机器人回到过去杀死我们？

可能不会。业界领袖们至今还没找到让 AI 自负盈亏的明确方法，更别说颠覆行业了，更不用说对人类造成可与气候变化或核武器相提并论的威胁了。

我们现有的 AI 模型根本无法消灭人类。它们在画手时就很困难，数不过三个东西，认为卖老鼠啃过的奶酪没问题，还会用佳得乐进行天主教洗礼。AI 带来的普通、非存在性风险——比如它可能助长错误信息传播、骚扰、垃圾信息生成，以及被不了解其局限性的人误用——这些就已经够令人担忧的了。

但人工智能确实存在一个合理的存在性风险：AI 对……AI 自身构成了明确而紧迫的威胁。

这种担忧通常被称为"模型崩溃"，并在Shumailov 等人（2023）和Alemohammad 等人（2023）的研究中得到了有力的实证。这个概念很简单：如果用 AI 生成的数据训练 AI 模型，然后用这个模型的输出训练另一个模型，如此重复多代，AI 的表现将客观上越来越差。这就像复印件的复印件的复印件。

Deteriorating copies of an ad for the Intertec Superbrain, taken from BYTE magazine, Sept. 1981. — 取自《BYTE》杂志 1981 年 9 月刊的Intertec Superbrain广告的逐渐退化的复印件。

最近关于模型崩溃的讨论很多，新闻头条也开始报道 AI 训练数据即将用尽的问题。如果互联网充满了 AI 生成的数据，而人类制作的数据越来越难以识别和使用，那么 AI 模型很快就会遇到质量天花板。

同时，合成数据和模型蒸馏技术在 AI 开发中的使用也在增加。这两种技术都包含了使用其他 AI 模型的输出来训练 AI 模型。这两个趋势似乎是相互矛盾的。

实际情况比这更复杂。生成式 AI 会制造垃圾信息并阻碍自身进步吗？或者 AI 会帮助我们制造出更好的 AI？还是两者都会发生？

我们将在这篇文章中寻找一些答案。

tag模型崩溃

尽管我们很喜欢 Alemohammad 等人发明的"模型自噬失调（Model Autophagy Disorder，MAD）"这个术语，但"模型崩溃"更朗朗上口，而且不涉及希腊语中的自我吞噬概念。用复印件的复印件这个比喻可以简单地传达问题所在，但背后的理论还有更多内容。

训练 AI 模型是一种统计建模，是统计学家和数据科学家长期以来工作的延伸。但在数据科学课程的第一天，你就会学到数据科学家的座右铭：

所有模型都是错的，但有些是有用的。

这句话出自George Box，应该作为每个 AI 模型顶部的闪烁警示灯。你总能为任何数据建立统计模型，这个模型也总会给出答案，但没有任何东西能保证这个答案是对的，甚至是接近正确的。

统计模型是某个事物的近似。它的输出可能有用，甚至可能足够好，但它们仍然是近似值。即使你有一个经过良好验证、平均来说非常准确的模型，它有时仍然可能会（而且很可能会）犯大错。

AI 模型继承了统计建模的所有问题。任何玩过 ChatGPT 或其他大型 AI 模型的人都见过它犯错。

所以，如果一个 AI 模型是某个真实事物的近似，那么用另一个 AI 模型的输出训练的 AI 模型就是近似的近似。错误会累积，它本质上必然比训练它的模型更不准确。

Alemohammad 等人表明，在训练新的"子"模型之前，向 AI 输出中添加一些原始训练数据也无法解决这个问题。这只能减缓模型崩溃，无法阻止它。除非在使用 AI 输出进行训练时引入足够多的新的、之前未见过的真实世界数据，否则模型崩溃是不可避免的。

需要多少新数据才算足够取决于难以预测的、具体情况相关的因素，但新的真实数据越多、AI 生成的数据越少总是更好。

这就是个问题，因为所有容易获取的新鲜人工数据来源都已经用尽，而互联网上 AI 生成的图像和文本数据却在飞速增长。互联网上人工制作内容与 AI 制作内容的比率正在下降，可能下降得很快。没有可靠的方法自动检测 AI 生成的数据，而且许多研究人员认为这种方法可能根本不存在。公众可以访问 AI 图像和文本生成模型，这确保了这个问题会继续增长，很可能会剧烈增长，而且没有明显的解决方案。

互联网上机器翻译的数量可能意味着现在已经太晚了。机器翻译的文本已经在互联网上污染我们的数据来源多年，这远在生成式 AI 革命之前就开始了。根据 Thompson 等人，2024 的研究，互联网上可能有一半的文本是从其他语言翻译而来，而这些翻译中有很大一部分质量低劣，显示出机器生成的特征。这可能会扭曲从此类数据训练出的语言模型。

举个例子，下面是来自 Die Welt der Habsburger 网站的一个页面的截图，明显显示出机器翻译的痕迹。"Hamster buying" 是对德语单词 hamstern 的过于直白的翻译，其实际含义是"囤积"或"抢购"。太多这样的实例会导致 AI 模型认为 "hamster buying" 在英语中是真实存在的，并且认为德语 hamstern 与宠物仓鼠有关。

在几乎所有情况下，训练数据中包含更多 AI 输出都是不好的。这里的"几乎"很重要，我们将在下面讨论两个例外。

tag合成数据

合成数据是人工生成而非来自真实世界的 AI 训练或评估数据。Nikolenko（2021）追溯合成数据的起源到 1960 年代早期的计算机视觉项目，并概述了它在该领域作为重要元素的历史。

使用合成数据有很多原因。其中最大的原因之一是对抗偏见。

大型语言模型和图像生成器已经收到了很多关于偏见的高调投诉报道。"偏见"在统计学中有严格的定义，但这些投诉通常反映了道德、社会和政治方面的考虑，这些考虑并没有简单的数学形式或工程解决方案。

你不容易看到的偏见却更具破坏性，也更难修复。AI 模型学习复制的模式是从其训练数据中看到的模式，当这些数据存在系统性缺陷时，偏见就不可避免地出现了。我们期望 AI 能做的事情越多——模型的输入越多样化——就越有可能因为在训练中没有见到足够多的类似案例而出错。

如今合成数据在 AI 训练中的主要作用是确保训练数据中包含足够多某些特定情况的例子，这些情况在可获得的自然数据中可能并不充分。

下面是 MidJourney 在接收到 "doctor" 提示时生成的图像：四个男性，其中三个是白人，三个穿着白大褂带着听诊器，还有一个是真正的老年人。这并不反映大多数国家和环境中真实医生的种族、年龄、性别或着装，但很可能反映了在互联网上能找到的带标签图像。

再次提示时，它生成了一名女性和三名男性，全都是白人，不过其中一个是卡通形象。AI 有时确实很奇怪。

这种特定的偏见是 AI 图像生成器一直在试图防止的，因此我们不再像可能一年前那样从相同的系统获得如此明显带有偏见的结果。偏见仍然可见，但什么样的结果才算无偏见并不明显。

然而，不难理解 AI 是如何获得这些偏见的。下面是在 Shutterstock 照片网站上搜索 "doctor" 找到的前三张图片：三个男性，其中两个是年长的白人。AI 的偏见就是其训练的偏见，如果你使用未经筛选的数据训练模型，你总会发现这些类型的偏见。

缓解这个问题的一种方法是使用 AI 图像生成器来创建年轻医生、女性医生、有色人种医生，以及穿着手术服、西装或其他服装的医生的图像，然后将它们包含在训练中。以这种方式使用的合成数据可以改善 AI 模型的表现，至少相对于某些外部标准而言，而不是导致模型崩溃。然而，人为扭曲训练数据分布可能会产生意想不到的副作用，就像 Google 最近发现的那样。

tag模型蒸馏

模型蒸馏是一种直接从一个模型训练另一个模型的技术。一个已训练的生成模型——"教师"——创建所需的尽可能多的数据来训练一个未训练或训练较少的"学生"模型。

正如你所预料的，"学生"模型永远不可能比"教师"更好。乍一看，这样训练模型似乎没有意义，但它确实有好处。主要的好处是"学生"模型可能比"教师"小得多、更快或更高效，同时仍能近似其性能。

模型大小、训练数据和最终性能之间的关系很复杂。然而，总的来说，在其他条件相同的情况下：

大模型比小模型表现更好。
使用更多或更好的训练数据（或至少更多样化的训练数据）训练的模型比使用较少或较差数据训练的模型表现更好。

这意味着小模型有时可以和大模型表现一样好。例如，jina-embeddings-v2-base-en 在标准基准测试中显著优于许多更大的模型：

Model	Size in parameters	MTEB average score
jina-embeddings-v2-base-en	137M	60.38
`multilingual-e5-base`	278M	59.45
`sentence-t5-xl`	1240M	57.87

模型蒸馏是一种将大型模型（运行成本过高的模型）转化为更小、更经济的模型的方法。在每种情况下都会有一些性能损失，但在最好的情况下，这种损失可以非常小。考虑到超大型 AI 模型的相关成本，这些好处是相当可观的。蒸馏后的模型运行更快，可以在更便宜的芯片上运行，占用更少的内存，消耗更少的能源。此外，大型模型可以从未经整理的数据中学习到非常微妙的模式，这些模式是小型模型从相同数据中永远无法学习到的。大型模型可以生成比其训练数据更加多样化的训练数据，足以让小型模型也能学习到这些微妙的模式。一旦你拥有一个训练好的大型模型，就可以用它来"教授"所学内容给一个小型模型，而这个小型模型单独是永远无法学习到这些内容的。在这些情况下，蒸馏有时比使用真实训练数据是更好的学习方式。 ## 那么我们是不是都要完蛋了？也许是吧。好消息是，如果没有解决模型崩塌的方案，我们可能无法用目前使用的方法训练出能够消灭人类的超级智能 AI。我们可以安全地回去担心气候变化和核战争了。

⚠️

如果上一段话听起来像是在讽刺，那是故意的。

对 AI 行业来说，前景并不那么乐观。机器学习的座右铭一直是"更多数据就是更好的数据"。（有时是："没有比更多数据更好的数据了。"）统计学家都知道这是错的。常识也说这是错的。但这个策略对 AI 研究人员来说一直都很管用，至少从我在 2000 年代初期开始做机器翻译研究时就是这样。这是有原因的。多样化的数据——包含许多不同可能性的数据——是比统一的数据更好的训练来源。而在实践中，在现实世界里，更多的数据通常意味着更多样化的数据。但我们正在用尽新的优质、多样化数据源，而人类创作的新作品不太可能跟得上 AI 的生成速度。无论如何，我们最终都必须改变 AI 模型训练的方式。否则，我们可能会达到一个无法突破的性能门槛。这将改变整个行业，因为重点将从构建和运行更大、更昂贵的模型转向开发框架、场景和利基市场，让现有模型能在其中带来新的附加价值。 ## Jina AI 如何训练其 AI 模型在 Jina AI，我们努力为用户带来 AI 最佳实践的好处。虽然我们不生产文本生成 LLM 或 AI 图像生成器，但我们仍然关注模型崩塌问题。我们使用 Common Crawl 的子集进行大部分预训练，然后使用经过整理的数据和合成数据来优化模型性能。我们努力将最先进的性能带到经济高效的模型和紧凑的低维嵌入中。然而，对 Common Crawl 数据来说，模型崩塌是一个不可避免的问题。我们预计随着时间推移会过渡到使用更多经过整理的数据，减少使用 Common Crawl。我们预计其他 AI 行业参与者也会这样做。这会带来成本——无论是在金钱方面还是在质量改进速度方面——但现在尝试估算这些成本还为时过早。在嵌入模型存在已知问题的领域，我们使用合成数据。例如，AI 模型在表示否定时会遇到困难。"有肉的食谱"和"无肉的食谱"的嵌入通常非常接近，但用户经常需要它们相距很远。我们最大的合成数据用途是创建一个由这种否定（在 AI 和某些语言学中称为极性）区分的 AI 生成句对构成的大型语料库，然后用它来改进我们的模型。例如，下面是假设嵌入的二维投影。"有肉的食谱"和"无肉的食谱"相对接近。"培根芝士汉堡"比其他任何东西都更接近"有肉的食谱"，而"法拉费"更接近"无肉的食谱"而不是"有肉的食谱"。然而，"培根芝士汉堡"比"法拉费"更接近"无肉的食谱"。

仅从嵌入来看，我们可能会得出结论：培根芝士汉堡比法拉费更适合作为无肉食谱的例子。为了防止这种情况，我们用合成数据训练模型。我们使用 LLM 生成具有相反极性的句对——比如"带有 Y 的 X"/"不带 Y 的 X"——并训练我们的嵌入模型使这些对远离。我们还将合成数据用于其他类型的集中式负例挖掘，这是一系列通过向模型呈现经过整理的数据来改进 AI 模型特定性能方面的技术。

我们还使用生成式 AI 来训练编程语言的嵌入模型，利用能生成大量代码示例的大型模型，这样我们就能正确地嵌入特定语言和框架的一些相当罕见的特性。模型蒸馏是我们生产节省计算资源的紧凑模型的关键。蒸馏比从头训练更高效可靠，我们的结果表明，经过蒸馏的模型仍然可以保持顶级性能。下表展示了 Jina AI 的蒸馏版重排模型与用于训练它们的基础重排模型以及其他参数更多但性能更差的模型的比较。

	Model	BEIR Score	Parameter count
	jina-reranker-v1-base-en	52.45	137M
Distilled	jina-reranker-v1-turbo-en	49.60	38M
Distilled	jina-reranker-v1-tiny-en	48.54	33M
	`mxbai-rerank-base-v1`	49.19	184M
	`mxbai-rerank-xsmall-v1`	48.80	71M
	`bge-reranker-base`	47.89	278M

我们知道 AI 可能是一项昂贵的投资，而企业也越来越意识到他们减少碳排放的道德和法律义务。我们也意识到这些问题。模型蒸馏是我们解决这些问题的重要手段。 ## 让我们帮助您驾驭 AI Jina AI 致力于为企业提供经济、高效、实用的 AI 解决方案。我们可以与您在 Azure 和 AWS 上的现有云基础设施集成。我们提供网络 API，遵守严格的安全和隐私标准，不会保留您的数据用于我们自己的训练。我们可以帮助您在自己的硬件上安装我们的开源模型，让您的整个操作都在内部进行。在这个快速变化的领域中，要区分炒作和技术并跟上最佳实践可能很困难。让我们为您做这件事。