2022年之后，人类的数据变脏了

人类历史上曾两次污染世界：一次是在1945年，第一次核试验释放出的辐射尘，至今仍残留在我们制造的钢铁里。

另一次，则发生在2022年，AI模型开始训练AI模型，数据世界从那一刻起，再也不干净了。

你可能没注意，但我们正在悄悄步入一个数据放射（变脏）时代。

1

1945年7月16日，美国在新墨西哥州进行第一次原子弹试验。

那一刻，核尘埃弥漫全球，连后来生产的钢铁都被污染了。这些带有微量放射性的金属，在高灵敏度的科学仪器中会干扰正常工作。

于是科学家们只能去找一种稀有资源，在1945年之前制造的钢——称为“低本底钢”。

一种没被污染的旧时代产物，成为新技术能否正常运作的关键。

同样的事，正发生在AI身上。

ChatGPT 发布后，生成式AI爆炸式普及。

越来越多的AI模型，不再只训练于人类写下的文本，而是掺杂了大量AI生成的内容。模型吃着模型吐出来的东西，不断自我循环。

这被一些研究者称为模型自噬症（Model Autophagy Disorder）。

学界提出了一个词：模型塌缩（model collapse）。意思是，如果训练数据里 AI 写的东西越来越多，模型会变得越来越笨。

当模仿者不断学习模仿者，下一代模型就会越来越偏离真实世界。

说白了，它只会模仿自己，最后连对错都分不清。

其中一个争议点很微妙：一个模型，可以非常流畅地说谎；也可以结结巴巴地说出真话。

你要哪一个？

Cloudflare前CTO意识到问题的严重。

他注册了一个网站：lowbackgroundsteel.ai，专门收集2022年以前的纯人工数据，比如GitHub在2020年封存的代码资料库 Arctic Code Vault。

他借用了低本底钢的类比，想保留一份没有AI干预的语料——低本底语料。

但这只是冰山一角。

越来越多研究者开始担心，训练数据中AI生成内容的比例越来越高，会让模型劣化：它们可能变得更会迎合人类，却更不懂真实世界。

你以为它理解你，其实它只是在模仿模仿人类的AI。

模型崩塌并不是唯一的风险。

剑桥大学存在风险研究中心的研究员Maurice Chiodo提醒我们，真正危险的是干净数据的稀缺，可能会带来另一个可怕的后果——技术垄断。

拥有足够早、足够干净的训练数据，未来可能成为AI公司最强的壁垒。

他们手中的，不是算力，不是算法，而是别人再也得不到的纯净语料。

你可以打造一个会说谎但流畅的模型，也能造出一个老实但呆板的模型。但你无法在污染的数据源上，训练出一个既真诚又强大的模型。

这就是为什么有人说：现在每一个参与生成式AI的人，都是在污染所有人的数据供给。

而更糟糕的是，没人知道这种污染该怎么清理。

学界提出了各种应对方式，比如：

这些解决方案都还处在理论设想阶段，真正能落地的少之又少。

一旦污染发生，是不可逆的，要么你已经没机会了，要么你再也回不到过去。

一位研究者说：我们的问题不只是模型是否真实，而是我们还能不能造出一个靠得住的大模型。

在模型生成模型、数据污染数据的世界里，谁来守住信任的边界？

当AI开始训练AI，人类原本独特的表达方式，被深度伪装的内容稀释。

文字、语音、图像、代码、视频，正在悄悄地、逐渐地，被我们自己污染。

AI变得更像我们，我们却越来越难找到真正像人的东西。

曾经，语言是人类思想的延伸；现在，它也许只是AI彼此模仿的结果。

一如科学家在深海中寻找低本底钢，未来的AI，也许只能在历史里打捞干净的数据遗迹。

而我们，早已忘了它们原来的模样。

如果有一天，我们连什么是人写的都分不清了，那我们是否已经开始失去人的存在方式？