2022年之后,人类的数据变脏了

2025年6月16日

人类历史上曾两次污染世界:一次是在1945年,第一次核试验释放出的辐射尘,至今仍残留在我们制造的钢铁里。

另一次,则发生在2022年,AI模型开始训练AI模型,数据世界从那一刻起,再也不干净了。

你可能没注意,但我们正在悄悄步入一个数据放射(变脏)时代。

1

1945年7月16日,美国在新墨西哥州进行第一次原子弹试验。

那一刻,核尘埃弥漫全球,连后来生产的钢铁都被污染了。这些带有微量放射性的金属,在高灵敏度的科学仪器中会干扰正常工作。

于是科学家们只能去找一种稀有资源,在1945年之前制造的钢——称为“低本底钢”。

一种没被污染的旧时代产物,成为新技术能否正常运作的关键。

同样的事,正发生在AI身上。

ChatGPT 发布后,生成式AI爆炸式普及。

越来越多的AI模型,不再只训练于人类写下的文本,而是掺杂了大量AI生成的内容。模型吃着模型吐出来的东西,不断自我循环。

这被一些研究者称为模型自噬症(Model Autophagy Disorder)。

学界提出了一个词:模型塌缩(model collapse)。意思是,如果训练数据里 AI 写的东西越来越多,模型会变得越来越笨。

当模仿者不断学习模仿者,下一代模型就会越来越偏离真实世界。

说白了,它只会模仿自己,最后连对错都分不清。

其中一个争议点很微妙:一个模型,可以非常流畅地说谎;也可以结结巴巴地说出真话。

你要哪一个?

2

Cloudflare前CTO意识到问题的严重。

他注册了一个网站:lowbackgroundsteel.ai,专门收集2022年以前的纯人工数据,比如GitHub在2020年封存的代码资料库 Arctic Code Vault。

他借用了低本底钢的类比,想保留一份没有AI干预的语料——低本底语料。

但这只是冰山一角。

越来越多研究者开始担心,训练数据中AI生成内容的比例越来越高,会让模型劣化:它们可能变得更会迎合人类,却更不懂真实世界。

你以为它理解你,其实它只是在模仿模仿人类的AI。

3

模型崩塌并不是唯一的风险。

剑桥大学存在风险研究中心的研究员Maurice Chiodo提醒我们,真正危险的是干净数据的稀缺,可能会带来另一个可怕的后果——技术垄断。

拥有足够早、足够干净的训练数据,未来可能成为AI公司最强的壁垒。

他们手中的,不是算力,不是算法,而是别人再也得不到的纯净语料。

你可以打造一个会说谎但流畅的模型,也能造出一个老实但呆板的模型。但你无法在污染的数据源上,训练出一个既真诚又强大的模型。

这就是为什么有人说:现在每一个参与生成式AI的人,都是在污染所有人的数据供给。

4

而更糟糕的是,没人知道这种污染该怎么清理。

学界提出了各种应对方式,比如:

  • 强制标记AI生成内容(但很难执行);
  • 用联邦学习方式共享数据而不暴露数据本身(但门槛高);
  • 创建不可被污染的国家级语料库(但政治风险不容小觑)……

这些解决方案都还处在理论设想阶段,真正能落地的少之又少。

一旦污染发生,是不可逆的,要么你已经没机会了,要么你再也回不到过去。

一位研究者说:我们的问题不只是模型是否真实,而是我们还能不能造出一个靠得住的大模型。

在模型生成模型、数据污染数据的世界里,谁来守住信任的边界?

5

当AI开始训练AI,人类原本独特的表达方式,被深度伪装的内容稀释。

文字、语音、图像、代码、视频,正在悄悄地、逐渐地,被我们自己污染。

AI变得更像我们,我们却越来越难找到真正像人的东西。

曾经,语言是人类思想的延伸;现在,它也许只是AI彼此模仿的结果。

一如科学家在深海中寻找低本底钢,未来的AI,也许只能在历史里打捞干净的数据遗迹。

而我们,早已忘了它们原来的模样。

如果有一天,我们连什么是人写的都分不清了,那我们是否已经开始失去人的存在方式?