2022年之后,人类的数据变脏了
2025年6月16日
人类历史上曾两次污染世界:一次是在1945年,第一次核试验释放出的辐射尘,至今仍残留在我们制造的钢铁里。
另一次,则发生在2022年,AI模型开始训练AI模型,数据世界从那一刻起,再也不干净了。
你可能没注意,但我们正在悄悄步入一个数据放射(变脏)时代。
1
1945年7月16日,美国在新墨西哥州进行第一次原子弹试验。
那一刻,核尘埃弥漫全球,连后来生产的钢铁都被污染了。这些带有微量放射性的金属,在高灵敏度的科学仪器中会干扰正常工作。
于是科学家们只能去找一种稀有资源,在1945年之前制造的钢——称为“低本底钢”。
一种没被污染的旧时代产物,成为新技术能否正常运作的关键。
同样的事,正发生在AI身上。
ChatGPT 发布后,生成式AI爆炸式普及。
越来越多的AI模型,不再只训练于人类写下的文本,而是掺杂了大量AI生成的内容。模型吃着模型吐出来的东西,不断自我循环。
这被一些研究者称为模型自噬症(Model Autophagy Disorder)。
学界提出了一个词:模型塌缩(model collapse)。意思是,如果训练数据里 AI 写的东西越来越多,模型会变得越来越笨。
当模仿者不断学习模仿者,下一代模型就会越来越偏离真实世界。
说白了,它只会模仿自己,最后连对错都分不清。
其中一个争议点很微妙:一个模型,可以非常流畅地说谎;也可以结结巴巴地说出真话。
你要哪一个?
2
Cloudflare前CTO意识到问题的严重。
他注册了一个网站:lowbackgroundsteel.ai,专门收集2022年以前的纯人工数据,比如GitHub在2020年封存的代码资料库 Arctic Code Vault。
他借用了低本底钢的类比,想保留一份没有AI干预的语料——低本底语料。
但这只是冰山一角。
越来越多研究者开始担心,训练数据中AI生成内容的比例越来越高,会让模型劣化:它们可能变得更会迎合人类,却更不懂真实世界。
你以为它理解你,其实它只是在模仿模仿人类的AI。
3
模型崩塌并不是唯一的风险。
剑桥大学存在风险研究中心的研究员Maurice Chiodo提醒我们,真正危险的是干净数据的稀缺,可能会带来另一个可怕的后果——技术垄断。
拥有足够早、足够干净的训练数据,未来可能成为AI公司最强的壁垒。
他们手中的,不是算力,不是算法,而是别人再也得不到的纯净语料。
你可以打造一个会说谎但流畅的模型,也能造出一个老实但呆板的模型。但你无法在污染的数据源上,训练出一个既真诚又强大的模型。
这就是为什么有人说:现在每一个参与生成式AI的人,都是在污染所有人的数据供给。
4
而更糟糕的是,没人知道这种污染该怎么清理。
学界提出了各种应对方式,比如:
- 强制标记AI生成内容(但很难执行);
- 用联邦学习方式共享数据而不暴露数据本身(但门槛高);
- 创建不可被污染的国家级语料库(但政治风险不容小觑)……
这些解决方案都还处在理论设想阶段,真正能落地的少之又少。
一旦污染发生,是不可逆的,要么你已经没机会了,要么你再也回不到过去。
一位研究者说:我们的问题不只是模型是否真实,而是我们还能不能造出一个靠得住的大模型。
在模型生成模型、数据污染数据的世界里,谁来守住信任的边界?
5
当AI开始训练AI,人类原本独特的表达方式,被深度伪装的内容稀释。
文字、语音、图像、代码、视频,正在悄悄地、逐渐地,被我们自己污染。
AI变得更像我们,我们却越来越难找到真正像人的东西。
曾经,语言是人类思想的延伸;现在,它也许只是AI彼此模仿的结果。
一如科学家在深海中寻找低本底钢,未来的AI,也许只能在历史里打捞干净的数据遗迹。
而我们,早已忘了它们原来的模样。
如果有一天,我们连什么是人写的都分不清了,那我们是否已经开始失去人的存在方式?