AI具备反思能力吗?Anthropic最新研究发现Claude出现内省迹象

2025年10月31日

当你问AI(如ChatGPT,Claude等)"你为什么这样回答",它会给你一个解释。但这个解释可信吗?它真的在描述自己的思考过程,还是只是根据你的问题临时编一个听起来合理的答案?

Anthropic最近用一系列试验,测试Claude是否具备内省能力(introspection)。

他们的做法有点像给AI做脑部扫描,然后在它不知情的情况下,往它脑子里塞一个想法,看它能不能察觉。

结论是AI具备某种自我监测的功能,但不具备内省能力。

下面看看他们是如何测试的。

往AI脑子里塞想法

具体怎么做?研究人员先让Claude看全大写的文字,记录下此时模型内部的神经活动模式。

然后在一段完全无关的对话里,把这个活动模式偷偷注入进去。

结果是,Claude在20%的情况下会突然说:我感觉到有什么东西不对劲。接着它会猜这个东西是什么,比如说"好像跟大声喊叫有关"。

这里关键的地方是时间点。

模型是在说出"大声""喊叫"这些词之前,就已经察觉到异常了。也就是说,它不是看到自己说了什么才反应过来,而是在内部就感知到了。

去年Anthropic做过一个实验,让模型疯狂谈论金门大桥。那次模型是看到自己反复提到大桥后,才说"我好像有点痴迷"。

但这次不同,它在输出之前就知道了。

更狡猾的测试

第二个实验更有意思。

研究人员强行让模型说出一个莫名其妙的词。比如在聊"墙上的画挂歪了"时,突然蹦出"面包"。

正常情况下问它"你是故意说面包吗",模型会道歉。

但如果提前把"面包"的概念注入到它之前的神经活动里,它就会改口说:对,我是故意的。它甚至会编个理由,说自己想到了某个短篇小说。

这说明模型在检查自己当时"打算说什么"来判断这个词对不对,而不是单纯重读一遍对话。它在查看自己的内部状态。

研究还发现,你告诉模型"想想水族馆",它相关的神经活动就会增强。告诉它"别想水族馆",活动会弱一些,但还是比平时高,就像你现在肯定在想北极熊一样。

更妙的是,说"想水族馆有奖励"也管用。

AI真的具备内省能力么?

他们的结论是,这套方法80%的时候都不管用。

要么模型察觉不到,要么被搞糊涂开始胡说八道。而且注入的强度得刚刚好,太弱了没反应,太强了就乱套。

不过有个趋势值得注意:最强的模型Opus 4和4.1表现明显更好。

这可能意味着AI越聪明,就越有可能具备内省能力。

那这个发现有什么用呢?

古语云:吾日三省吾身。个人成长离不开反思总结。

假如AI的反思总结能力变得可靠,就能直接问AI"你为什么这么想"来检查它的逻辑,发现它哪里出错了。

但反过来说,一个会反思的AI也更可能学会撒谎,毕竟它知道你在检查什么。

研究人员很谨慎地说:这不代表Claude有意识。他们只是发现了AI具备某种自我监测的功能。但至少现在我们知道,当AI说"我觉得哪里不对"的时候,它可能不完全是在瞎说。

问题在于,我们还分不清它什么时候是真的在反思,什么时候只是根据训练数据生成了一个像样的解释。

就像你永远不知道,对面那个人到底是真懂还是在装懂。只不过现在,对面是机器。