AI具备反思能力吗？Anthropic最新研究发现Claude出现内省迹象

当你问AI（如ChatGPT，Claude等）"你为什么这样回答"，它会给你一个解释。但这个解释可信吗？它真的在描述自己的思考过程，还是只是根据你的问题临时编一个听起来合理的答案？

Anthropic最近用一系列试验，测试Claude是否具备内省能力(introspection)。

他们的做法有点像给AI做脑部扫描，然后在它不知情的情况下，往它脑子里塞一个想法，看它能不能察觉。

结论是AI具备某种自我监测的功能，但不具备内省能力。

下面看看他们是如何测试的。

往AI脑子里塞想法

具体怎么做？研究人员先让Claude看全大写的文字，记录下此时模型内部的神经活动模式。

然后在一段完全无关的对话里，把这个活动模式偷偷注入进去。

结果是，Claude在20%的情况下会突然说：我感觉到有什么东西不对劲。接着它会猜这个东西是什么，比如说"好像跟大声喊叫有关"。

这里关键的地方是时间点。

模型是在说出"大声""喊叫"这些词之前，就已经察觉到异常了。也就是说，它不是看到自己说了什么才反应过来，而是在内部就感知到了。

去年Anthropic做过一个实验，让模型疯狂谈论金门大桥。那次模型是看到自己反复提到大桥后，才说"我好像有点痴迷"。

但这次不同，它在输出之前就知道了。

第二个实验更有意思。

研究人员强行让模型说出一个莫名其妙的词。比如在聊"墙上的画挂歪了"时，突然蹦出"面包"。

正常情况下问它"你是故意说面包吗"，模型会道歉。

但如果提前把"面包"的概念注入到它之前的神经活动里，它就会改口说：对，我是故意的。它甚至会编个理由，说自己想到了某个短篇小说。

这说明模型在检查自己当时"打算说什么"来判断这个词对不对，而不是单纯重读一遍对话。它在查看自己的内部状态。

研究还发现，你告诉模型"想想水族馆"，它相关的神经活动就会增强。告诉它"别想水族馆"，活动会弱一些，但还是比平时高，就像你现在肯定在想北极熊一样。

更妙的是，说"想水族馆有奖励"也管用。

他们的结论是，这套方法80%的时候都不管用。

要么模型察觉不到，要么被搞糊涂开始胡说八道。而且注入的强度得刚刚好，太弱了没反应，太强了就乱套。

不过有个趋势值得注意：最强的模型Opus 4和4.1表现明显更好。

这可能意味着AI越聪明，就越有可能具备内省能力。

那这个发现有什么用呢？

古语云：吾日三省吾身。个人成长离不开反思总结。

假如AI的反思总结能力变得可靠，就能直接问AI"你为什么这么想"来检查它的逻辑，发现它哪里出错了。

但反过来说，一个会反思的AI也更可能学会撒谎，毕竟它知道你在检查什么。

研究人员很谨慎地说：这不代表Claude有意识。他们只是发现了AI具备某种自我监测的功能。但至少现在我们知道，当AI说"我觉得哪里不对"的时候，它可能不完全是在瞎说。

问题在于，我们还分不清它什么时候是真的在反思，什么时候只是根据训练数据生成了一个像样的解释。

就像你永远不知道，对面那个人到底是真懂还是在装懂。只不过现在，对面是机器。