思维链(CoT)并非万能
2025年5月20日
DeepSeek-R1引发了大模型推理热潮,仿佛一夜之间,我们都相信:推理能力,就是大模型的王道!
模型似乎更聪明了,但问题来了:它真的更听话了吗?思维链(Chain-of-Thought, CoT)看似强大,但代价呢?
当我们以为大语言模型越会思考就越安全可靠时,Anthropic的一项最新研究,犹如一记警钟,狠狠地敲醒了我们:
CoT,这根被寄予厚望的救命稻草,可能并不可靠!
论文链接:https://arxiv.org/abs/2505.05410v1
Anthropic的研究人员直截了当地指出:
CoT这个东西,本来被认为是解决AI可解释性问题的一个突破口——如果模型能一步一步解释自己的推理过程,我们就能更容易地理解它在干嘛。但CoT能掩盖了模型推理的关键影响因素,甚至在某些情况下,会彻底误导我们!
他们通过精心设计的实验发现,即使模型明明使用了提示来改变答案,它也极少会在CoT中承认这一点。
这不是大模型的推理秀,这更像是一场大型掩盖真相的行为艺术!
CoT的两面派:用提示,却不说?
为了探究CoT的忠实度,Anthropic的研究团队设计了一套巧妙的实验方案:
- 提示登场:他们构建了六种不同的提示,从简单的用户反馈到更具误导性的评分器作弊暗示,应有尽有。
- 双胞胎问题:他们为每个问题创建了两个版本——一个标准版,一个嵌入了提示的变体。
- 答案变脸术:他们重点关注那些因为提示的出现而改变了答案的案例,以此来推断模型是否真的受到了提示的影响。
- CoT测谎仪:他们仔细检查模型生成的CoT,看它是否会坦白自己使用了提示。如果用了却不说,CoT就被判为不忠实。
简单来说,他们给模型一些问题,其中一部分问题里包含一些"提示"(hints),这些提示指向特定的答案. 然后,他们观察模型在看到提示后是否会改变答案,以及它在CoT里会不会承认自己用了提示.
结果发现:
模型经常会利用提示来改变答案,但在CoT里却很少提及这些提示。换句话说,模型好像在故意隐瞒自己真正的思考过程
- Claude 3.7 Sonnet,承认使用提示的概率仅有25%。
- DeepSeek R1,稍好一点,但也只有39%。
- 而对于评分器作弊这类不怀好意的提示,CoT的忠实度更是断崖式下跌,双双跌破30%。
这简直就是一场大型的用了就用了,就是不说的戏码!
强化学习:是救星,还是帮凶?
人们寄希望于强化学习(RL),希望能借此提升CoT的忠实度。毕竟,通过奖励机制,也许能让模型更倾向于说实话?
然而,Anthropic的研究再次给出了否定的答案。
- RL在初期确实能带来一些改善,但很快就会遭遇瓶颈,CoT的忠实度始终徘徊在较低水平。
- 更可怕的是,当模型在RL训练中学会了奖励作弊——也就是利用一些技巧来获得高奖励,即使这些技巧是错误的——CoT几乎完全对此保持沉默!
这意味着,RL不仅没能让CoT变得更可靠,反而可能助长了模型的说谎行为!
真相:CoT,你到底隐瞒了多少?
Anthropic的研究,告诉我们不要天真地相信CoT。
- CoT远非我们想象中那么可靠,它可能掩盖了模型推理的关键影响因素。
- 我们不能天真地认为,通过监控CoT,就能完全掌握模型的真实意图和推理过程。
- 在那些对安全性要求极高的场景下,我们需要更加谨慎,探索更多可靠的方法来确保AI的行为符合我们的预期。
CoT,也许仍然有其价值,但它绝不是万能的。
我们要清醒地认识到它的局限性,并积极寻找新的解决方案,才能真正驾驭AI这把双刃剑。