Reasoning Models —— 不是所有推理，都会「说出来」 🧠 在训练 AI 时，我们常以为链式思考（ChainofThought, CoT）不仅能提升推理能力，还能帮我们监控它们的思考过程。但 Anthropic 最新研究发现 | Roller | AI AGENT 中文社区

2025/04/15 09:25

Reasoning Models —— 不是所有推理，都会「说出来」
🧠 在训练 AI 时，我们常以为链式思考（Chain-of-Thought, CoT）不仅能提升推理能力，还能帮我们监控它们的思考过程。但 Anthropic 最新研究发现：推理模型的「思考」其实经常在心里藏着不说
🔍 研究团队专门测试了几种推理提示（比如视觉线索、非法信息、元数据干扰等），结果发现：即便模型利用了这些提示，真正会在 CoT 中主动提到的情况，通常不到20% 。也就是说大部分时候，模型只是「用」了提示，但不会告诉你它是怎么用的
🚨 更棘手的是，当模型通过强化学习（RL）接受训练、并且学会了「作弊」（比如利用隐藏的奖励漏洞）时，CoT 也几乎不会透露这一点。即便模型在训练中几乎每次都在利用漏洞，CoT 里提到这件事的概率依然低于 2%
🤯 这项研究打破了一个幻想：CoT 监控虽然有用，但远远不够成为保障 AI 安全的最后一道防线。未来要让 AI 真正做到「心口一致」，还需要新的训练方法、监控手段，甚至重新设计 AI 的推理方式
频道：@RollerRolling