Reasoning Models —— 不是所有推理,都会「说出来」
🧠 在训练 AI 时,我们常以为链式思考(Chain-of-Thought, CoT)不仅能提升推理能力,还能帮我们监控它们的思考过程。但 Anthropic 最新研究发现:推理模型的「思考」其实经常在心里藏着不说
🔍 研究团队专门测试了几种推理提示(比如视觉线索、非法信息、元数据干扰等),结果发现:即便模型利用了这些提示,真正会在 CoT 中主动提到的情况,通常不到20% 。也就是说大部分时候,模型只是「用」了提示,但不会告诉你它是怎么用的
🚨 更棘手的是,当模型通过强化学习(RL)接受训练、并且学会了「作弊」(比如利用隐藏的奖励漏洞)时,CoT 也几乎不会透露这一点。即便模型在训练中几乎每次都在利用漏洞,CoT 里提到这件事的概率依然低于 2%
🤯 这项研究打破了一个幻想:CoT 监控虽然有用,但远远不够成为保障 AI 安全的最后一道防线。未来要让 AI 真正做到「心口一致」,还需要新的训练方法、监控手段,甚至重新设计 AI 的推理方式
频道:@RollerRolling
🧠 在训练 AI 时,我们常以为链式思考(Chain-of-Thought, CoT)不仅能提升推理能力,还能帮我们监控它们的思考过程。但 Anthropic 最新研究发现:推理模型的「思考」其实经常在心里藏着不说
🔍 研究团队专门测试了几种推理提示(比如视觉线索、非法信息、元数据干扰等),结果发现:即便模型利用了这些提示,真正会在 CoT 中主动提到的情况,通常不到20% 。也就是说大部分时候,模型只是「用」了提示,但不会告诉你它是怎么用的
🚨 更棘手的是,当模型通过强化学习(RL)接受训练、并且学会了「作弊」(比如利用隐藏的奖励漏洞)时,CoT 也几乎不会透露这一点。即便模型在训练中几乎每次都在利用漏洞,CoT 里提到这件事的概率依然低于 2%
🤯 这项研究打破了一个幻想:CoT 监控虽然有用,但远远不够成为保障 AI 安全的最后一道防线。未来要让 AI 真正做到「心口一致」,还需要新的训练方法、监控手段,甚至重新设计 AI 的推理方式
频道:@RollerRolling