Deepseek R1可能找到了超越人类的办法这篇讲 deepseek R1 的文章蛮不错的。核心观点就是，R1 的价值主要不是低成本实现比肩 openai 领先模型的性能水平，而是其前置模型 R1Xero“揭示了强化学习可以不依赖人类 | 互联网从业者充电站

2025/02/11 01:29

Deepseek R1可能找到了超越人类的办法
这篇讲 deepseek R1 的文章蛮不错的。
核心观点就是，R1 的价值主要不是低成本实现比肩 openai 领先模型的性能水平，而是其前置模型 R1-Xero“揭示了强化学习可以不依赖人类反馈，纯RL 也能训练出最强的 reasoning 模型”，从而展示了：
1 2024 年预训练因为世界数据不够而撞墙的 scaling law 找到新的作用路径（算力可以翻倍，但是训练的材料翻不了倍，每年人类产生的新数据相较于过往数据汇总只是一点点的增加）
2 如果依靠人类反馈，那理论上AI 只能比肩人类，不能超越人类，如果 AI 现在可能纯纯通过 RL 来获得能力，那理论上 AI 是可以超越人类的（所以）
（所以去年 openai 上了 o1 之后说，通往 AGI 的道路上再无阻碍，抛开PR 意图，可能就是这个背后的逻辑，只不过openai 是闭源的，所以没有 deepseek 这次这么 strong 的揭示）