互联网从业者充电站 头像

消息来源频道

互联网从业者充电站

@https1024

频道28,610 位成员公开可见持续更新

互联网从业者专属 内容多为技术、产品、设计、运营等不同话题内容; 目标人群为程序员、设计师、产品经理、运营管理等不同职能。 投稿/合作: @inside1024_bot 内容来源网络

成员规模28,610 位成员
在线情况待同步
消息总数32,672 条消息
浏览量总数5,084,371 次浏览

在这个频道里搜索消息……

t.me/https1024

Deepseek R1可能找到了超越人类的办法
这篇讲 deepseek R1 的文章蛮不错的。
核心观点就是,R1 的价值主要不是低成本实现比肩 openai 领先模型的性能水平,而是其前置模型 R1-Xero“揭示了强化学习可以不依赖人类反馈,纯RL 也能训练出最强的 reasoning 模型”,从而展示了:
1 2024 年预训练因为世界数据不够而撞墙的 scaling law 找到新的作用路径(算力可以翻倍,但是训练的材料翻不了倍,每年人类产生的新数据相较于过往数据汇总只是一点点的增加)
2 如果依靠人类反馈,那理论上AI 只能比肩人类,不能超越人类,如果 AI 现在可能纯纯通过 RL 来获得能力,那理论上 AI 是可以超越人类的(所以)
(所以去年 openai 上了 o1 之后说,通往 AGI 的道路上再无阻碍,抛开PR 意图,可能就是这个背后的逻辑,只不过openai 是闭源的,所以没有 deepseek 这次这么 strong 的揭示)