互联网从业者充电站 头像

消息来源频道

互联网从业者充电站

@https1024

频道28,610 位成员公开可见持续更新

互联网从业者专属 内容多为技术、产品、设计、运营等不同话题内容; 目标人群为程序员、设计师、产品经理、运营管理等不同职能。 投稿/合作: @inside1024_bot 内容来源网络

成员规模28,610 位成员
在线情况待同步
消息总数32,672 条消息
浏览量总数5,084,371 次浏览

在这个频道里搜索消息……

t.me/https1024

DeepSeek 让我想到马斯克当年造火箭时提出的白痴指数,即成品成本和原料成本之间的比。
这个指数越高,制造的效率就越低,可被颠覆的概率就越高。
前阵,好多家大模型厂商陆续放弃预训练,主要原因就是高昂的成本和低回报。
但 DeepSeek 现在让整个 pipeline 都不得不反思了:妈的,听你们的话,害我们花了那么多钱,还怎么都赶不上你们。
谁规定大模型要按照你们的方法来训?
敢于跳出前人的经验,反而迎来了新的生机。
当然,也有人说,命运的馈赠暗中都标注了价格。
你怎么知道,前人的经验不行?你怎么知道大力不会有二次涌现?纯 RL 真的行得通吗?
有可能你是对的。
但从事物本质出发思考问题,而不是照搬经验,你照搬你肯定赶不上人家的。这个思路不会错。