DeepSeek 让我想到马斯克当年造火箭时提出的白痴指数，即成品成本和原料成本之间的比。这个指数越高，制造的效率就越低，可被颠覆的概率就越高。前阵，好多家大模型厂商陆续放弃预训练，主要原因就是高昂的成本和低回报。但 DeepSeek | 互联网从业者充电站

2025/01/27 10:51

DeepSeek 让我想到马斯克当年造火箭时提出的白痴指数，即成品成本和原料成本之间的比。
这个指数越高，制造的效率就越低，可被颠覆的概率就越高。
前阵，好多家大模型厂商陆续放弃预训练，主要原因就是高昂的成本和低回报。
但 DeepSeek 现在让整个 pipeline 都不得不反思了：妈的，听你们的话，害我们花了那么多钱，还怎么都赶不上你们。
谁规定大模型要按照你们的方法来训？
敢于跳出前人的经验，反而迎来了新的生机。
当然，也有人说，命运的馈赠暗中都标注了价格。
你怎么知道，前人的经验不行？你怎么知道大力不会有二次涌现？纯 RL 真的行得通吗？
有可能你是对的。
但从事物本质出发思考问题，而不是照搬经验，你照搬你肯定赶不上人家的。这个思路不会错。