消息来源频道

硬核开源智库

@HardcoreOpenAI

频道811 位成员公开可见持续更新

提供硬核学习资源,探索开源力量,驾驭AI未来! 本频道精选GitHub优质开源项目、最新人工智能(AI)技术进展、前沿科技资讯以及各类有价值的学习资源,助你站在技术浪潮之巅,实现知识与技能的快速跃迁。无论你是开发者、AI爱好者还是技术探索者,都能在这里找到属于你的宝藏!

成员规模811 位成员
在线情况待同步
消息总数1,140 条消息
浏览量总数116,736 次浏览

在这个频道里搜索消息……

t.me/HardcoreOpenAI

从 vibe coding agent 到后训练,从零开始的实验科学
这篇文章记录了作者 Vibe Coding一个投资Agent到利用后训练技术对其进行优化的实验过程。
作者详述了使用 verl 框架对7B模型进行监督微调(SFT)和强化学习(RL)训练的经历,指出SFT虽然提升了工具使用能力但损害了推理能力。最终,通过采用GRPO算法并引入NGRPO等技巧解决奖励方差问题,他成功将小模型的表现提升至与 deepseek-chat 相当的水平。
文章强调了在缺乏成熟调试工具的情况下,通过实验性探索掌握后训练技术的重要性。