消息来源频道

硬核开源智库

@HardcoreOpenAI

频道811 位成员公开可见持续更新

提供硬核学习资源,探索开源力量,驾驭AI未来! 本频道精选GitHub优质开源项目、最新人工智能(AI)技术进展、前沿科技资讯以及各类有价值的学习资源,助你站在技术浪潮之巅,实现知识与技能的快速跃迁。无论你是开发者、AI爱好者还是技术探索者,都能在这里找到属于你的宝藏!

成员规模811 位成员
在线情况待同步
消息总数1,140 条消息
浏览量总数116,736 次浏览

在这个频道里搜索消息……

t.me/HardcoreOpenAI

K2 的技术报告也发布了#ai创造营#
专家数量:384个专家,每次前向激活8个,提升了稀疏性和性能。
注意力机制:采用多头潜在注意力(MLA),隐藏维度7168,注意力头数64(相比同类模型减少一半,提升长文本推理效率)。
优化器:创新性地提出了MuonClip优化器,将高效的Muon算法与QK-Clip权重裁剪机制结合,解决了大规模训练中的不稳定问题,防止注意力logit爆炸。
数据处理:预训练数据覆盖Web文本、代码、数学和知识四大领域,采用合成重写(rephrasing)技术提升token利用率,尤其在知识和数学领域通过多样化重写增强泛化能力。
训练规模:预训练总计15.5万亿高质量token,采用4096-token上下文窗口,后期通过YaRN方法扩展到128k上下文。
稀疏性Scaling Law:实验表明,在激活参数数固定的情况下,增加专家总数(提升稀疏性)能显著降低训练和验证损失,提升模型表现。
推理优化:减少注意力头数,降低长文本推理的计算开销,提升实际应用效率。
硬件:基于NVIDIA H800 GPU集群,采用多级并行策略和高效的激活存储与重计算技术,保证大模型训练的可扩展性和稳定性。
这里查看:github.com/MoonshotAI/Kimi-K2/blob/main/tech_report.pdf