K2 的技术报告也发布了ai创造营专家数量：384个专家，每次前向激活8个，提升了稀疏性和性能。注意力机制：采用多头潜在注意力（MLA），隐藏维度7168，注意力头数64（相比同类模型减少一半，提升长文本推理效率）。优化器：创新性地提 | 硬核开源智库

2025/07/27 10:12

K2 的技术报告也发布了#ai创造营#
专家数量：384个专家，每次前向激活8个，提升了稀疏性和性能。
注意力机制：采用多头潜在注意力（MLA），隐藏维度7168，注意力头数64（相比同类模型减少一半，提升长文本推理效率）。
优化器：创新性地提出了MuonClip优化器，将高效的Muon算法与QK-Clip权重裁剪机制结合，解决了大规模训练中的不稳定问题，防止注意力logit爆炸。
数据处理：预训练数据覆盖Web文本、代码、数学和知识四大领域，采用合成重写（rephrasing）技术提升token利用率，尤其在知识和数学领域通过多样化重写增强泛化能力。
训练规模：预训练总计15.5万亿高质量token，采用4096-token上下文窗口，后期通过YaRN方法扩展到128k上下文。
稀疏性Scaling Law：实验表明，在激活参数数固定的情况下，增加专家总数（提升稀疏性）能显著降低训练和验证损失，提升模型表现。
推理优化：减少注意力头数，降低长文本推理的计算开销，提升实际应用效率。
硬件：基于NVIDIA H800 GPU集群，采用多级并行策略和高效的激活存储与重计算技术，保证大模型训练的可扩展性和稳定性。
这里查看：github.com/MoonshotAI/Kimi-K2/blob/main/tech_report.pdf