该模型采用混合专家(MoE)架构,包括GLM-4.5:总参
值得一提的是,据Kimi团队成员刘少伟在知乎上的分享,KimiK2继承了DeepSeek-V3的架构,并在后者基础上进行增加专家数量、减少注意力头数量等调整,最终实现了较强的性能。针对Agent的执行能力,PPIO率先支持Kimi-K2、Qwe