
Adam优化器用了12年、Full Attention用了9年、残差连接用了10年——三个”祖传”组件全部重构。 MuonClip把Token效率提升2倍,Kimi Linear在1M上下文下解码速度快5-6倍,Attention Residuals解决深层信息稀释问题。 这不是盖楼,这是在挖地基。 1)行业的共识是Scaling就是堆资源,但Kimi这次做的事情不是这个。 Adam优化器用了12年、Full Attention用了9年、残差连接用了10年——三个”祖传”组件全部重构。 MuonClip把Token效率提升2倍,Kimi Linear在1M上下文下解码速度快5-6倍,Attention Residuals解决深层信息稀释问题。 这不是盖楼,这是在挖地基。 2)更反直觉的发现在视觉这边。 视觉RL训练之后,纯文本基准MMLU-Pro和GPQA-Diamond提升了2.1%。 空间推理和语言推理在更深层共享同一套认知基础——让模型”看懂图”这件事,顺手就把”想清楚问题”的能力也练了。 3)Kimi改了残差连接,Karpathy直言:我们对《Attention is All You Need》的理解还不够。 一个OpenAI联合创始人说自己没搞懂——当前行业的很多”共识”可能都建立在一个没被彻底理解的基础上,基础架构的探索远没结束。 4)智能体集群这块,Kimi K2.5的Orchestrator机制能把复杂长任务拆解给数十个子Agent并行处理,并行RL奖励函数激励模型真正学会任务分解。 这不是工程优化,这是在重新定义什么叫”一个模型”。 5)未来的竞争不只是谁的算力多,而是谁能在同样的算力下把每一个Token的价值榨得更干。 MuonClip、Kimi Linear、Attention Residuals全部开源——更高的Token效率,更长的上下文,更强的Agent协作,更低的推理成本。