行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

1行业的共识是Scaling就是堆资源但Kimi这次做的事情不是这个

2026-03-19 未知机构王月

1）Kimi通过重构Adam优化器、Full Attention和残差连接等“祖传”组件，实现技术突破：MuonClip将Token效率提升2倍，Kimi Linear在1M上下文下解码速度提升5-6倍，Attention Residuals解决深层信息稀释问题，强调这是在“挖地基”而非简单堆资源。 2）视觉领域发现反直觉成果：视觉RL训练后，MMLU-Pro和GPQA-Diamond基准提升2.1%，表明空间推理和语言推理共享认知基础，通过“看懂图”提升“想清楚问题”的能力。 3）Kimi改进残差连接引发行业反思，Karpathy指出《Attention is All You Need》未被彻底理解，暗示当前共识可能基于未解基础，基础架构探索远未结束。 4）智能体集群创新：Kimi K2.5的Orchestrator机制将复杂长任务拆解为数十个子Agent并行处理，并行RL奖励函数激励模型学会任务分解，重新定义“一个模型”的概念。 5）未来竞争关键在于提升Token价值，Kimi开源MuonClip、Kimi Linear、Attention Residuals，实现更高Token效率、更长上下文、更强Agent协作和更低推理成本。

Adam优化器用了12年、Full Attention用了9年、残差连接用了10年——三个”祖传”组件全部重构。 MuonClip把Token效率提升2倍，Kimi Linear在1M上下文下解码速度快5-6倍，Attention Residuals解决深层信息稀释问题。这不是盖楼，这是在挖地基。 1）行业的共识是Scaling就是堆资源，但Kimi这次做的事情不是这个。 Adam优化器用了12年、Full Attention用了9年、残差连接用了10年——三个”祖传”组件全部重构。 MuonClip把Token效率提升2倍，Kimi Linear在1M上下文下解码速度快5-6倍，Attention Residuals解决深层信息稀释问题。这不是盖楼，这是在挖地基。 2）更反直觉的发现在视觉这边。视觉RL训练之后，纯文本基准MMLU-Pro和GPQA-Diamond提升了2.1%。空间推理和语言推理在更深层共享同一套认知基础——让模型”看懂图”这件事，顺手就把”想清楚问题”的能力也练了。 3）Kimi改了残差连接，Karpathy直言：我们对《Attention is All You Need》的理解还不够。一个OpenAI联合创始人说自己没搞懂——当前行业的很多”共识”可能都建立在一个没被彻底理解的基础上，基础架构的探索远没结束。 4）智能体集群这块，Kimi K2.5的Orchestrator机制能把复杂长任务拆解给数十个子Agent并行处理，并行RL奖励函数激励模型真正学会任务分解。这不是工程优化，这是在重新定义什么叫”一个模型”。 5）未来的竞争不只是谁的算力多，而是谁能在同样的算力下把每一个Token的价值榨得更干。 MuonClip、Kimi Linear、Attention Residuals全部开源——更高的Token效率，更长的上下文，更强的Agent协作，更低的推理成本。

点击免费查看完整报告

你可能感兴趣

1行业的共识是Scaling就是堆资源但Kimi这次做的事情不是这个

你可能感兴趣

康宁拿meta订单这个事情三个思路1光纤要找有棒产能的长飞亨

1市场一部分投资人开始减仓出口上周销售笔记的最后当时我没想明白的就是这个时间

11月中国债务数据综述：金融机构去杠杆效果初显，但还不是事情的全部

大语言模型最牛的是，它不是填空机：而是能完整地理解这个世界的知识

让众多优质的中小微企业应用好新三板的这个资本工具做大做强是新三板前进的方向