您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[财通证券]:中美AI百花齐放,开启AI新时代 - 发现报告

中美AI百花齐放,开启AI新时代

AI智能总结
查看更多
中美AI百花齐放,开启AI新时代

请阅读最后一页的重要声明!投资评级:看好(维持)最近12月市场表现分析师杨烨SAC证书编号:S0160522050001yangye01@ctsec.com联系人陈梦笔chenmb01@ctsec.com相关报告1.《6月零售增势延续,小米汽车加速建设新工厂》2025-07-152.《RWA:链上资金与现实资产对接桥梁》2025-07-133.《创意设计工具Figma冲击美股IPO》2025-07-07-10%7%23%40%57%74%计算机沪深300上证指数 核心观点❖风险提示: 谨请参阅尾页重要声明及财通证券股票和行业评级标准1中国AI新浪潮:Kimi K2“开源冲击波”,“又一个DeepSeek时刻”...............................................31.1目前最大开源模型之一,基于DeepSeek-V3优化推进底层技术创新.........................................31.2Kimi:主打AI Agent与“高性价比”的实战派............................................................................62美国AI双雄会:Grok 4与ChatGPT Agent的策略分野..................................................................92.1Grok 4:专攻高难任务的“理科博士”,10x算力训练量延续Scaling Law跃迁奇迹..............92.2ChatGPT Agent:端到端任务的“全能管家”............................................................................123海内外大模型百花齐放,AI新时代悄然已至...................................................................................134风险提示.................................................................................................................................................15图1. Kimi K2在不同基准测试中的表现情况..............................................................................................4图2. Kimi K2在复用DeepSeek框架的基础上做出的优化.......................................................................5图3.引入MuonClip优化器后Kimi K2的稳定性....................................................................................6图4. Kimi K2生成的山川峡谷3D景观.......................................................................................................7图5. Kimi K2生成的粒子特效银河..............................................................................................................7图6. Kimi设计的AI Agent系统工作流程的概念架构图...........................................................................7图7. Kimi Researcher在HLE及不同基准测试中的表现情况..................................................................8图8. Grok 4在训练量方面的突破.................................................................................................................9图9. Grok 4和Grok 4 Heavy在HLE及不同基准测试中的表现情况..................................................10图10. Grok 4示例任务.................................................................................................................................11图11. ChatGPT Agent计划旅游行程.........................................................................................................12图12. ChatGPT Agent处理Excel文件......................................................................................................12图13. ChatGPT Agent在HLE及不同基准测试中的表现情况...............................................................13内容目录图表目录 2 谨请参阅尾页重要声明及财通证券股票和行业评级标准31中国AI新浪潮:Kimi K2“开源冲击波”,“又一个DeepSeek时刻”月之暗面Moonshot AI发布Kimi K2基座模型吹响“又一个DeepSeek时刻”。2025年,全球人工智能领域持续经历着前所未有的高速发展与激烈竞争,中美大模型研发和产品迭代尤为引人注目。近日,一批业内领先的AI大模型相继涌现,正深刻地改变着人机交互的方式,并有望在各行各业催生创新应用。7月11日,Moonshot AI发布Kimi K2开源模型,成为全球AI领域的一大焦点。我们认为,它不仅是性能强大的模型,更代表中国AI力量在全球竞争中采取的一种差异化、高影响力的策略。Kimi K2的出现,被业界评价为“又一个DeepSeek时刻”,标志着中国在开源大模型领域已具备世界级的竞争力。1.1目前最大开源模型之一,基于DeepSeek-V3优化推进底层技术创新Kimi K2具有庞大参数规模与高效MoE架构,擅长执行自动化工作流长任务。Kimi K2采用了混合专家(Mixture-of-Experts, MoE)架构,总参数量高达1万亿,在处理每个任务时激活约320亿参数。在模拟真实世界软件开发任务的SWE-bench上,Kimi K2的性能与闭源模型Claude 4 Opus非常接近;而在衡量实时互动编程能力的LiveCodeBench上,Kimi K2以53.7%的准确率超越了GPT-4.1和Claude 4 Opus。我们认为,综合以上数据,Kimi K2尤其擅长执行具体的、定义明确的计划,是构建自动化工作流的理想“执行者”。 谨请参阅尾页重要声明及财通证券股票和行业评级标准Kimi K2的核心技术优势主要体现在以下几个方面:基于DeepSeek-V3的继承与优化。在设计之初团队进行了大量模型结构相关的scaling实验,基于实验结果的准确有效性和成本的考量,模型结构的设计问题主要集中于如何在给定DeepSeek-V3结构的框架下选择合适的参数使得模型在训练、推理成本与DeepSeek-V3相当的前提下,获得明显更低的数据损失。为此,技术团队在复用DeepSeek的MLA(Multi-Head Latent Attention)的基础上进行优化,具体的改动主要包含:⚫减少注意力头:减半attentionheads以降低Infra的压力,同时减少num_heads变数以实现时间和成本的平衡;⚫提升专家数量:将专家数量(num_experts)从256升到384,既为了补回没有double heads带来的损失,同时也能符合实测的Scaling Law。即在一定范围内,固定激活的专家数量,使得增加总专家数带来的效果收益,大于增加的Infra成本;⚫精简前期Dense层:将前置Dense层数由3降至1。与DeepSeek的观察类似,第一层MoE的router很难做到负载均衡,但第二层之后则未出现问题;为了更充分利用MoE优势,技术团队只保留第一层Dense,其余全用MoE; 4 谨请参阅尾页重要声明及财通证券股票和行业评级标准5⚫MoE Router简化,n_group = 1(expert无分组):在当前模型参数规模下,为保证MoE计算耗时在合理范围内,采用更自由的router方案使得expert的组合空间显著增大,从而进一步提升模型能力。总结来看,K2技术团队在DeepSeek-V3原有框架基础上进行优化,核心是通过减少“注意力头”来降低服务器压力,同时增加专家数量以补回效果损失;此外还精简了前期固定层,仅保留一层,并让专家调度更灵活,取消分组搭配,从而使组合方式更多样,效果也更好。图2.KimiK2在复用DeepSeek框架的基础上做出的优化数据来源:Sebastian Raschka论文《The Big LLM Architecture Comparison》,财通证券研究所底层技术创新提升训练稳定性:月之暗面团队自研“MuonClip”优化器,克服“训练崩溃”(loss spikes)问题。根据其技术报告,MuonClip通过一种创新的“qk-clip”技术,在训练过程中动态调整权重,有效防止了注意力分数的爆炸,从而确保了在15.5万亿tokens的庞大数据集上训练过程的“零不稳定”。这一底层工程和算法的突破,是Kimi K2能够成功问世的核心技术保障之一。 谨请参阅尾页重要声明及财通证券股票和行业评级标准数据来源:Kimi K2技术报告,财通证券研究所注:随着token训练量提升,Muonclip优化器有效防止性能损失。1.2Kimi:主打AI Agent与“高性价比”的实战派Kimi K2作为优化AI Agent的实战模型,其功能并非追求在所有领域都做到顶尖,而是在开发者最需要的编码和工具调用等场景中做到极致,在智能体任务的完成速度与质量中取得进步。⚫工具调用及数学推理能力:在工具调用能力测试中表现接近行业领先水平,具备稳定的复杂指令解析能力,可将需求自动拆解为一系列格式规范、可直接执行的ToolCall结构;在AIME 2025中得分高达49.5,在数学定理和逻辑判断方面表现出色,是研究和教育用户的高性价比方案。⚫前端开发能力和APP兼容性:擅长生成兼具设计感与视觉表现力的代码,支持粒子系统、可视化和3D场景等表现形式,具备较强的图形能力与交互性。 6 数据来源:Kimi官方,财通证券研究所⚫性能与局限性的平衡视角:作为一个“非思考”(non-thinking)模型,Kimi K2的优点在于响应速度快,拥有128K的长上下文处理能力,并且在编码等特定任务上表现优异。局限性在于,对于需要深度、多步、复杂逻辑推理