
计算机 证券研究报告 行业专题报告/2026.02.25 核心观点 投资评级:看好(维持) 海外大模型三重进化:推理筑基、行动落地与生态重构的竞速新格局。海外头部大模型企业已进入推理能力升级、场景落地与生态体系重构的竞速新阶段。Anthropic、OpenAI、Google、OpenClaw等厂商各有核心布局:或以企业工作流为核心,实现与Office生态的深度集成;或聚焦长程任务闭环,打造专业生产力助手;或提升推理基线,拓展音频创作新场景;亦或是完成个人智能体产品化落地。这些探索共同推动大模型从单纯能力输出,向实际任务执行、规模化生产力交付升级。 国产大模型多维突围:开源筑基、效率制胜与Agent生态协同的落地新格局。国产大模型企业以开源为基底,围绕效率优化与Agent生态协同实现多维突破,智谱、MiniMax、Kimi、阿里、字节跳动等企业各展所长,或推动开源模型向长程Agent工程化落地,或凭速度与成本撬动Agent规模化,或通过多模态MoE架构强化并行Agent执行,亦或是以开源旗舰升级+多端部署推动Agent商业化落地,同时完成模型能力补全与规模化分发链路搭建,全面发力Agent实际任务执行场景。 分析师李康桥SAC证书编号:S0160526020002likq@ctsec.com 联系人陈梦笔chenmb01@ctsec.com 行业趋势印证:从生成到行动,竞争聚焦供给效率与生态重构。大模型行业已完成从“生成”到“行动”的核心转向,任务复杂度与调用链路提升成为行业增长核心动力,Token消耗与任务ROI成为核心衡量指标。行业竞争焦点从模型参数、跑分转向低单位推理成本、高吞吐、稳定工具调用的综合供给效率,同时工作台、Office集成等新入口取代传统对话框,入口控制与可执行生态的系统性构建成为关键,开源模型在真实流量中的占比也持续提升。 相关报告 1.《大模型系列报告(三):从“思考”到“行动”的系统级重构》2025-12-162.《11月车市基本符合预期,英伟达开源VLA模型》2025-12-113.《 全 球 超 节 点 争 霸 , 中 科 曙 光 发 布ScaleX640》2025-11-09 ❖投资建议:见正文。 ❖风险提示:技术迭代不及预期的风险;商业化落地不及预期的风险;政策支持不及预期风险;全球宏观经济风险。 内容目录 1海外大模型三重进化:推理筑基、行动落地与生态重构的竞速新格局................................41.1Anthropic:模型能力锚定企业工作流,工程师生产力成核心主线................................41.2OpenAI锚定长程任务闭环与工具执行,打造可协作的专业生产力助手.........................61.3Google:Gemini 3.1 Pro抬高推理基线,Lyria 3拓展音频创作新入口.......................81.4OpenClaw:个人智能体产品化样本,快速落地扩散、生态、治理三阶段.....................102国产大模型多维突围:开源筑基、效率制胜与Agent生态协同的落地新格局....................112.1智谱(Z.ai):GLM-5推动开源模型向长程Agent工程化落地.................................112.2MiniMax:以“真实世界生产力”为核心,M2.5凭速度与成本撬动Agent规模化......132.3Kimi(Moonshot):开源多模态MoE架构切入,强化视觉编码与并行Agent执行......152.4阿里:Qwen3.5-Plus以开源旗舰+原生多模态跃迁,推动Agent规模化落地..............162.5字节跳动:春节档“三连发”,豆包2.0推动战场从聊天转向Agent执行..................183行业趋势印证:从生成到行动,竞争聚焦供给效率与生态重构........................................204投资建议.............................................................................................................215风险提示.............................................................................................................21 图表目录 图1:Opus 4.6在深度、多轮agent任务中排名第一....................................................4图2:Sonnet 4.6在computer use评分中排名第一.....................................................4图3:Claude Cowork浏览并操作用户文件夹..............................................................5图4:Claude Cowork帮助用户整理桌面....................................................................5图5:Claude in Excel帮助用户解决复杂Excel场景....................................................6图6:Claude in PowerPoint可修改PPT页内容.........................................................6图7:GPT-5.3-Codex在同等输出tokens数量条件下,准确率提升.............................7图8:GPT-5.3-Codex-Spark在类似准确度条件下,处理任务速度更快.........................7图9:Codex app桌面操作案例.................................................................................8图10:Gemini 3.1 Pro生成效果更丰富.....................................................................9图11:Gemini 3.1 Pro复杂交互设计实力强...............................................................9 图12:Lyria 3可根据用户需求创作多种风格曲目........................................................10图13:OpenClaw的Gateway网关是会话、路由与渠道连接的唯一事实来源.................11图14:OpenClaw代替用户操作WhatsApp.............................................................11图15:GLM-5在多领域接近SOTA模型水平...........................................................12图16:MiniMax在主要基准测评中媲美SOTA..........................................................13图17:M2.5保持行业最快进步速度.........................................................................14图18:MiniMax以行业最快更新速度追平SOTA模型.................................................14图19:Kimi K2.5模型与头部模型能力匹配................................................................15图20:Kimi提出Agent集群概念............................................................................16图21:阿里巴巴开源全新一代大模型千问Qwen3.5-Plus,登顶全球最强开源模型..........17图22:千问3.5推理效率大幅提升,最大吞吐量提升至19倍........................................18图23:Seedream 5.0 Lite示例..............................................................................19图24:Seed MaaS服务场景分布占比.....................................................................19图25:火山引擎与春晚合作....................................................................................19图26:OpenRouter周度Token处理量持续新高.......................................................20 1海外大模型三重进化:推理筑基、行动落地与生态重构的竞速新格局 1.1Anthropic:模型能力锚定企业工作流,工程师生产力成核心主线 1)近期,Anthropic完成模型双版本迭代,主打1M上下文与长程Agent能力,实现旗舰与主力型号能力分层及规模化覆盖。其策略不再聚焦通用能力单点提升,转而以企业真实工作流稳定交付为核心,系统推进两大方向:一是强化模型在编码、长程Agent、computer use、知识工作等场景的技术可靠性;二是将能力封装为Claude Code、Cowork等可复用工作单元,嵌Excel、PowerPoint等Office工具,主攻企业市场与团队渗透,以工程师生产力为落地主线。 1.Claude Opus 4.6:旗舰模型升级,首次解锁1M上下文,纳入办公生产力核心能力:2026年2月5日,Anthropic发布Claude Opus 4.6,核心升级直指三大方向,即更强的编码能力(含代码审查与调试)、更严谨的任务规划能力、更持久的长程agentic任务执行能力,且在Opus旗舰级别首次开放1Mtoken上下文窗口。同时,公司将“办公生产力”正式纳入旗舰模型能力边界,明确其可适配财务分析、行业研究、文档/表格/演示文稿的创建与编辑等企业高频场景,并能在ClaudeCowork场景中充分发挥多任务自主执行的优势,实现旗舰能力与企业工作流的深度融合。 2.ClaudeSonnet4.6:主力型号全面升级,强化规模化交付属性:2026年2月17日,Anthropic推出ClaudeSonnet4.6,定位为面向更大规模用户的主力型号升级,官方强调其在coding(编码)、computeruse(计算机使用)、长上下文推理、agentplanning(智能体规划)、知识工作与设计等核心维度实现全面能力提升,且同步开放1Mtoke