您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[财通证券]:大模型系列报告(三):从“思考”到“行动”的系统级重构 - 发现报告

大模型系列报告(三):从“思考”到“行动”的系统级重构

信息技术2025-12-16杨烨财通证券我***
大模型系列报告(三):从“思考”到“行动”的系统级重构

证券研究报告 行业专题报告/2025.12.16 核心观点 投资评级:看好(维持) 全球大模型从“快思考”走向“慢思考”,从算力堆砌转向算法与训练范式优化。2025年四季度,头部厂商在模型侧的竞争,从追求对话速度和表层“生成质量”的System1快速反应,转向构建具备长链条推理、自我反思与工具调用能力的System2慢思考体系。Google通过Gemini 3+DeepThink把多步推理产品化,OpenAI在“红色警报”下押注Garlic线修复预训练缺陷、提升知识密度,并推出GPT 5.2,DeepSeek则依托长上下文强化学习和工程优化,在AIME、HMMT、IMO等严苛数学竞赛中超越GPT-5High的同时,将百万Token成本压缩到闭源巨头的几十分之一。真正具备持续竞争力的,不再是单纯“更大的模型”,而是单位算力下更高的有效智能密度、更稳定的思考链以及更优的成本效率。 分析师杨烨SAC证书编号:S0160522050001yangye01@ctsec.com 竞争重心从“跑分领先”转向“直达用户、驱动行动”,AI从生成走 向行动。行业焦点正在从基准测试榜单,迁移到“谁能在真实场景中改造用户行为与任务流程”。Gemini 3代表的“搜索即软件”,用生成式界面和交互式工具重构Search;豆包手机助手依托OS级权限打通多App,让自动比价、攻略规划等任务变成一句话即可触发的行动链;阿里千问App通过打通淘宝、高德、饿了么、飞猪等API,把服务能力拆解为可编排的“服务原子”;快手可灵AI则将视频生产从“抽盲盒式生成”升级为可编辑、可控、可复用的工业流水线。能否将模型能力嵌入操作系统与超级App,将自然语言直接翻译为一整套可执行动作,正在成为新一轮入口争夺的核心。 联系人陈梦笔chenmb01@ctsec.com 相关报告 1.《11月车市基本符合预期,英伟达开源VLA模型》2025-12-112.《 全 球 超 节 点 争 霸 , 中 科 曙 光 发 布ScaleX640》2025-11-093.《Robotaxi产 业 进 程 正 在 加 速 》2025-10-26 AI正在系统性重塑生产方式与人才结构,从“手工生产者”到“任务设计者”。在软件工程、内容生产与服务履约等多个环节,AI正把人类从“亲自写代码、亲自剪视频”的手工生产者,推向“设计问题、组织行动链、验收结果”的新角色。在国内,DeepSeek通过“高推理密度+低成本”的开源路径,加上豆包、千问、可灵等在入口和场景侧的落地,正在形成“模型—入口—算力”三线合围的中国样本。这意味着未来的核心竞争力,将更多体现在思考链设计能力、行动链编排能力以及对AI生产方式的驾驭能力上。 ❖投资建议:见正文。 ❖风险提示:技术迭代不及预期的风险;商业化落地不及预期的风险;政策支持不及预期风险;全球宏观经济风险。 内容目录 1全球大模型结构性拐点:从“快思考”到“慢思考”,从“生成”到“行动”....................42海外路径:推理、防御与重塑...................................................................................62.1Gemini 3.0:模型架构与流量入口双重升级.............................................................62.2OpenAI:从“遥遥领先”到“红色警报”..............................................................92.3Anthropic:模型+“工程师生产力”的企业路线.....................................................113国内路径:算法优化弯道超车,生态演进三线合围.......................................................133.1DeepSeek:开源世界的“奇点”........................................................................133.2豆包AI手机助手:OS级智能体的“破壁行动”.....................................................153.3阿里巴巴(千问):生态帝国的“服务原子化”与调度中枢.......................................163.4快手可灵AI:多模态生成、“通感”演进与内容生产“车间化”................................164从模型竞赛到系统重构,从生成内容到驱动行动..........................................................185投资建议.............................................................................................................196风险提示.............................................................................................................20 图表目录 图1:人工智能(AI)模型发展的技术路线图................................................................4图2:推理大语言模型相较于传统推理模型的优势..........................................................5图3:Gemini、Grok、Claude、GPT、Qwen、DeepSeek等海内外大模型在LM Arena中排名前列..............................................................................................................5图4:Gemini 3 Deep Think模式测评表现亮眼............................................................7图5:Gemini 3针对问题直接生成可视化互动界面........................................................7图6:Gemini 3实时生成结构化要点拆解和训练建议.....................................................7图7:Google Services各业务收入结构及同比增速(24Q3 vs 25Q3)...........................8图8:Alphabet 3Q2025实现“首个千亿美元季度”.....................................................9图9:OpenAI不再主导AI竞赛................................................................................10图10:GPT 5.2 Thinking基准测试新高...................................................................11图11:GPT各版本输入成本、输出成本差异..............................................................11 图12:2023年企业级LLM API按使用量划分的市场份额............................................11图13:不同代码任务的日常AI使用占比....................................................................12图14:使用Claude前后任务耗时/产出变化..............................................................13图15:DeepSeek-V3.2/V3.2-Speciale与主流前沿模型在推理与Agent能力上的基准对比14图16:DeepSeekV3.2推理成本对比.....................................................................14图17:豆包AI手机助手OS级智能体示意图.............................................................15图18:Qwen App在Appstore上线.......................................................................16图19:可灵O1世界观资产生成示例........................................................................17图20:可灵O1局部编辑与连续性控制示例...............................................................17图21:可灵数字人2.0设计页面..............................................................................17图22:可灵2.6音画同出模型生成的流畅视频............................................................17图23:谷歌在全球开发者大会上正式推出全新办公套件升级方案——Workspace Studio...19 1全球大模型结构性拐点:从“快思考”到“慢思考”,从“生成”到“行动” 全球大模型正从“快问快答的生成模型”迈向“能推理、能行动的智能体”,进入新一轮结构性拐点。行业主线也从内容生成升级为两端能力:多模态长链条推理(看是否“想得清楚”)与真实系统任务执行(看是否“干得成事”)。Zhong Zhi Li等在《From system 1 to system 2: A survey of reasoning large languagemodels》中将前者对应为偏直觉启发式的System 1,将后者所需的分步分析推理归为System 2。论文认为当前大模型发展主要通过将基础大模型与符号逻辑、蒙特卡洛树搜索、强化学习等技术结合,再辅以结构搜索、奖励建模、宏动作框架等核心方法,推动模型从System 1向System 2演进。简言之,模型从早期依赖模式匹配的“快思考聊天机器人”,走向具备System 2特征、能够分步规划与执行的智能体(Agent),行业竞争维度也从“谁的回答更像人”转向“谁真正具备连续决策和任务闭环能力”。 “慢思考”,本质是让模型在给出答案前先“多想几步”,通过结构化推理链条提高决策质量和可控性。在技术路径上,一方面在训练阶段显式引入链式思维、过程监督数据和强化学习,让模型习得“先拆解、再推理、后给结论”的解决问题模式,而非直接从问题跳到答案;另一方面在推理阶段通过生成多条中间思路并打分筛选、先生成详细推理草稿再压缩成简洁结论