行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

从训练到推理时代的拐点——2026年计算机行业中期策略

信息技术 2025-06-17 西部证券研发中心一切如初

核心结论

2026年是AI从训练转向推理主导的拐点。OpenClaw、ClaudeCode等开源与闭源Agent框架迅速普及，算力应用从训练走向智能体等推理需求主导，从问答模式走向智能体循环，从单轮生成升级为多步规划、持续执行，推理首超训练成为算力需求的重心。

推理时代算力需求特征

算力重心转移：推理是“7×24永续调用”，需求随用户普及与智能体长任务能力快速增长，中国推理需求已达训练的8倍。
Token调用量激增：OpenRouter平台周Token处理量从5万亿增长至25万亿，半年增长5倍。
国产模型性价比凸显：PinchBench测试中，Qwen3.7成功率92.5%，仅次于ClaudeOpus4.8，Mimo-v2.5、Deepseekv4等国产开源模型排名靠前。

推理时代硬件和软件架构体系

智能体框架：OpenClaw等开源框架兴起，推动AI模型使用形态从单次对话转向智能体循环。
推理架构特征：资源池化、低延迟互联、推理专用芯片（如GroqLPU）。
专用芯片：GroqLPU专为推理设计，遵循“软件优先、可编程流水线、确定性计算、片上存储”原则，摒弃GPU复杂缓存层级，聚焦推理任务数据流优化。
异构计算：LPU与GPU结合，预填充阶段用GPU，解码阶段用LPU，实现性能互补。
超节点：大量GPU互联系统，统一内存地址空间，超高带宽、超低时延互联，原生可扩展性，适配推理高并发、实时交互和大显存消耗需求。
网络互联：超节点互联方案分封闭生态（英伟达、华为）和开放生态（中国移动、腾讯、阿里），以太网交换机凭借普适性和经济性，有望成为AI时代数据中心网络架构主流。
光互联技术：OCS（光路交换机）直接实现光信号切换，大幅缩短信号传输时延，降低功耗，市场规模爆发式增长。

推理时代模型层

模型迭代加速：Anthropic模型迭代节奏从两个月缩短到六周，ClaudeOpus4.8、GPT-5.5、GLM-5.1、DeepSeekV4、Minimax-M3等前沿模型密集发布。
模型能力提升：聚焦Coding、Agentic两项关键能力，模型全面接管工作任务，生产力水平提升。
国产模型普惠：DeepSeekV4-Pro模型API永久锁定2.5折定价，每百万tokens输入（缓存命中）0.025元。
模型能力提升飞轮效应：Claude编写代码量超80%，工程师日均合入代码量达2024年基准水平的8倍。
Agent新范式：Harness Engineering通过上下文工程、架构约束、持续管理，实现可控的智能。

商业化与市场趋势

海外市场：ChatGPT与Gemini突破9亿用户，Anthropic年化收入ARR达440亿美元，ClaudeCode年化收入达25亿美元。
中国市场：AI原生App月活规模达4.4亿，进入用户量+商业化的下半场。
商业化拐点已现：AI厂商收入增速远超传统软件时代，模型商业化加速。

建议关注方向

交换芯片：盛科通信、曦智科技
互联芯片：澜起科技、裕太微、万通发展
光互联：中际旭创、新易盛、天孚通信
算力租赁：协创数据、宏景科技
AIDC：商汤-W、东阳光、润泽科技
大模型：智谱、MiniMax、商汤-W
网络层：网宿科技、恒为科技
应用：腾讯控股、阿里巴巴、快手-W、中控技术、鼎捷数智

风险提示

AI技术突破不及预期
大模型应用落地节奏不及预期
宏观经济增长不及预期，IT预算不及预期
国际环境发生变化

西部证券研发中心2025年6月17日分析师：郑宏达S0800524020001邮箱地址：zhenghongda@research.xbmail.com.cn分析师：谢忱S0800524040005邮箱地址：xiechen@research.xbmail.com.cn分析师：李想S0800525040006邮箱地址：lixiang@research.xbmail.com.cn分析师：卢可欣S0800525080006邮箱地址：lukexin@research.xbmail.com.cn分析师：王朗S0800526040009邮箱地址：wanglang@research.xbmail.com.cn 核心结论 2026年是AI从训练转向推理主导的拐点。OpenClaw、ClaudeCode等开源与闭源Agent框架以燎原之势迅速普及，算力的应用从训练走向智能体等推理需求主导，从问答模式走向智能体循环，从单轮生成升级为多步规划、持续执行，推理首超训练成为算力需求的重心。进入推理时代，算力基础设施的核心关注点是Token成本的低延迟、调度算法和缓存管理，通过极致优化实现高效服务。在芯片层，以GroqLPU为代表的专用推理芯片兴起，推动推理能力和效率普惠，并与GPU结合进行异构计算，实现性能互补；在网络互联层，超节点以高速互联、内存池化、高度集成等优势精准适配推理高并发、实时交互和大显存消耗需求，助推系统向万卡集群演进，以太网交换机凭借其普适性和经济性，有望成为AI时代数据中心网络架构的主流选择。模型层面，ClaudeOpus4.8、GPT5.5、GLM-5.1、DeepSeekV4、Minimax-M3等前沿模型密集发布，模型迭代节奏进一步加快，模型能力提升聚焦agent、coding与多模态，进一步迈向生产力级别的智能。展望2026年下半年：芯片、互联、算力，技术进步与整体需求依旧蓬勃发展，模型能力的边界有望进一步拓展，助推AI应用的深度和广度持续提升。建议关注方向： 1）国内外模型商业化提速，规模化应用有望带动Tokens消耗高增，继续看好AI算力。2）国产模型能力持续提升，具备性能和性价比优势，继续看好国产模型厂商。3）模型应用有望在B端、C端持续展开，看好具备垂直行业know-how的AI应用厂商。风险提示：AI技术突破不及预期；大模型应用落地节奏不及预期；宏观经济增长不及预期，IT预算不及预期；国际环境发生变化。 01智能体框架流行，推理时代开始 02 推理时代需要怎样的硬件和软件架构体系 CONTENTS目录CONTENTS目录推理时代的模型层03 05 推理算力占比快速提升，2026年首超训练成为算力主体 •推理首超训练，算力重心发生根本性转移：AI模型生命周期分训练与推理两段——训练是“一次性建厂”式的集中投入，模型一旦定型、成本即趋于收敛；推理则是“7×24永续调用”，每一次用户请求、每一步Agent任务都在持续消耗算力，需求随用户普及与智能体长任务能力快速增长。算力的应用从训练走向推理主体及智能体主导，算力的架构技术、应用场景、商业模式等发生显著变化：从阅读检索到深度思考从单轮生成升级为多步规划、持续执行；算力架构从注意力经济到生产力经济；智能体驱动从被动问答转向主动任务执行；部署形态从纯云端走向“云—边—端”协同；商业模式从成本中心到价值引擎。 •中国推理需求倍数更高：在国产替代与应用落地的双重驱动下，中国推理需求扩张较全球更为剧烈，邬贺铨院士指出中国推理需求已达训练的8倍。同时，推理对单卡算力的要求低于训练，更看重成本、能效与规模化部署，推理有望成为国产算力厂商确定性更高的突围窗口。 Token调用量与日俱增，国产开源模型成为全球推理新主力 •Token调用量伴随推理需求指数级放大：AI工作重心从训练转向推理、再转向Agent，频繁的工具调用、多步规划与长程执行不断拉长模型的输出链路，单次任务的Token消耗相比单轮对话是数量级的差距。全球知名的多模型聚合平台OpenRouter为全球超过800万用户，提供涵盖Anthropic、Google、OpenAI、xAI和DeepSeek等领先AI供应商的400多个模型访问，是观察全球真实推理调用的窗口。根据OpenRouter官方，该平台的周Token处理量已从2025年11月的约5万亿激增至2026年5月的25万亿（约100万亿/月），半年增长了5倍。 •国产模型在agent调用方面性价比凸显：开源模型与闭源模型形成稳定“双轨”结构——闭源定义性能与可靠性上限，开源以成本、透明与性价比优势承接agent时代的大规模推理负载。PinchBench专门针对OpenClaw任务对大模型进行基准测试：在成功率方面，Qwen3.7达到92.5%，仅次于第一名的ClaudeOpus4.8，Mimo-v2.5、Deepseekv4等国产开源模型也排名靠前。 Agent框架广泛流行，智能体循环主导推理需求 •从单次对话到智能体循环：AI模型的使用形态正在从“单轮文本补全”转向“多步骤、工具集成且推理密集型的工作流”，LLM请求的不仅仅是简单的问题或孤立指令，而是结构化的、类似智能体的循环的一部分，调用外部工具、对状态进行推理，并在更长的上下文中持续运行。 •OpenClaw为代表的开源Agent框架崛起：OpenClaw诞生于2025年底，是一款开源的AI智能体框架，在四个月内登顶Github软件项目星标榜史上第一。它能主动调用工具、访问网络、操作软件、发送消息，可持续在后台运行，像一个永不下班的私人助理OpenClaw的核心能力：底层的操作系统级访问（终端命令、文件读写、进程管理）、中间层的应用程序控制（浏览器自动化、邮件客户端操作、即时通讯接入），以及上层的多步骤任务编排（将复杂目标拆解为子任务并自主执行)。OpenClaw在技术栈中占据了一个前所未有的位置，一个能操控所有其他应用程序的智能代理。 01智能体框架流行，推理时代开始推理时代需要怎样的硬件和软件架构体系02 CONTENTS目录CONTENTS目录推理时代的模型层03 04 05 训练架构到推理架构：从规模化到精细化 •训练时代以“规模化”为核心：为满足大模型对计算资源的高需求，提升单节点的计算性能（Scale-up）变得至关重要，这包括增加单芯片或单个机架的计算能力；通过增加节点数量实现计算能力的横向扩展（Scale-out），高速互联网络和分布式计算框架将有效支持千卡、万卡甚至十万卡的集群建设。 •推理时代转向“精细化”：伴随大模型从训练阶段迈向应用阶段，推理工作负载持续增加，面向应用和推理需求对芯片和系统架构进行设计愈加重要；大语言模型推理包含预填充（Prefill）和解码（Decode）两阶段，对计算和存储资源的访问频率与调度需求不同，实操中往往采用P-D解耦部署策略，通过构建分离式算力资源池，缩短计算时间、降低计算成本、提高资源利用率。推理阶段核心关注点是Token成本的低延迟、调度算法和缓存管理，通过极致优化实现高效服务。推理时代算力底座三大特征：资源池化·低延迟互联·推理专用芯片 •算力资源池化，打破物理边界：推理时代需要协同异构基础设施，将整个数据中心作为协同工作的有机体，整合多种计算资源，优化数据处理流程和模型训练效率，通过灵活的计算任务调度，高效执行人工智能任务；通过资源池化、动态分配和智能调度等技术手段，突破传统算力供给模式的局限性，提高资源利用率和灵活性。 •低延迟传输与互联，构建面向AI的运力体系：高带宽能够显著提升数据传输速度，目前网络速率已经可达到400G/800G，1.6T是超大规模数据传输和高效能需求的下一步计划，未来行业目光将投向3.2T乃至更高速率；RoCEv2的出现，使集群可以基于RDMA技术扩展到超大规模，较传统以太网的通信方式大大降低了延迟。•推理硬件创新—以GroqLPU为代表的专用芯片：专为语言处理任务设计的专用处理器（LanguageProcessingUnit），聚焦推理阶段的极致速度与低延迟，是AI产业从“训练竞赛”转向“推理普惠”的核心产物。遵循“软件优先、可编程流水线、确定性计算、片上存储”四大原则，摒弃传统GPU的复杂缓存层级，聚焦推理任务的数据流优化。 LPU融入英伟达芯片体系：异构计算再加速 •LPU与GPU结合进行异构计算：大语言模型（LLM）推理包含两个阶段：预填充（prefill）和解码（decode）。预填充阶段处理完整的输入上下文：它是计算密集型的，非常适合GPU处理。另一方面，解码阶段负责预测新token，属于内存受限型（memory-bounded）任务。由于模型需要逐个预测新token，解码阶段对延迟极其敏感，而LPU的高SRAM带宽和低延迟特性有助于加速这一迭代过程。 •相比GPU和TPU，LPU用确定性来提高计算效率：LPU通过编译器预先确定每一纳秒的数据流向，消除了TPU和GPU因动态调度产生的硬件冗余与延迟，从而实现了算力资源的更高效使用（去掉了用来处理不确定性的预测器、缓存器）。 •异构推理架构正在逐步形成行业共识：亚马逊与Cerebras宣布合作，将AWS的Trainium-3加速器与Cerebras的晶圆级加速器结合部署，逻辑与英伟达的GPU-LPU系统如出一辙。资料来源：SemiAnalysis公众号、西部证券研发中心推理架构落地形式：超节点 •超节点的技术特征包括，1）大量GPU互联系统。由于业界已经有成熟的8卡产品方案，因此超节点超过8卡是最基本要求；2）统一内存地址空间：为互联的GPU提供统一寻址和内存一致性，如英伟达UVA（unified virtual address）、UM（unifiedmemory），系统内任一GPU可以像访问本地HBM一样访问任意互联的HBM。3）超高带宽、超低时延互联：除PCIe/CXL外提供额外GPU显存高速互联，如英伟达NVLink，为系统内GPU提供高速访问的物理通道，带宽达数百GB到数百TB，纳秒级时延满足GPU间内存语义通信的同步操作要求。4）原生可扩展性：互联协议层面预留相应的bit位数满足未来可能的GPU扩展规模，拓扑层面支持一级和二级交换实现更大集群规模的扩展。 •超节点以高速互联、内存池化、高度集成等优势，能够精准适配推理高并发、实时交互和大显存消耗需求。此外，Agentic AI等场景下推理中产生的KV缓存随上下文长度线性增长，超节点通过全局内存池化实现KV缓存的共享与复用，可支持处理数十万甚至上百万Token的上下文，极大增强其理解复杂问题、执行长期任务的能力。推理架构落地形式：超节点 •1）互联方案主要有两类：封闭生态：英伟达（NVLink）、华为（UB）等，内部沟通成本低、效率高，但需全套自研（GPU、交换机、网卡、机柜等）。开放生态：中国移动OISA、腾讯ETH-X、阿里ALS等，基于以太网协议，通用开放，产业内企业可灵活加入。 •2）华为是国内较早将AI集群从“八卡服务器”推进到“超节点”形态的厂商之一，CloudMatrix384将互联范围从单节点扩展到多柜一体化超节点，把Scale-Up域从传统的8卡或16卡级别提升到384NPU级别。华为超节点路线并不以单卡性能领先为主要特征，而是通过昇腾NPU、鲲鹏CPU、自研HCCS/UB灵衢互联以及云侧调度软件，把更多强耦合通信尽量保留在高带宽域内。CloudMatrix384是这一路线第一次较完整落地到超节点形态的代表性产品，其后续方向则是继续沿着更大Scale-Up域和更高层级互联能力演进，向千卡甚至万卡级别的系统扩展。以太网交换机凭借其普适性和经济性，有望成为AI时代数据中心网络架构的主流选择 •未来增长驱动：以太网交换机凭借其普适性和经济性，有望成为AI时代数据中心网络架构的主流选择 •RDMA（远程直接内存访问）是一种用于提高传统以太网数据传输效率的技术。RDM

点击免费查看完整报告

从训练到推理时代的拐点——2026年计算机行业中期策略

核心结论

推理时代算力需求特征

推理时代硬件和软件架构体系

推理时代模型层

商业化与市场趋势

建议关注方向

风险提示

你可能感兴趣

【风口研报·公司】一季度业绩增长超150_，分析师强call公司智算业务订单增加明显，且前瞻布局国产芯片LPU赛道，有望强化公司自身从AI训练到AI推理的卡位优势；策略：AI与能化构成-20260506

从“+AI”到“AI+”，AI巨轮破浪前行——2026年计算机行业年度策略

2026年计算机行业年度策略：从“+AI”到“AI+”，AI巨轮破浪前行

2025年计算机行业年度策略：从Infra到Agent，AI创新的无尽前沿

2025年计算机行业年度策略从Infra到AgentAI创新的无尽前沿

华融证券2013年计算机行业中期策略：关注确定性成长领域的龙头

2018年计算机行业中期投资策略：云计算和2B市场的崛起

东吴计算机王紫敬对2026年计算机行业的前瞻研判及年度核心研究成果

2022年计算机行业中期投资策略：历史估值底部，积极布局行业龙头

2014年计算机行业中期策略：行业有望持续回升,信息安全全面深化