西部证券研发中心2025年6月17日 分析师:郑宏达S0800524020001邮箱地址:zhenghongda@research.xbmail.com.cn分析师:谢忱S0800524040005邮箱地址:xiechen@research.xbmail.com.cn分析师:李想S0800525040006邮箱地址:lixiang@research.xbmail.com.cn分析师:卢可欣S0800525080006邮箱地址:lukexin@research.xbmail.com.cn分析师:王朗S0800526040009邮箱地址:wanglang@research.xbmail.com.cn 核心结论 2026年是AI从训练转向推理主导的拐点。OpenClaw、ClaudeCode等开源与闭源Agent框架以燎原之势迅速普及,算力的应用从训练走向智能体等推理需求主导,从问答模式走向智能体循环,从单轮生成升级为多步规划、持续执行,推理首超训练成为算力需求的重心。 进入推理时代,算力基础设施的核心关注点是Token成本的低延迟、调度算法和缓存管理,通过极致优化实现高效服务。在芯片层,以GroqLPU为代表的专用推理芯片兴起,推动推理能力和效率普惠,并与GPU结合进行异构计算,实现性能互补;在网络互联层,超节点以高速互联、内存池化、高度集成等优势精准适配推理高并发、实时交互和大显存消耗需求,助推系统向万卡集群演进,以太网交换机凭借其普适性和经济性,有望成为AI时代数据中心网络架构的主流选择。 模型层面,ClaudeOpus4.8、GPT5.5、GLM-5.1、DeepSeekV4、Minimax-M3等前沿模型密集发布,模型迭代节奏进一步加快,模型能力提升聚焦agent、coding与多模态,进一步迈向生产力级别的智能。 展望2026年下半年:芯片、互联、算力,技术进步与整体需求依旧蓬勃发展,模型能力的边界有望进一步拓展,助推AI应用的深度和广度持续提升。建议关注方向: 1)国内外模型商业化提速,规模化应用有望带动Tokens消耗高增,继续看好AI算力。2)国产模型能力持续提升,具备性能和性价比优势,继续看好国产模型厂商。3)模型应用有望在B端、C端持续展开,看好具备垂直行业know-how的AI应用厂商。 风险提示:AI技术突破不及预期;大模型应用落地节奏不及预期;宏观经济增长不及预期,IT预算不及预期;国际环境发生变化。 01智能体框架流行,推理时代开始 02 推理时代需要怎样的硬件和软件架构体系 CONTENTS目录CONTENTS目录 推理时代的模型层03 05 推理算力占比快速提升,2026年首超训练成为算力主体 •推理首超训练,算力重心发生根本性转移:AI模型生命周期分训练与推理两段——训练是“一次性建厂”式的集中投入,模型一旦定型、成本即趋于收敛;推理则是“7×24永续调用”,每一次用户请求、每一步Agent任务都在持续消耗算力,需求随用户普及与智能体长任务能力快速增长。算力的应用从训练走向推理主体及智能体主导,算力的架构技术、应用场景、商业模式等发生显著变化:从阅读检索到深度思考从单轮生成升级为多步规划、持续执行;算力架构从注意力经济到生产力经济;智能体驱动从被动问答转向主动任务执行;部署形态从纯云端走向“云—边—端”协同;商业模式从成本中心到价值引擎。 •中国推理需求倍数更高:在国产替代与应用落地的双重驱动下,中国推理需求扩张较全球更为剧烈,邬贺铨院士指出中国推理需求已达训练的8倍。同时,推理对单卡算力的要求低于训练,更看重成本、能效与规模化部署,推理有望成为国产算力厂商确定性更高的突围窗口。 Token调用量与日俱增,国产开源模型成为全球推理新主力 •Token调用量伴随推理需求指数级放大:AI工作重心从训练转向推理、再转向Agent,频繁的工具调用、多步规划与长程执行不断拉长模型的输出链路,单次任务的Token消耗相比单轮对话是数量级的差距。全球知名的多模型聚合平台OpenRouter为全球超过800万用户,提供涵盖Anthropic、Google、OpenAI、xAI和DeepSeek等领先AI供应商的400多个模型访问,是观察全球真实推理调用的窗口。根据OpenRouter官方,该平台的周Token处理量已从2025年11月的约5万亿激增至2026年5月的25万亿(约100万亿/月),半年增长了5倍。 •国产模型在agent调用方面性价比凸显:开源模型与闭源模型形成稳定“双轨”结构——闭源定义性能与可靠性上限,开源以成本、透明与性价比优势承接agent时代的大规模推理负载。PinchBench专门针对OpenClaw任务对大模型进行基准测试:在成功率方面,Qwen3.7达到92.5%,仅次于第一名的ClaudeOpus4.8,Mimo-v2.5、Deepseekv4等国产开源模型也排名靠前。 Agent框架广泛流行,智能体循环主导推理需求 •从单次对话到智能体循环:AI模型的使用形态正在从“单轮文本补全”转向“多步骤、工具集成且推理密集型的工作流”,LLM请求的不仅仅是简单的问题或孤立指令,而是结构化的、类似智能体的循环的一部分,调用外部工具、对状态进行推理,并在更长的上下文中持续运行。 •OpenClaw为代表的开源Agent框架崛起:OpenClaw诞生于2025年底,是一款开源的AI智能体框架,在四个月内登顶Github软件项目星标榜史上第一。它能主动调用工具、访问网络、操作软件、发送消息,可持续在后台运行,像一个永不下班的私人助理OpenClaw的核心能力:底层的操作系统级访问(终端命令、文件读写、进程管理)、中间层的应用程序控制(浏览器自动化、邮件客户端操作、即时通讯接入),以及上层的多步骤任务编排(将复杂目标拆解为子任务并自主执行)。OpenClaw在技术栈中占据了一个前所未有的位置,一个能操控所有其他应用程序的智能代理。 01智能体框架流行,推理时代开始 推理时代需要怎样的硬件和软件架构体系02 CONTENTS目录CONTENTS目录 推理时代的模型层03 04 05 训练架构到推理架构:从规模化到精细化 •训练时代以“规模化”为核心:为满足大模型对计算资源的高需求,提升单节点的计算性能(Scale-up)变得至关重要,这包括增加单芯片或单个机架的计算能力;通过增加节点数量实现计算能力的横向扩展(Scale-out),高速互联网络和分布式计算框架将有效支持千卡、万卡甚至十万卡的集群建设。 •推理时代转向“精细化”:伴随大模型从训练阶段迈向应用阶段,推理工作负载持续增加,面向应用和推理需求对芯片和系统架构进行设计愈加重要;大语言模型推理包含预填充(Prefill)和解码(Decode)两阶段,对计算和存储资源的访问频率与调度需求不同,实操中往往采用P-D解耦部署策略,通过构建分离式算力资源池,缩短计算时间、降低计算成本、提高资源利用率。推理阶段核心关注点是Token成本的低延迟、调度算法和缓存管理,通过极致优化实现高效服务。 推理时代算力底座三大特征:资源池化·低延迟互联·推理专用芯片 •算力资源池化,打破物理边界:推理时代需要协同异构基础设施,将整个数据中心作为协同工作的有机体,整合多种计算资源,优化数据处理流程和模型训练效率,通过灵活的计算任务调度,高效执行人工智能任务;通过资源池化、动态分配和智能调度等技术手段,突破传统算力供给模式的局限性,提高资源利用率和灵活性。 •低延迟传输与互联,构建面向AI的运力体系:高带宽能够显著提升数据传输速度,目前网络速率已经可达到400G/800G,1.6T是超大规模数据传输和高效能需求的下一步计划,未来行业目光将投向3.2T乃至更高速率;RoCEv2的出现,使集群可以基于RDMA技术扩展到超大规模,较传统以太网的通信方式大大降低了延迟。•推理硬件创新—以GroqLPU为代表的专用芯片:专为语言处理任务设计的专用处理器(LanguageProcessingUnit),聚焦推理阶段的极致速度与低延迟,是AI产业从“训练竞赛”转向“推理普惠”的核心产物。遵循“软件优先、可编程流水线、确定性计算、片上存储”四大原则,摒弃传统GPU的复杂缓存层级,聚焦推理任务的数据流优化。 LPU融入英伟达芯片体系:异构计算再加速 •LPU与GPU结合进行异构计算:大语言模型(LLM)推理包含两个阶段:预填充(prefill)和解码(decode)。预填充阶段处理完整的输入上下文:它是计算密集型的,非常适合GPU处理。另一方面,解码阶段负责预测新token,属于内存受限型(memory-bounded)任务。由于模型需要逐个预测新token,解码阶段对延迟极其敏感,而LPU的高SRAM带宽和低延迟特性有助于加速这一迭代过程。 •相比GPU和TPU,LPU用确定性来提高计算效率:LPU通过编译器预先确定每一纳秒的数据流向,消除了TPU和GPU因动态调度产生的硬件冗余与延迟,从而实现了算力资源的更高效使用(去掉了用来处理不确定性的预测器、缓存器)。 •异构推理架构正在逐步形成行业共识:亚马逊与Cerebras宣布合作,将AWS的Trainium-3加速器与Cerebras的晶圆级加速器结合部署,逻辑与英伟达的GPU-LPU系统如出一辙。 资料来源:SemiAnalysis公众号、西部证券研发中心 推理架构落地形式:超节点 •超节点的技术特征包括,1)大量GPU互联系统。由于业界已经有成熟的8卡产品方案,因此超节点超过8卡是最基本要求;2)统一内存地址空间:为互联的GPU提供统一寻址和内存一致性,如英伟达UVA(unified virtual address)、UM(unifiedmemory),系统内任一GPU可以像访问本地HBM一样访问任意互联的HBM。3)超高带宽、超低时延互联:除PCIe/CXL外提供额外GPU显存高速互联,如英伟达NVLink,为系统内GPU提供高速访问的物理通道,带宽达数百GB到数百TB,纳秒级时延满足GPU间内存语义通信的同步操作要求。4)原生可扩展性:互联协议层面预留相应的bit位数满足未来可能的GPU扩展规模,拓扑层面支持一级和二级交换实现更大集群规模的扩展。 •超节点以高速互联、内存池化、高度集成等优势,能够精准适配推理高并发、实时交互和大显存消耗需求。此外,Agentic AI等场景下推理中产生的KV缓存随上下文长度线性增长,超节点通过全局内存池化实现KV缓存的共享与复用,可支持处理数十万甚至上百万Token的上下文,极大增强其理解复杂问题、执行长期任务的能力。 推理架构落地形式:超节点 •1)互联方案主要有两类:封闭生态:英伟达(NVLink)、华为(UB)等,内部沟通成本低、效率高,但需全套自研(GPU、交换机、网卡、机柜等)。开放生态:中国移动OISA、腾讯ETH-X、阿里ALS等,基于以太网协议,通用开放,产业内企业可灵活加入。 •2)华为是国内较早将AI集群从“八卡服务器”推进到“超节点”形态的厂商之一,CloudMatrix384将互联范围从单节点扩展到多柜一体化超节点,把Scale-Up域从传统的8卡或16卡级别提升到384NPU级别。华为超节点路线并不以单卡性能领先为主要特征,而是通过昇腾NPU、鲲鹏CPU、自研HCCS/UB灵衢互联以及云侧调度软件,把更多强耦合通信尽量保留在高带宽域内。CloudMatrix384是这一路线第一次较完整落地到超节点形态的代表性产品,其后续方向则是继续沿着更大Scale-Up域和更高层级互联能力演进,向千卡甚至万卡级别的系统扩展。 以太网交换机凭借其普适性和经济性,有望成为AI时代数据中心网络架构的主流选择 •未来增长驱动:以太网交换机凭借其普适性和经济性,有望成为AI时代数据中心网络架构的主流选择 •RDMA(远程直接内存访问)是一种用于提高传统以太网数据传输效率的技术。RDM