ARM产业链为何是GPU与CPU协同关键受益者 glmszqdatemark2026年06月29日 推荐 维持评级 AI基础设施正经历向推理成本竞争的结构性转变。1)单位Token成本成为衡量算力效率的重要指标,数据中心的核心产出已经从原始算力转变为以Token为单位的智能交付。2)MoE稀疏化趋势与CPU价值重估则有望成为推动行业变化的主线,前者强调整体计算效率的重要性,后者通过CPU-GPU协同重构推理阶段的算力分配逻辑,推动AI基础设施从"堆硬件"走向"系统优化"。 MoE稀疏化趋势下整体计算效率的重要性凸显。根据论文《The Rise of SparseMixture-of-Experts:ASurveyfromAlgorithmicFoundationstoDecentralized Architectures and Vertical Domain Applications》,随着新一代MoE模型迈向万亿参数和128K以上长上下文,训练和推理必须依赖专家并行、数据并行、流水线并行和张量并行等多种策略,并部署于高性能GPU集群和高速RDMA网络之上。其中,专家并行带来的大量All-to-All通信使高速互联和通信优化成为影响GPU利用率的关键因素。 分析师吕伟执业证书:S0590525110033邮箱:lvwei_yj@glms.com.cn 分析师郭新宇执业证书:S0590525110034邮箱:guoxinyu@glms.com.cn ARM CPU迎来重要重估机遇:兼具性能与生态的系统性壁垒。1)算力系统优化下CPU迎来重要机遇:根据论文《A CPU-Centric Perspective on Agentic AI》,传统"CPU搬运、GPU推理"的分工模式存在协同瓶颈。推理阶段的关键指标已从峰值算力转向单位Token成本、并发吞吐和功耗,而CPU将发挥重要作用。2)Arm在同级别CPU中具备性能和TCO优势:更多可用线程与更高单线程处理能力相互叠加,最终实现Arm CPU单机架性能的大幅提升;每瓦性能更契合AI数据中心电力受限背景下的成本约束;同时,Arm全球开发者规模超过2200万,软件栈和AI框架适配成熟,形成较高生态迁移门槛。3)巨头领衔,面向未来深度布局:Arm推出AGI CPU,基于Neoverse平台,针对高密度机架、大规模并行和持续高负载场景优化,已获得Meta、OpenAI、Oracle、Cloudflare、Cerebras等头部客户支持。英伟达Vera CPU同样是Arm的典型代表,自研Olympus核心产品并完全兼容Arm v9.2架构,显存带宽提升至1.2TB/s,通过NVLink-C2C实现CPU与GPU统一地址空间,支撑KV缓存卸载等推理优化技术落地。 相关研究 1.计算机行业周报20260628:计算机行业2026年中报前瞻-2026/06/282.计算机行业事件点评:“模算协同”将是中国的伟大机遇:“国模+国芯”-2026/06/223.计算机行业周报20260614:大模型当自强:AGI时代“核不扩散”雏形已现-2026/06/154.计算机行业事件点评:Agent To Agent:AI支付迎来重大机遇-2026/06/145.计算机行业周报20260606:GPU与CPU深度协同是Agent时代重大趋势-2026/06/06 投资建议:AI基础设施正进入推理效率竞争阶段,MoE稀疏化、Agentic AI等趋势推动算力需求转向系统级效率优化,ARM CPU兼具性能与生态的系统性壁垒,将迎来重要的发展机遇。建议重点关注:1)国产算力:浪潮信息、寒武纪等。2)CPU:海光信息、中国长城、龙芯中科、禾盛新材、广合科技等。 风险提示:MoE工程化落地不及预期;AI推理需求增长不及预期;行业竞争加剧。 目录 1 MoE稀疏化趋势下,计算效率提升成为关键............................................................................................................32 Agentic AI计算效率为先,CPU迎来价值重估........................................................................................................52.1评价计算效率的核心指标:单位Token成本..............................................................................................................................52.2提升整体计算效率趋势下,CPU迎来价值重估..........................................................................................................................62.3巨头率先发力:英伟达Vera芯片致力于创造更高数据中心Token营收..............................................................................73 ARM CPU迎来重要机遇:兼具性能与生态的系统性壁垒.........................................................................................94投资建议..............................................................................................................................................................115风险提示..............................................................................................................................................................12插图目录..................................................................................................................................................................13表格目录..................................................................................................................................................................13 1MoE稀疏化趋势下,计算效率提升成为关键 全球头部大模型迈向万亿参数和长上下文,训练和推理必须依赖专家并行、数据并行、流水线并行和张量并行等多种策略,并部署于高性能GPU集群和高速RDMA网络之上。根据论文《The Rise of Sparse Mixture-of-Experts: A Surveyfrom Algorithmic Foundations to Decentralized Architectures and VerticalDomain Applications》,我们可以看到在MoE技术路线下,未来算力基础设施发展的一些趋势。 MoE推动算力需求从单卡能力转向集群级系统能力。随着MoE模型参数规模持续扩大,部分新一代MoE模型已经迈向万亿参数,并支持128K以上长上下文。由于模型规模和上下文长度显著提升,单张GPU已难以承载完整模型训练和推理,模型必须被拆分到多GPU、多节点集群中运行。 在中心化范式下,MoE训练和推理主要部署在高性能GPU集群中,并依赖高速RDMA网络实现节点间互联。论文指出,当前主流MoE系统通常需要结合专家并行、数据并行、流水线并行和张量并行等多种并行策略,以突破单卡显存限制并提升训练效率。其中,专家并行是MoE扩展的重要方式,即将不同专家网络分布到不同GPU上,由路由机制将token分配至对应专家进行计算。但这一机制会带来大量All-to-All通信,随着专家数量和节点规模扩大,通信开销会显著影响GPU利用率和整体训练效率。因此,MoE对算力基础设施的要求已经不只是GPU峰值算力,还包括高速互联、显存管理、通信优化和分布式调度能力。 论文进一步讨论了去中心化MoE对算力的影响。相较于依赖少数大型数据中心的中心化模式,去中心化范式尝试利用消费级GPU、工作站GPU、移动GPU 和小型GPU集群等分散资源,扩大可用算力池。由于MoE的专家网络天然具备可拆分特征,不同专家可以根据设备性能部署在不同节点上,因此具备利用闲置算力和异构算力的潜力。同时值得注意的是,去中心化环境下面临明显瓶颈:不同设备在GPU性能、显存容量、内存资源和通信带宽上差异较大,容易造成负载不均;同时,相比中心化GPU集群中可超过400Gb/s的RDMA网络,去中心化训练通常依赖LAN或WAN,带宽可能低于10Gb/s,通信效率成为限制有效算力输出的关键因素。 资料来源:《The Rise of Sparse Mixture-of-Experts: A Survey from Algorithmic Foundations toDecentralized Architectures and Vertical Domain Applications》/Dong Pan, Bingtao Li, YongshengZheng, Jiren Ma, Victor Fei,国联民生证券研究所 总体来看,论文的启示在于:MoE一方面通过稀疏激活提升单位计算效率,另一方面也推动AI算力基础设施从单卡性能竞争,转向GPU集群、高速互联、并行框架、通信优化和异构算力调度的系统级竞争。未来MoE的发展不仅依赖更强GPU,也依赖更高效的集群组织方式和分布式算力调度能力。 2Agentic AI计算效率为先,CPU迎来价值重估 2.1评价计算效率的核心指标:单位Token成本 每百万Token成本是综合反映AI基础设施真实效率的指标。传统数据中心的核心定位为数据存储、检索与处理设施,而在生成式AI与代理式AI加速落地的产业阶段,推理已经取代训练成为数据中心的核心工作负载,数据中心的核心产出已经从原始算力转变为以Token为单位的智能交付,而芯片峰值规格、单GPU小时成本、每美元FLOPS等投入侧指标并不能完全反映AI投入的相关效率,而每百万Token成本是综合反映AI基础设施真实效率的TCO指标之一。AI业务的核心盈利逻辑直接由每Token成本决定,这一指标是能够同步覆盖硬件性能、软件优化、生态支持、实际利用率等所有核心变量的综合评估指标。 资料来源:英伟达官网,国联民生证券研究所 根据英伟达官网的数据,基于DeepSeek-R1 AI模型,仅从算力成本来看,NVIDIA Blackwell平台的成本约为NVIDIA Hopper的2倍,但Blackwell每瓦的Token产出量是Hopper的50倍以上,每百万Token的成本降低至其1/35左右。 2.2提升整体计算效率趋势下,CPU迎来价值重估 在Agentic AI时代,CPU-GPU