行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

计算机行业动态报告：ARM产业链为何是GPU与CPU协同关键受益者

信息技术 2026-06-29 国联民生证券 four_king

AI基础设施正经历向推理成本竞争的结构性转变。MoE稀疏化趋势与CPU价值重估成为推动行业变化的主线，推动AI基础设施从"堆硬件"走向"系统优化"。

MoE稀疏化趋势下，计算效率提升成为关键。随着MoE模型迈向万亿参数和长上下文，单张GPU难以承载完整模型，需依赖专家并行、数据并行、流水线并行和张量并行等多种策略，并部署于高性能GPU集群和高速RDMA网络之上。专家并行带来的大量All-to-All通信使高速互联和通信优化成为影响GPU利用率的关键因素。去中心化MoE虽然能利用闲置算力和异构算力，但面临不同设备性能差异和通信带宽限制的瓶颈。

评价计算效率的核心指标是单位Token成本。传统数据中心的核心产出为原始算力，而生成式AI与代理式AI时代，数据中心的核心产出已转变为以Token为单位的智能交付。每百万Token成本是综合反映AI基础设施真实效率的TCO指标，涵盖硬件性能、软件优化、生态支持、实际利用率等所有核心变量。

Agentic AI计算效率为先，CPU迎来价值重估。传统"CPU搬运、GPU推理"的分工模式存在协同瓶颈：时序错配导致GPU空转，吞吐量提升遭遇GPU显存容量和CPU调度瓶颈限制，能耗结构失衡。提升整体计算效率的过程中，CPU至关重要，可以承接长尾和批量推理，提升整体调度效率。英伟达Vera芯片是CPU-GPU协同的典型案例，基于Grace CPU设计，针对AI场景完成优化，在计算、内存、互连维度均有升级，并实现CPU与GPU显存的统一地址空间，支撑KV缓存卸载等推理优化技术。

ARM CPU迎来重要机遇，兼具性能与生态的系统性壁垒。Arm架构覆盖云、边、端全场景，是贯穿整个AI计算连续体的核心连接中枢。Arm CPU性能较同级别x86 CPU实现两位数领先，保持显著的TCO优势，生态层面全球开发者规模超2200万，软件栈与AI框架适配成熟。Arm AGI CPU基于Neoverse平台，旨在为AI基础设施提供核心算力支撑，实现单机架性能大幅提升，已获得Meta、OpenAI、Oracle等头部客户支持。

投资建议重点关注国产算力（浪潮信息、寒武纪等）和CPU（海光信息、中国长城、龙芯中科等）领域。风险提示包括MoE工程化落地不及预期、AI推理需求增长不及预期和行业竞争加剧。

ARM产业链为何是GPU与CPU协同关键受益者 glmszqdatemark2026年06月29日推荐维持评级 AI基础设施正经历向推理成本竞争的结构性转变。1）单位Token成本成为衡量算力效率的重要指标，数据中心的核心产出已经从原始算力转变为以Token为单位的智能交付。2）MoE稀疏化趋势与CPU价值重估则有望成为推动行业变化的主线，前者强调整体计算效率的重要性，后者通过CPU-GPU协同重构推理阶段的算力分配逻辑，推动AI基础设施从"堆硬件"走向"系统优化"。 MoE稀疏化趋势下整体计算效率的重要性凸显。根据论文《The Rise of SparseMixture-of-Experts:ASurveyfromAlgorithmicFoundationstoDecentralized Architectures and Vertical Domain Applications》，随着新一代MoE模型迈向万亿参数和128K以上长上下文，训练和推理必须依赖专家并行、数据并行、流水线并行和张量并行等多种策略，并部署于高性能GPU集群和高速RDMA网络之上。其中，专家并行带来的大量All-to-All通信使高速互联和通信优化成为影响GPU利用率的关键因素。分析师吕伟执业证书：S0590525110033邮箱：lvwei_yj@glms.com.cn 分析师郭新宇执业证书：S0590525110034邮箱：guoxinyu@glms.com.cn ARM CPU迎来重要重估机遇：兼具性能与生态的系统性壁垒。1）算力系统优化下CPU迎来重要机遇：根据论文《A CPU-Centric Perspective on Agentic AI》，传统"CPU搬运、GPU推理"的分工模式存在协同瓶颈。推理阶段的关键指标已从峰值算力转向单位Token成本、并发吞吐和功耗，而CPU将发挥重要作用。2）Arm在同级别CPU中具备性能和TCO优势：更多可用线程与更高单线程处理能力相互叠加，最终实现Arm CPU单机架性能的大幅提升;每瓦性能更契合AI数据中心电力受限背景下的成本约束；同时，Arm全球开发者规模超过2200万，软件栈和AI框架适配成熟，形成较高生态迁移门槛。3）巨头领衔，面向未来深度布局：Arm推出AGI CPU，基于Neoverse平台，针对高密度机架、大规模并行和持续高负载场景优化，已获得Meta、OpenAI、Oracle、Cloudflare、Cerebras等头部客户支持。英伟达Vera CPU同样是Arm的典型代表，自研Olympus核心产品并完全兼容Arm v9.2架构，显存带宽提升至1.2TB/s，通过NVLink-C2C实现CPU与GPU统一地址空间，支撑KV缓存卸载等推理优化技术落地。相关研究 1．计算机行业周报20260628：计算机行业2026年中报前瞻-2026/06/282．计算机行业事件点评：“模算协同”将是中国的伟大机遇：“国模+国芯”-2026/06/223．计算机行业周报20260614：大模型当自强：AGI时代“核不扩散”雏形已现-2026/06/154．计算机行业事件点评：Agent To Agent：AI支付迎来重大机遇-2026/06/145．计算机行业周报20260606：GPU与CPU深度协同是Agent时代重大趋势-2026/06/06 投资建议：AI基础设施正进入推理效率竞争阶段，MoE稀疏化、Agentic AI等趋势推动算力需求转向系统级效率优化，ARM CPU兼具性能与生态的系统性壁垒，将迎来重要的发展机遇。建议重点关注：1）国产算力：浪潮信息、寒武纪等。2）CPU：海光信息、中国长城、龙芯中科、禾盛新材、广合科技等。风险提示：MoE工程化落地不及预期；AI推理需求增长不及预期；行业竞争加剧。目录 1 MoE稀疏化趋势下，计算效率提升成为关键............................................................................................................32 Agentic AI计算效率为先，CPU迎来价值重估........................................................................................................52.1评价计算效率的核心指标：单位Token成本..............................................................................................................................52.2提升整体计算效率趋势下，CPU迎来价值重估..........................................................................................................................62.3巨头率先发力：英伟达Vera芯片致力于创造更高数据中心Token营收..............................................................................73 ARM CPU迎来重要机遇：兼具性能与生态的系统性壁垒.........................................................................................94投资建议..............................................................................................................................................................115风险提示..............................................................................................................................................................12插图目录..................................................................................................................................................................13表格目录..................................................................................................................................................................13 1MoE稀疏化趋势下，计算效率提升成为关键全球头部大模型迈向万亿参数和长上下文，训练和推理必须依赖专家并行、数据并行、流水线并行和张量并行等多种策略，并部署于高性能GPU集群和高速RDMA网络之上。根据论文《The Rise of Sparse Mixture-of-Experts: A Surveyfrom Algorithmic Foundations to Decentralized Architectures and VerticalDomain Applications》，我们可以看到在MoE技术路线下，未来算力基础设施发展的一些趋势。 MoE推动算力需求从单卡能力转向集群级系统能力。随着MoE模型参数规模持续扩大，部分新一代MoE模型已经迈向万亿参数，并支持128K以上长上下文。由于模型规模和上下文长度显著提升，单张GPU已难以承载完整模型训练和推理，模型必须被拆分到多GPU、多节点集群中运行。在中心化范式下，MoE训练和推理主要部署在高性能GPU集群中，并依赖高速RDMA网络实现节点间互联。论文指出，当前主流MoE系统通常需要结合专家并行、数据并行、流水线并行和张量并行等多种并行策略，以突破单卡显存限制并提升训练效率。其中，专家并行是MoE扩展的重要方式，即将不同专家网络分布到不同GPU上，由路由机制将token分配至对应专家进行计算。但这一机制会带来大量All-to-All通信，随着专家数量和节点规模扩大，通信开销会显著影响GPU利用率和整体训练效率。因此，MoE对算力基础设施的要求已经不只是GPU峰值算力，还包括高速互联、显存管理、通信优化和分布式调度能力。论文进一步讨论了去中心化MoE对算力的影响。相较于依赖少数大型数据中心的中心化模式，去中心化范式尝试利用消费级GPU、工作站GPU、移动GPU 和小型GPU集群等分散资源，扩大可用算力池。由于MoE的专家网络天然具备可拆分特征，不同专家可以根据设备性能部署在不同节点上，因此具备利用闲置算力和异构算力的潜力。同时值得注意的是，去中心化环境下面临明显瓶颈：不同设备在GPU性能、显存容量、内存资源和通信带宽上差异较大，容易造成负载不均；同时，相比中心化GPU集群中可超过400Gb/s的RDMA网络，去中心化训练通常依赖LAN或WAN，带宽可能低于10Gb/s，通信效率成为限制有效算力输出的关键因素。资料来源：《The Rise of Sparse Mixture-of-Experts: A Survey from Algorithmic Foundations toDecentralized Architectures and Vertical Domain Applications》/Dong Pan, Bingtao Li, YongshengZheng, Jiren Ma, Victor Fei，国联民生证券研究所总体来看，论文的启示在于：MoE一方面通过稀疏激活提升单位计算效率，另一方面也推动AI算力基础设施从单卡性能竞争，转向GPU集群、高速互联、并行框架、通信优化和异构算力调度的系统级竞争。未来MoE的发展不仅依赖更强GPU，也依赖更高效的集群组织方式和分布式算力调度能力。 2Agentic AI计算效率为先，CPU迎来价值重估 2.1评价计算效率的核心指标：单位Token成本每百万Token成本是综合反映AI基础设施真实效率的指标。传统数据中心的核心定位为数据存储、检索与处理设施，而在生成式AI与代理式AI加速落地的产业阶段，推理已经取代训练成为数据中心的核心工作负载，数据中心的核心产出已经从原始算力转变为以Token为单位的智能交付，而芯片峰值规格、单GPU小时成本、每美元FLOPS等投入侧指标并不能完全反映AI投入的相关效率，而每百万Token成本是综合反映AI基础设施真实效率的TCO指标之一。AI业务的核心盈利逻辑直接由每Token成本决定，这一指标是能够同步覆盖硬件性能、软件优化、生态支持、实际利用率等所有核心变量的综合评估指标。资料来源：英伟达官网，国联民生证券研究所根据英伟达官网的数据，基于DeepSeek-R1 AI模型，仅从算力成本来看，NVIDIA Blackwell平台的成本约为NVIDIA Hopper的2倍，但Blackwell每瓦的Token产出量是Hopper的50倍以上，每百万Token的成本降低至其1/35左右。 2.2提升整体计算效率趋势下，CPU迎来价值重估在Agentic AI时代，CPU-GPU

点击免费查看完整报告

计算机行业动态报告：ARM产业链为何是GPU与CPU协同关键受益者

你可能感兴趣

国产CPU和GPU：国产ARM架构CPU：中国长城，仍受制于AR

计算机行业点评报告：ARM（ARM.O）业绩增长强劲，服务器CPU业务潜力较大

计算机行业周报20260606：GPU与CPU深度协同是Agent时代重大趋势

【风口研报·公司】ALL IN电能+算力+AI，这家公司具备光棒、光纤、光缆全产业链自主生产能力，液冷方案适配下一代GPU CPU、服务器等场景；这家公司在算力服务器与交换机散热领域-20260616

【九点特供】Arm官方认证！玄戒O1芯片由小米自主研发，分析师看好其有望发挥“鲶鱼”效应，推动国产半导体产业链技术的创新，这家公司是与玄戒芯片直接

计算机行业周报-周观点：AI算力景气度高企，GPU和CPU步入通胀阶段

计算机行业周报：唯有利益永恒：Intel第八代酷睿移动版CPU整合AMD Vega架构GPU

计算机行业周报：英伟达推出全新CPU和GPU AI处理器，IDEA研究院发布通用视觉大模型DINO-X

CPU行业点评：CPU与加速器配比重构，Intel业绩爆发，ARM架构崛起

【电报解读】RISC-V正成为与ARM 和X86 并列的三大指令集之一，全球相关芯片出货量已超100亿颗，这家公司基于集之一，阿里平头哥开发的CPU内核应用处理器芯片即将推出

计算机行业动态报告：ARM产业链为何是GPU与CPU协同关键受益者

你可能感兴趣

国产CPU和GPU：国产ARM架构CPU：中国长城，仍受制于AR

计算机行业点评报告：ARM（ARM.O）业绩增长强劲，服务器CPU业务潜力较大

计算机行业周报20260606：GPU与CPU深度协同是Agent时代重大趋势

【风口研报·公司】ALL IN电能+算力+AI，这家公司具备光棒、光纤、光缆全产业链自主生产能力，液冷方案适配下一代GPU CPU、服务器等场景；这家公司在算力服务器与交换机散热领域-20260616

【九点特供】Arm官方认证！玄戒O1芯片由小米自主研发，分析师看好其有望发挥“鲶鱼”效应，推动国产半导体产业链技术的创新，这家公司是与玄戒芯片直接

计算机行业周报-周观点：AI算力景气度高企，GPU和CPU步入通胀阶段

计算机行业周报：唯有利益永恒：Intel第八代酷睿移动版CPU整合AMD Vega架构GPU

计算机行业周报：英伟达推出全新CPU和GPU AI处理器，IDEA研究院发布通用视觉大模型DINO-X

CPU行业点评：CPU与加速器配比重构，Intel业绩爆发，ARM架构崛起

【电报解读】RISC-V正成为与ARM 和X86 并列的三大指令 集之一，全球相关芯片出货量已超100亿颗，这家公司基于集之一，阿里平头哥开发的CPU内核应用处理器芯片即将推出

【电报解读】RISC-V正成为与ARM 和X86 并列的三大指令集之一，全球相关芯片出货量已超100亿颗，这家公司基于集之一，阿里平头哥开发的CPU内核应用处理器芯片即将推出