【中泰电子】AI系列之CPU:推理时代迎价值重估 分析师:王芳S0740521120002,杨旭S0740521120001,李雪峰S0740522080004 摘要 ■推理是未来AI算力的核心,CPU将迎来价值重估。 算力结构转型正从以训练为主转向以推理为核心——当前70%以上算力用于集中式训练,未来70%以上算力将用于分布式推理,推理需求规模有望达到训练阶段的5-10倍。 训练与推理的底层差异决定CPU在训练场景是“辅助”,在推理场景可以成为"主力”——1)基于Little's Law(吞吐=并发数/延迟),CPU和GPU选择了“压低延迟”和“堆高并发”的不同路线。2)训练以大规模稠密矩阵运算为主,大部分时间GPU在计算,CPU仅承担数据搬运+集群调度,时间占比10-30%;推理具有碎片化、长尾化、延迟敏感特点,CPU在Decode、稀疏计算、长上下文管理、Embedding等多个任务中更具竞争力,可完成70%以上运行负载。 对硬件的不同要求推动推理时代CPU与GPU硬件结构配比发生重大转变:在AI数据中心的部署比例,CPU:GPU已从过去的1:8收紧至当前的1:4,并可能在Agent时代进一步收敛至1:1甚至更低;当前市场端CPU缺货涨价潮充分印证该产业趋势,CPU增量逻辑确定。 服务器CPU在指令集、核心数、内存子系统三个维度发生根本性进化以适应AI需求,未来将继续演进。1)指令集从“通用向量”向“专用矩阵”演进,引入AMX(tile计算)单核AI算力较前代提升24x。2)核心数由28/32提升至192/288,密度实现6-10倍提升,内存子系统容量和带宽也实现2.25倍增长。三个维度的协同升级(1+1+1>3)对应AI推理的三大核心需求—矩阵运算能力、并发处理能力、内存容量与带宽,让CPU进化为"AI友好型硬件"。 Agentic AI是CPU爆发的核心驱动。传统LLM是大Batch吞吐,Agent是高频小请求,工作负载特征反转导致GPU算力闲余,CPU处理时间占比上升;工具调用、沙箱运行、多智能体调度等环节天然依赖CPU架构,同时长上下文+RAG检索场景下,CPU+大DDR5方案具有突出性价比优势,且进行RAG检索时主力算力在CPU,检索频率也翻倍提升,CPU需求同步放大。 行业格局与未来空间:当前x86和ARM占据市场主要份额,其中x86占比90%、ARM占比10%。长期看,受益于推理+Agent,CPU TAM结构性重估,据BofA Global Research预测,25-30年服务器CPU规模预计将由266亿美元增长至1252亿美元,CAGR约36%,出货量预计由2920万颗增长至9500万颗,单颗价值量也将明显提升,ASP预计由900多美元提升至1317美元;同时,x86将凭生态优势在云上仍占主要地位,ARM则凭能效、AI协同等优势在Agent、端侧场景发力,叠加Hyperscaler自研数据中心ARM CPU放量,其渗透率将不断提升——至30年提升到44%,具有更强alpha的增速。 投资建议:推理底层驱动CPU硬件配比提升,Agent大趋势推动CPU核心数及总量需求增长,打开远期成长空间。建议关注——1)芯片:海光信息、禾盛新材、龙芯中科等;2)供应链:广合科技、澜起科技、通富微电、聚辰股份等。 风险提示:行业需求不及预期;大陆厂商技术进步不及预期;中美贸易摩擦加剧;研报信息更新不及时;测算偏差风险;数据主观筛选风险。 目录 一、模型由训练转向推理:CPU将迎来价值重估 1.1推理是未来AI算力的核心 ■算力结构转型正从以训练为主转向以推理为核心——当前70%以上算力用于集中式训练,未来70%以上算力将用于分布式推理,这一观点已从“前瞻性观点”变为“行业共识”。多模态模型、Agentic AI等创新形态的加速落地将催生实时推理需求的新一轮结构性增长,推理需求规模有望达到训练阶段的5-10倍; NVIDIA CEO Jensen Huang在24-26年多次公开表述:“推理市场的总量最终将是训练市场的几个数量级倍数”; OpenAI、Anthropic等头部模型公司的推理算力消耗已远超训练算力(推理占比已达85%、训练仅15%),据Tech News,全球Hyperscaler26年Capex指引中,推理基础设施投资增速首次超过训练; 据Global Info Research预测,2024年全球AI推理服务器市场规模约139.6亿美元,至2030年市场规模将达393.6亿美元,期间年复合增长率CAGR为18.9%。 ■AI由训练到推理的转变本质上是其从"研发阶段"进入"规模化部署阶段"——训练是少数巨头的一次性投入,推理是亿万用户每天产生的持续消耗。 来源:电脑报少年派,NVIDIA GTC,《美国云厂商资本开支与AI算力产业链投资分析报告》,Tech News,中国信通院,中泰证券研究所 1.1 CPU和GPU本质是计算路径差异 ■CPU与GPU底层架构差异来源于计算路径:CPU是延迟优化(Latency-oriented)的标量处理器——追求"单线程把一件复杂的事尽快做完";GPU是吞吐优化(Throughput-oriented)的向量处理器——追求"用极大并行把同一件简单的事做很多次",这种分野根植于Little's Law:吞吐=并发数/延迟。CPU走的是"压低延迟"路线,GPU走的是"堆高并发"路线。任何一种架构,本质上都是这个权衡的不同选择。 1.2深度剖析CPU受益推理需求增长 ■大模型训练与推理是AI生命周期中两个截然不同的阶段,其核心目标、计算模式与网络特征存在本质区别。训练是“海量数据+长期迭代+强同步通信”的超大规模并行计算,追求高吞吐与稳定性——GPU适配;推理是“实时请求+低延迟响应+动态负载”的在线服务,追求快速响应与高并发——CPU适配。 ■训练:目标是让模型从数据中学习规律,通过不断调整参数,使模型具备对未知数据的预测或分类能力,即从0到1构建模型能力;包含前向传播(计算输出和损失)、反向传播(计算梯度)和参数更新三个环节,需反复迭代,计算量巨大,且需存储中间激活值、梯度及优化器状态,通常以大批量(batch)方式并行计算,关注吞吐量和模型收敛速度。 ■推理:目标是利用已训练好的模型,对新的输入数据快速生成预测结果或决策,即从1到n应用模型能力;仅需前向传播,无需反向传播和参数更新,计算流程简洁,计算量远低于训练,一般处理单条或少量输入数据,批处理规模较小,更注重降低单次请求的延迟。 ■因此随着模型由训练向推理逐渐转变,CPU占比将发生根本改变,下面我们将具体从训练和推理场景分析CPU承担负载情况。 1.2.1训练场景:CPU是辅助 ■CPU训练vs推理的角色差异:训练场景CPU是“辅助”,推理场景CPU可以是"主力”。 训练是一个“高度规整、高度并行、高度同步”的工业生产过程,总CPU时间占比约10%-30%,大部分时间GPU在计算,CPU在准备下一batch或协调通信:训练以大规模稠密矩阵运算为主(高并行/高算力需求),GPU天然适配;CPU仅承担控制面、数据搬运、预处理、调度与IO,扮演“数据搬运工+集群调度者”的辅助角色。典型分工——GPU负责前向/反向传播、权重更新、矩阵乘、激活函数;CPU负责数据加载/清洗/Tokenization、Embedding查表(小部分)、多卡通信调度、Checkpoint保存、日志监控、异常容错。 来源:英伟达官网,github,阿里云,gitbook,博客园,亚马逊中国,中泰证券研究所 1.2.2推理场景:CPU可以成为主力 ■CPU训练vs推理的角色差异:训练场景CPU是“辅助”,推理场景CPU可以是"主力”。 推理是“碎片化、长尾化、延迟敏感”的零售场景,属于异质化任务,CPU在Decode、小Batch低延迟、稀疏计算、长上下文KV Cache管理、Embedding lookup、后处理等多个子任务中较GPU更具竞争力,可完成70%+以上运行负载、承担主力角色。 1.2.3总结:CPU在推理场景承担更多工作负载 ■总结来说,CPU可承担多种运算形式,在推理场景工作负载占比显著上升—— 1)控制流与调度:训练中控制流开销被大量计算摊销,推理小batch场景kernel launch开销占总延迟的比例显著上升;2)数据预处理与后处理:训练预处理可以离线或预取、不阻塞GPU,而推理是同步的,CPU tokenization能力将直接决定系统吞吐量上限;3)稀疏计算:是内存密集型任务,GPU HBM容量有限,CPU+大内存更适配;4)小模型推理:轻量算力、低延迟、低成本,CPU更具性价比;5)KV Cache管理:训练不使用,是推理的核心瓶颈,内存爆炸需CPU内存池管理;6)1/O密集任务:训练可实现异步、推理往往同步阻塞,依赖CPU;7)CPU-GPU协同:CPU和GPU需频繁交换数据,推理场景低延迟请求提高了对CPU协同效率的要求。 1.3训练到推理CPU逐渐由辅助转变为主力 ■CPU在中小模型推理中优势尤为突出—— ■中小模型推理(BERT/轻量Transformer/传统ML等):1)算力需求低、延迟敏感:中小模型(≤10B,尤其BERT-base/3B级)单请求计算量小,GPU“大材小用”,调度/显存开销反而拉高延迟;CPU多核并行+AMX/AVX-512 INT8优化可做到毫秒级延迟,满足在线SLA。2)成本与能效优势:Xeon+大内存(DDR5/PMEM)部署中小推理,TCO较GPU降低93%。3)内存带宽友好、无显存墙:中小模型权重可完全驻留CPU大内存(TB级),无GPU显存分片/拷贝开销;长上下文KV Cache可直接用CPU内存池管理。4)传统ML天然CPU友好:工业界仍大量使用树模型,其递归分裂、特征稀疏、逻辑分支密集,CPU分支预测+缓存优化优于GPU。 ■实例——CPU已成为轻量级AI推理场景的高性价比方案。对比Intel两种可信执行环境(TEE)在Llama2系列模型上的吞吐量损失(Overhead),结果显示7B/13B级模型TDX/SGX的吞吐量峰值损失仅在3%-7%区间,最高延迟仅增加约4%-10%,几乎不影响实际业务体验;openmetal实测数据显示使用Llama3.2 3B量化模型时,启用AMX的CPU推理速度可达53 token/s,其中在Q4量化下可达80token/s,完全满足边缘、私有部署、中小规模企业场景的需求,无需依赖昂贵的GPU。 来源:《Confidential LLM Inference: Performance and Cost Across CPU and GPU TEEs》,openmetal,中泰证券研究所 1.4推理时代硬件结构发生根本改变,CPU迎来价值重估 ■如果推理时代和训练时代对硬件的本质要求不同,那么CPU与GPU的相对价值必然会被重新定价。■Intel CEO Lip-Bu Tan在2026年Q1财报电话会上的表态,是行业拐点的最权威信号:1)CEO表示AI浪潮正推动芯片市场总规模迈向万亿美元,而CPU正重新成为AI时代的核心基础。随着推理与智能体工作负载向边缘设备和机器人延伸,CPU将迎来更大机遇。2)CPU与GPU硬件结构配比正发生重大转变:在AI数据中心的部署比例,CPU:GPU已从过去的1:8收紧至当前的1:4,并可能在Agent时代进一步收敛至1:1甚至更低;CFO David Zinsner进一步细化,训练服务器的GPU/CPU比通常是7-8:1,推理服务器收紧至3-4:1,Agent场景下可能进入1-2:1区间。TrendForce的预测与Intel口径一致,认为整体行业配比将向1:1至1:2演进。■这一变化已经在市场端兑现:缺货——据集微网,当前全球CPU市场供需处于紧张态势,英特尔第五代、第六代商用CPU约二三十个型号缺货