行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

AI系列之CPU：推理时代迎价值重估

信息技术 2026-06-01 王芳,杨旭,李雪峰中泰证券向向

核心观点

推理是未来AI算力的核心，算力结构正从以训练为主转向以推理为核心，推理需求规模有望达到训练阶段的5-10倍。
CPU在训练场景是“辅助”，在推理场景可以成为"主力"，因为训练以大规模稠密矩阵运算为主，而推理具有碎片化、长尾化、延迟敏感特点，CPU在Decode、稀疏计算、长上下文管理、Embedding等多个任务中更具竞争力。
服务器CPU在指令集、核心数、内存子系统三个维度发生根本性进化以适应AI需求，未来将继续演进。
指令集从“通用向量”向“专用矩阵”演进，引入AMX（tile计算）单核AI算力较前代提升24x。
核心数由28/32提升至192/288，密度实现6-10倍提升，内存子系统容量和带宽也实现2.25倍增长。
AI Agent是CPU爆发的核心驱动，高频小请求vs大Batch吞吐、工具调用密集、长上下文管理、沙箱执行、Multi-Agent编排、RAG与向量检索等机制天然依赖CPU。
CPU与GPU硬件结构配比发生重大转变，在AI数据中心的部署比例，CPU:GPU已从过去的1:8收紧至当前的1:4，并可能在Agent时代进一步收敛至1:1甚至更低。
x86和ARM占据市场主要份额，其中x86占比90%、ARM占比10%。长期看，受益于推理+Agent，CPU TAM结构性重估，ASP预计由900多美元提升至1317美元。
x86将凭生态优势在云上仍占主要地位，ARM则凭能效、AI协同等优势在Agent、端侧场景发力，叠加Hyperscaler自研数据中心ARM CPU放量，其渗透率将不断提升——至30年提升到44%。

关键数据

2024年全球AI推理服务器市场规模约139.6亿美元，至2030年市场规模将达393.6亿美元，期间年复合增长率CAGR为18.9%。
25-30年服务器CPU规模预计将由266亿美元增长至1252亿美元，CAGR约36%，出货量预计由2920万颗增长至9500万颗，单颗价值量也将明显提升。

研究结论

推理底层驱动CPU硬件配比提升，Agent大趋势推动CPU核心数及总量需求增长，打开远期成长空间。
建议关注芯片：海光信息、禾盛新材、龙芯中科等；供应链：广合科技、澜起科技、通富微电、聚辰股份等。

【中泰电子】AI系列之CPU：推理时代迎价值重估分析师：王芳S0740521120002，杨旭S0740521120001，李雪峰S0740522080004 摘要 ■推理是未来AI算力的核心，CPU将迎来价值重估。算力结构转型正从以训练为主转向以推理为核心——当前70%以上算力用于集中式训练，未来70%以上算力将用于分布式推理，推理需求规模有望达到训练阶段的5-10倍。训练与推理的底层差异决定CPU在训练场景是“辅助”，在推理场景可以成为"主力”——1）基于Little's Law（吞吐=并发数/延迟），CPU和GPU选择了“压低延迟”和“堆高并发”的不同路线。2）训练以大规模稠密矩阵运算为主，大部分时间GPU在计算，CPU仅承担数据搬运+集群调度，时间占比10-30%；推理具有碎片化、长尾化、延迟敏感特点，CPU在Decode、稀疏计算、长上下文管理、Embedding等多个任务中更具竞争力，可完成70%以上运行负载。对硬件的不同要求推动推理时代CPU与GPU硬件结构配比发生重大转变：在AI数据中心的部署比例，CPU:GPU已从过去的1:8收紧至当前的1:4，并可能在Agent时代进一步收敛至1:1甚至更低；当前市场端CPU缺货涨价潮充分印证该产业趋势，CPU增量逻辑确定。服务器CPU在指令集、核心数、内存子系统三个维度发生根本性进化以适应AI需求，未来将继续演进。1）指令集从“通用向量”向“专用矩阵”演进，引入AMX（tile计算）单核AI算力较前代提升24x。2）核心数由28/32提升至192/288，密度实现6-10倍提升，内存子系统容量和带宽也实现2.25倍增长。三个维度的协同升级（1+1+1＞3）对应AI推理的三大核心需求—矩阵运算能力、并发处理能力、内存容量与带宽，让CPU进化为"AI友好型硬件"。 Agentic AI是CPU爆发的核心驱动。传统LLM是大Batch吞吐，Agent是高频小请求，工作负载特征反转导致GPU算力闲余，CPU处理时间占比上升；工具调用、沙箱运行、多智能体调度等环节天然依赖CPU架构，同时长上下文+RAG检索场景下，CPU+大DDR5方案具有突出性价比优势，且进行RAG检索时主力算力在CPU，检索频率也翻倍提升，CPU需求同步放大。行业格局与未来空间：当前x86和ARM占据市场主要份额，其中x86占比90%、ARM占比10%。长期看，受益于推理+Agent，CPU TAM结构性重估，据BofA Global Research预测，25-30年服务器CPU规模预计将由266亿美元增长至1252亿美元，CAGR约36%，出货量预计由2920万颗增长至9500万颗，单颗价值量也将明显提升，ASP预计由900多美元提升至1317美元；同时，x86将凭生态优势在云上仍占主要地位，ARM则凭能效、AI协同等优势在Agent、端侧场景发力，叠加Hyperscaler自研数据中心ARM CPU放量，其渗透率将不断提升——至30年提升到44%，具有更强alpha的增速。投资建议：推理底层驱动CPU硬件配比提升，Agent大趋势推动CPU核心数及总量需求增长，打开远期成长空间。建议关注——1）芯片：海光信息、禾盛新材、龙芯中科等；2）供应链：广合科技、澜起科技、通富微电、聚辰股份等。风险提示：行业需求不及预期；大陆厂商技术进步不及预期；中美贸易摩擦加剧；研报信息更新不及时；测算偏差风险；数据主观筛选风险。目录一、模型由训练转向推理：CPU将迎来价值重估 1.1推理是未来AI算力的核心 ■算力结构转型正从以训练为主转向以推理为核心——当前70%以上算力用于集中式训练，未来70%以上算力将用于分布式推理，这一观点已从“前瞻性观点”变为“行业共识”。多模态模型、Agentic AI等创新形态的加速落地将催生实时推理需求的新一轮结构性增长，推理需求规模有望达到训练阶段的5-10倍； NVIDIA CEO Jensen Huang在24-26年多次公开表述：“推理市场的总量最终将是训练市场的几个数量级倍数”； OpenAI、Anthropic等头部模型公司的推理算力消耗已远超训练算力（推理占比已达85%、训练仅15%），据Tech News，全球Hyperscaler26年Capex指引中，推理基础设施投资增速首次超过训练；据Global Info Research预测，2024年全球AI推理服务器市场规模约139.6亿美元，至2030年市场规模将达393.6亿美元，期间年复合增长率CAGR为18.9%。 ■AI由训练到推理的转变本质上是其从"研发阶段"进入"规模化部署阶段"——训练是少数巨头的一次性投入，推理是亿万用户每天产生的持续消耗。来源：电脑报少年派，NVIDIA GTC，《美国云厂商资本开支与AI算力产业链投资分析报告》，Tech News，中国信通院，中泰证券研究所 1.1 CPU和GPU本质是计算路径差异 ■CPU与GPU底层架构差异来源于计算路径：CPU是延迟优化（Latency-oriented）的标量处理器——追求"单线程把一件复杂的事尽快做完"；GPU是吞吐优化（Throughput-oriented）的向量处理器——追求"用极大并行把同一件简单的事做很多次"，这种分野根植于Little's Law：吞吐=并发数/延迟。CPU走的是"压低延迟"路线，GPU走的是"堆高并发"路线。任何一种架构，本质上都是这个权衡的不同选择。 1.2深度剖析CPU受益推理需求增长 ■大模型训练与推理是AI生命周期中两个截然不同的阶段，其核心目标、计算模式与网络特征存在本质区别。训练是“海量数据+长期迭代+强同步通信”的超大规模并行计算，追求高吞吐与稳定性——GPU适配；推理是“实时请求+低延迟响应+动态负载”的在线服务，追求快速响应与高并发——CPU适配。 ■训练：目标是让模型从数据中学习规律，通过不断调整参数，使模型具备对未知数据的预测或分类能力，即从0到1构建模型能力；包含前向传播（计算输出和损失）、反向传播（计算梯度）和参数更新三个环节，需反复迭代，计算量巨大，且需存储中间激活值、梯度及优化器状态，通常以大批量（batch）方式并行计算，关注吞吐量和模型收敛速度。 ■推理：目标是利用已训练好的模型，对新的输入数据快速生成预测结果或决策，即从1到n应用模型能力；仅需前向传播，无需反向传播和参数更新，计算流程简洁，计算量远低于训练，一般处理单条或少量输入数据，批处理规模较小，更注重降低单次请求的延迟。 ■因此随着模型由训练向推理逐渐转变，CPU占比将发生根本改变，下面我们将具体从训练和推理场景分析CPU承担负载情况。 1.2.1训练场景：CPU是辅助 ■CPU训练vs推理的角色差异：训练场景CPU是“辅助”，推理场景CPU可以是"主力”。训练是一个“高度规整、高度并行、高度同步”的工业生产过程，总CPU时间占比约10%-30%，大部分时间GPU在计算，CPU在准备下一batch或协调通信：训练以大规模稠密矩阵运算为主（高并行/高算力需求），GPU天然适配；CPU仅承担控制面、数据搬运、预处理、调度与IO，扮演“数据搬运工+集群调度者”的辅助角色。典型分工——GPU负责前向/反向传播、权重更新、矩阵乘、激活函数；CPU负责数据加载/清洗/Tokenization、Embedding查表（小部分）、多卡通信调度、Checkpoint保存、日志监控、异常容错。来源：英伟达官网，github，阿里云，gitbook，博客园，亚马逊中国，中泰证券研究所 1.2.2推理场景：CPU可以成为主力 ■CPU训练vs推理的角色差异：训练场景CPU是“辅助”，推理场景CPU可以是"主力”。推理是“碎片化、长尾化、延迟敏感”的零售场景，属于异质化任务，CPU在Decode、小Batch低延迟、稀疏计算、长上下文KV Cache管理、Embedding lookup、后处理等多个子任务中较GPU更具竞争力，可完成70%+以上运行负载、承担主力角色。 1.2.3总结：CPU在推理场景承担更多工作负载 ■总结来说，CPU可承担多种运算形式，在推理场景工作负载占比显著上升—— 1）控制流与调度：训练中控制流开销被大量计算摊销，推理小batch场景kernel launch开销占总延迟的比例显著上升；2）数据预处理与后处理：训练预处理可以离线或预取、不阻塞GPU，而推理是同步的，CPU tokenization能力将直接决定系统吞吐量上限；3）稀疏计算：是内存密集型任务，GPU HBM容量有限，CPU+大内存更适配；4）小模型推理：轻量算力、低延迟、低成本，CPU更具性价比；5）KV Cache管理：训练不使用，是推理的核心瓶颈，内存爆炸需CPU内存池管理；6）1/O密集任务：训练可实现异步、推理往往同步阻塞，依赖CPU；7）CPU-GPU协同：CPU和GPU需频繁交换数据，推理场景低延迟请求提高了对CPU协同效率的要求。 1.3训练到推理CPU逐渐由辅助转变为主力 ■CPU在中小模型推理中优势尤为突出—— ■中小模型推理（BERT/轻量Transformer/传统ML等）：1）算力需求低、延迟敏感：中小模型（≤10B，尤其BERT-base/3B级）单请求计算量小，GPU“大材小用”，调度/显存开销反而拉高延迟；CPU多核并行+AMX/AVX-512 INT8优化可做到毫秒级延迟，满足在线SLA。2）成本与能效优势：Xeon+大内存（DDR5/PMEM）部署中小推理，TCO较GPU降低93%。3）内存带宽友好、无显存墙：中小模型权重可完全驻留CPU大内存（TB级），无GPU显存分片/拷贝开销；长上下文KV Cache可直接用CPU内存池管理。4）传统ML天然CPU友好：工业界仍大量使用树模型，其递归分裂、特征稀疏、逻辑分支密集，CPU分支预测+缓存优化优于GPU。 ■实例——CPU已成为轻量级AI推理场景的高性价比方案。对比Intel两种可信执行环境（TEE）在Llama2系列模型上的吞吐量损失（Overhead），结果显示7B/13B级模型TDX/SGX的吞吐量峰值损失仅在3%-7%区间，最高延迟仅增加约4%-10%，几乎不影响实际业务体验；openmetal实测数据显示使用Llama3.2 3B量化模型时，启用AMX的CPU推理速度可达53 token/s，其中在Q4量化下可达80token/s，完全满足边缘、私有部署、中小规模企业场景的需求，无需依赖昂贵的GPU。来源：《Confidential LLM Inference: Performance and Cost Across CPU and GPU TEEs》，openmetal，中泰证券研究所 1.4推理时代硬件结构发生根本改变，CPU迎来价值重估 ■如果推理时代和训练时代对硬件的本质要求不同，那么CPU与GPU的相对价值必然会被重新定价。■Intel CEO Lip-Bu Tan在2026年Q1财报电话会上的表态，是行业拐点的最权威信号：1）CEO表示AI浪潮正推动芯片市场总规模迈向万亿美元，而CPU正重新成为AI时代的核心基础。随着推理与智能体工作负载向边缘设备和机器人延伸，CPU将迎来更大机遇。2）CPU与GPU硬件结构配比正发生重大转变：在AI数据中心的部署比例，CPU:GPU已从过去的1:8收紧至当前的1:4，并可能在Agent时代进一步收敛至1:1甚至更低；CFO David Zinsner进一步细化，训练服务器的GPU/CPU比通常是7-8:1，推理服务器收紧至3-4:1，Agent场景下可能进入1-2:1区间。TrendForce的预测与Intel口径一致，认为整体行业配比将向1:1至1:2演进。■这一变化已经在市场端兑现：缺货——据集微网，当前全球CPU市场供需处于紧张态势，英特尔第五代、第六代商用CPU约二三十个型号缺货

点击免费查看完整报告

AI系列之CPU：推理时代迎价值重估

核心观点

关键数据

研究结论

你可能感兴趣

海光信息AI时代CPU价值重估AICPU价值

CPU:供需格局优化，国产龙头或迎价值重估机遇：计算机行业重大事项点评

半导体行业周报：半导体产业链景气度结构性攀升，Agentic AI带动CPU价值重估

【风口研报·洞察】Oracle云业务超预期增长，第一财季剩余履约义务达4550亿美元，推理需求爆发促使客户同时寻求训练和推理工作负载的基础设施，云计算价值有望在AI渗透中；重估920250911

AI周观察：Anthropic整合金融智能体，AMD财报良好重估CPU价值

CPU 迎来价值重估，看好 EPYC 系列持续放量

CPU推理时代的中国AI核心资产20260424

动画电影龙头，AI时代价值重估

动画电影龙头，AI时代价值重估

脱水研报丨AI时代核心连接枢纽的价值重估，当下如何看光模块行业？IP经济掀起3D打印热潮，多领域的化工耗材受益—20250615