推理与Agentic AI浪潮下,CPU重回AI基础设施核心中枢 计算机《英伟达GTC前瞻:聚焦Rubin落地、Feynman前瞻与基础设施重构》2026.03.11计算机《君逸数码战略投资并签约银河通用机器人》2026.02.13计算机《银河通用“干活”机器人登春晚,具身智能迎来主流时刻》2026.01.25计算机《上海发布“模速智行”行动计划,自动驾驶产业驶入加速赛道》2026.01.18计算机《八部门印发人工智能赋能制造专项行动实施意见,制造业AI大有可为》2026.01.08 本报告导读: 推理与Agentic AI正推动AI基础设施从GPU单点算力竞争转向CPU-GPU异构协同竞争,CPU有望由配套组件升级为执行中枢,并带动国产CPU及数据中心配套产业链迎来结构性机遇。 投资要点: AI推理和智能体工作负载催生CPU需求结构性拐点。随着推理请求、多用户并发、长上下文、多Agent协作的增长,CPU负载显著提升,CPU:GPU配比由训练阶段的1:8演进至推理阶段1:3~1:4,Agent阶段接近1:2。CPU价格上涨、交期延长已初步验证需求回升,未来AI数据中心将从单纯堆GPU转向“CPU+GPU+内存+网络+软件”的整体优化。 异构系统和新型CPU架构带来长期投资机会。AI工作负载复杂化推动CPU架构向系统级协同优化演进,包括更多核心、高带宽缓存、CXL互联和新型共享内存架构。CPU与GPU协同成为AI数据中心核心,带动产业链价值提升。上游半导体材料和设备国产化进程加速,中游芯片设计与封装测试自主可控,下游服务器、AI加速及边缘场景需求高增,为整个CPU产业链创造长期投资机会。 国产CPU迎来产业链布局窗口。国际市场上,Intel、AMD和ARM通过优化架构、核心数和异构协同能力占据主导地位,AI推理及智能体工作负载持续推动其服务器CPU需求增长。国产CPU厂商如飞腾、海光信息等正在加速布局,通过自主指令集、RISC-V生态和国产EDA/IP支持,实现服务器及AI算力市场突破。 风险提示:AI智能体落地不及预期风险,AI商业化进展不及预期风险,行业竞争加剧及份额流失风险,资本开支周期波动风险。 目录 1.推理与Agentic AI时代,CPU重回AI基础设施核心中枢........................31.1.CPU:AI基础设施的大脑,负责控制、调度与串行执行....................31.2.推理时代到来,系统瓶颈开始从GPU转向CPU..................................31.3.Agentic AI出现,CPU需求发生“质变”.............................................51.4.AI基础设施进入系统级竞争时代,CPU重回异构协同核心...............72.AI应用落地驱动系统复杂度提升,CPU需求迎来结构性拐点.................92.1.AI进入“持续执行”阶段,CPU需求从配套走向刚需.......................92.2.Agentic AI打开CPU需求弹性,CPU从“调度器”升级为“执行中枢”112.3.从全球市场到国产生态,CPU需求迎来结构性增长..........................132.4.从价格上涨到交期拉长,CPU需求回升进入产业验证阶段..............143.AI系统化浪潮下,CPU架构升级与产业链机遇全面展开.......................163.1.AI时代CPU架构新方向:从单点算力提升转向系统级协同............163.2.CPU产业链全景梳理:从上游材料到下游应用发展机遇..................174.CPU重点公司梳理:国际格局与国产化发展趋势....................................184.1.海外CPU重点公司梳理:从x86到ARM,AI需求重塑全球CPU竞争格局................................................................................................................184.2.国内CPU重点公司梳理:国产CPU从信创替代走向AI系统中枢.245.建议关注........................................................................................................336.风险提示........................................................................................................34 1.推理与Agentic AI时代,CPU重回AI基础设施核心中枢 1.1.CPU:AI基础设施的大脑,负责控制、调度与串行执行 CPU是计算机系统中最核心的通用计算芯片,本质上承担“系统大脑”的角色。与GPU擅长大规模并行计算不同,CPU更擅长复杂逻辑判断、低延迟响应、分支控制、任务调度和串行执行。在传统计算机系统中,CPU负责执行程序指令、控制其他硬件、处理逻辑判断和数据运算,是整个系统运行的控制中枢。其核心职责可以概括为三类:一是指令调度,即将软件层指令翻译为硬件可执行的操作;二是逻辑判断,即根据复杂条件执行不同路径;三是串行控制,即对具有先后依赖关系的任务进行稳定执行。 CPU与GPU的分工,本质上是“复杂控制”与“大规模并行”的分工。GPU拥有大量计算核心,擅长处理矩阵乘法、Attention计算、图像渲染等高度规则、可并行化任务;CPU则拥有更强的单核能力、更复杂的控制单元、更大的缓存层级和更灵活的I/O调度能力,更适合处理不规则、事件驱动、强分支、强交互的任务。若用AI系统来类比,GPU负责“算”,CPU负责“管”;GPU决定单次神经网络计算效率,CPU决定整个推理系统的调度效率、任务流转效率和系统稳定性。 1.2.推理时代到来,系统瓶颈开始从GPU转向CPU 过去两年,AI基础设施的核心矛盾主要集中在“训练算力不足”,GPU因此成为整个产业链最核心的资源。大模型训练本质上是高度规则化、可并行化的矩阵运算,系统目标是让GPU持续高负载运行,因此CPU更多承担数据搬运、任务调度和主机管理等辅助职责。在这一阶段,行业对于AI Infra的理解几乎等同于“GPU基础设施”:HBM容量、NVLink带宽、GPU集群规模决定了训练效率,CPU则逐渐被边缘化。传统CPU中心的数据中心架构已经演变为“GPU中心”,原因在于LLM每生成一个token,都需要读取海量模型参数,传统CPU+内存体系的带宽与算力已经无法满足这种计算密度,因此计算与通信大量offload到GPU完成,CPU逐渐成为“辅助处理器”。在训练时代,这种“GPU绝对核心化”的逻辑是成立的,因为训练任务单一、重复且高度并行,系统瓶颈天然集中于浮点算力与显存带宽。 但随着AI产业逐渐从“模型训练”进入“模型推理”阶段,整个系统的工作负载开始发生根本性变化。训练的核心是大规模并行计算,而推理的核心则是复杂请求的实时处理与系统调度。尤其是在企业级AI应用中,一次推理请求往往并不只是简单执行一次前向传播,而是伴随着检索增强(RAG)、数据库访问、权限验证、缓存管理、网络通信、KV Cache调度、结果格式 化等大量系统级任务。推理的数据编排与管理对CPU存在强依赖,如果说训练时代的瓶颈是GPU浮点算力,那么推理时代的瓶颈已经逐步转移至CPU侧的请求处理、编排调度与数据加工。CPU开始承担类似“空中交通管制员”的角色:从用户请求进入系统开始,后续的数据摄入、清洗、批处理、Token流管理、KV Cache调度等环节,均高度依赖CPU执行。很多场景下,GPU真正执行推理计算的时间甚至已经低于CPU的数据流水线时间,这意味着系统整体性能不再由GPU单独决定,而开始受限于CPU的调度与执行效率。 这一变化的背后,本质上是GPU与CPU在AI系统中的角色开始出现明显分工:GPU负责“算”,CPU负责“管”。GPU仍然承担核心神经网络计算任务,包括矩阵乘法、Attention计算以及Token生成等高密度并行运算,这是GPU最擅长的领域;但整个AI系统真正能否高效运行,则越来越取决于CPU的系统调度能力。在推理阶段,CPU除了负责请求接入和格式处理外,还需要完成用户请求分发、任务编排、工具调用、状态维护以及结果整合等大量工作。尤其是在Agentic AI时代,CPU还要承担任务规划、环境感知、异常处理、多软件协同以及API调用等复杂职责。随着Agentic AI和Physical AI的发展,AI系统越来越像“一个完整计算机系统”而非“单一算力卡”,CPU因此重新成为整个系统的天然中枢。GPU决定模型“算得快不快”,而CPU则决定整个AI系统“跑得顺不顺”。正因如此,CPU正在重新成为AI系统的核心吞吐瓶颈。过去行业普遍认为GPU决定AI系统性能上限,但进入推理时代后,GPU利用率反而越来越容易受到CPU限制。在很多场景下,GPU实际执行推理计算的耗时已经低于CPU的数据流水线耗时,CPU侧的数据处理与请求编排反而成为影响整体吞吐的关键瓶颈。 大模型架构本身也正在发生变化,进一步强化了CPU与系统调度的重要性。过去Transformer的运行逻辑,本质上是依靠大量Attention与FFN计算,在推理过程中不断“重新构建”知识与上下文关系。这意味着很多原本可以直接“查表获取”的静态知识,也需要GPU通过复杂计算重复完成,因此GPU长期承担了大量Memory与数据访问压力。但随着推理成本快速提升,越来越多模型开始尝试把“计算”和“记忆”拆开。2026年DeepSeek在《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for LargeLanguage Models》提出的Engram架构,就是典型代表。其核心思路是:将部分高频、固定的语言模式存储为独立Memory,在推理时直接通过Lookup读取,而不是全部依赖Transformer实时计算。这样一来,模型不再需要所有知识都依赖GPU计算生成,而是开始出现类似“缓存系统”的 Memory层。这一变化对AI基础设施的影响非常重要。由于模型可以提前知道需要读取哪些Memory,因此系统能够在GPU执行计算的同时,由CPU提前完成数据调度与Memory Prefetch。论文进一步提出分层Memory结构:高频数据放在GPU显存中,部分数据放在主机内存(DRAM),更低频的数据甚至可以放在SSD中,从而降低GPU显存压力。这意味着,未来AI系统的核心竞争力,可能不再只是GPU算力本身,而是“GPU计算+ CPU调度+ Memory管理”的整体协同能力。GPU负责神经网络计算,CPU则越来越像整个AI系统的“调度中心”,负责数据编排、缓存管理、任务协调以及推理流水线控制。随着Agentic AI与长上下文模型的发展,AI系统正在逐渐从“单一算力系统”演变为“完整计算系统”,CPU与Memory子系统的重要性也将进一步提升。 资料来源:Deepseek《Conditional Memory via Scalable Lookup: ANew Axis of Sparsity for Large Language Models》(2026) 资料来源:Deepseek《Conditional Memory via Scalable Lookup: ANew Axis of Sparsity for Large Lang