AI智能总结
本周观点 Agent驱动的强化学习(RL)时代,CPU可能比GPU更早成为瓶颈。与传统单任务RL不同,现代Agent系统需要同时运行成百上千个独立环境实例,"环境并行化"让CPU成为事实上的第一块短板。主要源于三大核心逻辑:1)Multi-Agent带来OS调度压力,Agent的“推理-执行-反思”循环机制需要操作系统层面频繁调度,且沙盒(Sandbox)的运行高度依赖CPU算力。2)为解决长上下文导致的GPU显存容量问题,业界采用KV CacheOffload技术将数据迁移至CPU内存,这不仅要求CPU具备大内存,还需其承担繁重的调度与传输任务。3)高并发工具调用:检索、编码、网页浏览等非模型推理任务上由CPU执行,在高并发场景下,多线程/多进程的处理需求推高了CPU的负载。 DeepSeek Engram架构或进一步推动以存代算。DeepSeek推出Engram架构,把大模型里的“计算”和“超大规模记忆”解耦,Transformer的算子全部在GPU/加速卡上计算,而1000亿参数的Engram表存储运行则在CPU内存中,仅产生小于3%的开销。此外Anthropic推出的Claude Cowork,通过知识库为Claude设计的一种全新永久记忆方式。我们认为,类Engram架构能有效突破GPU显存限制,从而推动以存代算需求和CPU配比提升。 Agent生态扩张引爆CPU性能瓶颈。全球Agent生态正面临指数级跃迁,据IDC预测,2025年至2030年间,活跃Agent数量、任务执行量及Token消耗量将分别以139%、524%和3418%的年复合增长率飙升。这种增长不仅是数量的堆叠,更伴随着任务复杂度的剧增。英特尔与佐治亚理工学院的研究表明,在RAG检索、工具调用等典型Agent工作负载中,CPU承担了大幅度的延迟占比(如HaystackRAG任务中CPU耗时占90.6%),成为实际性能的瓶颈。此外随着Batch Size增加,CPU的能耗逼近GPU,且面临严重的上下文切换压力,证明了CPU在Agent时代的关键地位。 供需失衡全面爆发,算力木桶新短板已现。英特尔已紧急将产能转向服务器端,导致消费电子端交付受阻;英伟达则因ARM CPU瓶颈,计划在下一代Rubin架构中大幅提升CPU核心数,并开放NVL72机柜对x86CPU的支持。市场数据印证了这一趋势,Jon Peddie Research报告显示,2025年第二季度全球服务器CPU出货量同比大增22%,客户端CPU亦连续两季度增长。英特尔CFO表示预计第一季度可用供应将降至最低水平,随后在第二季度及以后有所改善,公司正应对整个行业的供应短缺。Agent时代算力的“木桶效应”已经显现,目前CPU正演变为类似于存储的新短板,补足这一短板将是下阶段算力基础设施建设的重中之重。。投资建议 相关标的:CPU:海光信息、中科曙光、禾盛新材、中国长城、龙芯中科、兴森科技、深南电路、宏和科技。 国内算力:海光信息、寒武纪、东阳光、协创数据、华丰科技、星环科技、神州数码、百度集团、大位科技、润建股份、中芯国际、华虹半导体、中科曙光、禾盛新材、润泽科技、浪潮信息、东山精密、亿田智能、奥飞数据、云赛智联、瑞晟智能、科华数据、潍柴重机、金山云、欧陆通、杰创智能。海外算力/存储:中际旭创、新易盛、兆易创新、大普微、中微公司、天孚通信、源杰科技、胜宏科技、景旺电子、英维克等;闪迪、铠侠、美光、SK海力士、中微公司、北方华创、拓荆科技、长川科技。 风险提示 行业竞争加剧的风险;技术研发进度不及预期的风险;特定行业下游资本开支周期性波动的风险。 内容目录 一、三大逻辑揭示Agent对CPU的刚性需求.........................................................3二、Agent生态扩张引爆CPU性能瓶颈............................................................3三、供需失衡全面爆发,算力木桶新短板已现.......................................................6四、相关标的...................................................................................7风险提示.......................................................................................7 图表目录 图表1:全球企业活跃Agent关键数据预测,2025-2030..............................................4图表2:五大代表性Agent工作负载中的任务延迟分布..............................................5图表3:五大代表性Agent工作负载中的任务延迟分布..............................................5图表4:处理LangChain工作负载时,AMD Threadripper CPU和Nvidia B200 GPU的动态能耗........6图表5:KVCache卸载使得KVCache能够从有限的GPU内存中传输到更大且性价比更高的存储........3图表6:2025年Q2全球客户端CPU市场增长状况以及服务器与客户端CPU比例.....................6 一、三大逻辑揭示Agent对CPU的刚性需求 随着大模型的应用从简单的Chatbot向能完成复杂任务的Agent演进,计算负载的重心正在发生微妙的偏移。Agent不仅需要GPU进行模型推理,更依赖高性能CPU来处理复杂的逻辑编排、工具调用和内存管理。以下是我们认为Agent驱动CPU需求爆发的三大核心逻辑: ①Multi-Agent架构引发的OS调度压力 传统的LLM对话是线性的,而Agent的工作流则是复杂的闭环。“推理→执行→评估→反思”的循环机制:Agent需要在生成Token之外,执行大量的逻辑判断和状态管理。,模型需要不断在“思考”和“行动”之间切换。导致操作系统层面的上下文切换和进程调度任务大幅增加。 沙盒(Sandbox)需求飙升:Agent执行代码等操作经常需要在隔离的云端沙盒中运行。这些沙盒环境的启动、运行和销毁依赖CPU算力。 ②长上下文场景下的KV Cache卸载对CPU的挑战 naddod的技术文章阐述了其原理,键值缓存(KV Cache)可以加速Transformer推理,但它也会带来一个副作用:消耗大量显存。随着大型语言模型上下文长度的不断增长,这个问题会变得越来越突出。例如当上下文长度达到8万个token时,仅KV Cache本身就可能消耗数十GB的显存。更重要的是,GPU显存不仅要容纳KV Cache,还要容纳模型权重和中间计算结果。一旦显存耗尽,推理就会崩溃甚至失败。为了解决这一冲突,业界提出了键值缓存卸载(KV Cache Offload)方案。其核心思想是将GPU内存中不活跃或暂时未使用的键值数据迁移到其他存储介质例如CPU内存或者SSD。然而CPU与GPU之间的通信带宽远低于GPU内部的HBM带宽。而且在进行KV Cache传输和管理时,也需要CPU进行任务的调度,进一步加剧了CPU的负载。 NVIDIA2025年9月的一篇技术博客《How to Reduce KV Cache Bottlenecks with NVIDIADynamo》就专门阐述了在长上下文场景下,利用NVIDIA Dynamo等技术将KV Cache卸载到CPU内存的必要性,并指出这是解决HBM瓶颈的关键手段。 来源:Nvidia官网,国金证券研究所 ③高并发工具调用带来的CPU算力消耗 Agent的能力不仅在于对话,更在于使用工具,例如检索、写代码、浏览网页。这些非模型推理任务主要由CPU承担。前文五大代表性Agent工作负载中各项任务的延迟数据证明了这一点。而且在高并发场景下可能有大量Agent同时工作,这些任务需要高性能CPU进行多线程/多进程处理。 二、Agent生态扩张引爆CPU性能瓶颈 全球Agent生态将经历一场指数级的扩张。根据IDC最新的预测模型,能够在三个关键维度上看到极具张力的增长趋势:1.活跃Agent数量的激增 IDC预计,活跃Agent的数量将从2025年的约2860万,快速攀升至2030年的22.16亿。 这意味着五年后,能够帮助企业执行任务的数字劳动力数量将是今天的近80倍,年复合增长率139%,换言之,平均每年活跃Agent数量都将以超过一倍的速度增长。2.任务执行量的爆炸式增长 与数量相比,Agent真正干活的频率增长得更快,年执行任务数将从2025年的440亿次 暴涨至2030年的415万亿次,年复合增长率高达524%。这意味着,企业将越来越习惯把工作外包给Agent,从偶尔试用到深度依赖,Agent将无处不在地嵌入进企业的业务流中。3.Token消耗量的数量级跃迁 随着Agent处理的任务越来越复杂,所需推理深度与调用链路不断加长,底层Token消耗也将呈现数量级的跃迁。预计年度Token消耗将从2025年的0.0005 PetaTokens暴增至2030年的152,667 PetaTokens,年复合增长率高达3418%。这三组数字反映的并不只是Agent数量的增长,更是任务复杂度与推理深度的指数级提 升。 来源:IDC,国金证券研究所 Agent任务对CPU负载提出更高要求: 据英特尔与佐治亚理工学院2025年11月的论文《A CPU-CENTRIC PERSPECTIVE ON AGENTICAI》对代表性Agent任务进行了延迟、吞吐量和能耗指标的分析,揭示CPU相对于GPU对这些指标的显著影响,结果表明很多情况下GPU是Agent性能的瓶颈:在五大代表性Agent工作负载(HaystackRAG、Toolformer、ChemCrow、LangChain、SWE-Agent)中,.CPU.端的工具处理占延迟的.43.8%~90.6%.(如.ENNS.检索、WolframAlphaAPl.调用、文献搜索).,而.LLM.推理仅占较小部分。如HaystackRAG在.Natural.Questions.基准测试中检索耗时.8.0.秒(占总延迟.90.6%),LLM.推理仅0.5秒。2 个 来源:《A CPU-Centric Perspective on Agentic AI》,Ritik Raj, Hong Wang, Tushar Krishna,国金证券研究所 在GPT-OSS-20B模型的吞吐量测试中,随着Batch Size增加,不同Agentic工作负载的吞吐量增长逐渐放缓并趋于饱和:以Langchain为例,展示了当Batch Size达到128时,Langchain基准测试中各组件的平均耗时(数据显示批次大小为128时存在严重的CPU上下文切换瓶颈)。 来源:《A CPU-Centric Perspective on Agentic AI》,Ritik Raj, Hong Wang, Tushar Krishna,国金证券研究所 在处理LangChain工作负载时,AMD Threadripper CPU和Nvidia B200 GPU的动态能耗。关键转折点:在低Batch Size(如1-4)时,GPU能耗显著高于CPU。但随着Batch Size增加到128时,CPU的能耗(1807 Joules)已经非常接近GPU(2307 Joules) 来源:《A CPU-Centric Perspective on Agentic