您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[东吴证券]:半导体行业深度报告:Agentic AI时代的算力重构:CPU,从“旁观者”到“总指挥”的价值回归 - 发现报告

半导体行业深度报告:Agentic AI时代的算力重构:CPU,从“旁观者”到“总指挥”的价值回归

AI智能总结
查看更多
半导体行业深度报告:Agentic AI时代的算力重构:CPU,从“旁观者”到“总指挥”的价值回归

AgenticAI时代的算力重构:CPU,从“旁观者”到“总指挥”的价值回归 2026年01月28日 证券分析师陈海进执业证书:S0600525020001chenhj@dwzq.com.cn证券分析师李雅文执业证书:S0600526010002liyw@dwzq.com.cn 增持(维持) ◼从对话模型到行动智能体:Agent架构重塑CPU与GPU分工:市场认为AI算力=GPU,CPU只是负责调度。但AI落地方向来到Agent,由“纯对话”转向“执行任务”时,算力需求发生了结构性分化。1)执行控制流CPU化:Agent的行动阶段是大量if/else判断与系统调用。Manus等主流Agent架构为每个Agent/任务分配一个隔离的云端虚拟机,不同任务在逻辑上高度异构(如网页浏览、代码修改、环境部署等),任务之间可并行但控制流完全不同。分支类任务不适合由GPU执行,因控制流发散导致算力利用率急剧下降。而分支类任务却正是CPU微架构长期优化的主战场。2)记忆体系去GPU化:在Agent场景下,长上下文推理会产生巨大的KV cache,其占用随对话轮次与上下文长度线性增长,快速耗尽GPU HBM容量。而CPU搭配大容量DDR5 / LPDDR5(并通过CXL扩展)承载KV Cache与部分参数,正在成为兼顾吞吐、扩展性与成本效率的主流架构选择。 相关研究 ◼Agent软件基础设施加速落地,CPU多核化与需求放量进入确定性通道:从实验数据复盘来看,CPU成为Agentic AI的真实瓶颈。研究显示,在完整的Agent执行链路中,工具处理相关环节(检索、Python/Bash执行、Web请求等)在CPU上消耗的时间占端到端延迟的比例最高可达90.6%。在高并发场景下(Batch Size提升至128),CPU端到端延迟从2.9秒跃升至6.3秒以上。我们认为研究结果揭示了在大量Agentic场景中,系统吞吐受限的并非GPU计算能力,而是CPU的核心数并发调度问题。我们由此判断,进入Agent时代后,CPU侧的工具执行与调度能力将从GPU的附属角色,演化为需要被单独规划与优化的核心资源池。 《关注AI算力需求快速发展,看好国产设备商充分受益》2025-07-19 《长鑫存储启动上市辅导,看好国内先进制程扩产利好国产设备商》2025-07-08 产业端推进方面,AWS和Google Cloud等头部CSP正在加速建设面向Agent的沙盒环境软硬件基础设施,率先在软件层面强化Agent Sandbox的隔离与编排能力,通过运行时与调度体系的完善,为后续CPU侧基础设施规模化部署奠定基础。与此同时,CPU龙头也在Agent驱动下向超多核架构演进:AMD推出的Turin最高可达192核;Intel的SierraForest采用纯能效核设计,核心数可达144甚至288核。我们认为,随着Agent商业化推进,厂商必须持续压低每次任务执行成本。在这一目标下,超多核CPU以更高的并行度、更低的单位功耗,支撑大规模、长期运行的Agent执行环境。英伟达亦在新架构中提升CPU配比,CPU的重要性抬升,挂钩Agentic的叙事。我们认为NVIDIA主动提升CPU权重,等同于在系统层面确认:在长上下文与高并发Agent场景中,大内存CPU是承载海量KV Cache的最优容器。 ◼投资建议:我们看好海光信息与澜起科技,前者受益于Agentic AI推动CPU从调度走向高并发执行的核心算力地位抬升,后者受益于长上下文与高并发场景下CXL驱动的“存力+算力”协同升级。建议关注龙芯中科,万通发展(数渡科技)。 ◼风险提示:Agent落地节奏不及预期风险;新型硬件架构替代风险; CSP资本开支波动风险。 内容目录 1.1.主流Agent形态从模型推理走向“浏览器+代码执行”...........................................................41.2.为何CPU在Agent时代具有不可替代性...............................................................................41.2.1. Agent执行阶段的离散控制流决定CPU优于GPU......................................................51.2.2.长上下文推理亦推升CPU侧内存连接需求................................................................5 2. Agent软件基础设施加速落地,CPU多核化与需求放量进入确定性通道..................................7 2.1. Agentic AI的系统瓶颈已由GPU计算转向CPU并发调度...................................................72.2. CPU龙头迭代方向明确:Agent驱动下的超多核架构演进..................................................82.3.自研CPU继续加码,挂钩Agentic的叙事............................................................................92.4. Engram架构重构记忆路径,CPU重要性进一步强化........................................................10 图表目录 图1:OpenAI的Agent模式集成多种工具调用形态.........................................................................4图2:Manus沙盒...................................................................................................................................4图3:不同GPU在不同Warp分支发散程度下性能表现(单位:毫秒)......................................5图4:CPU在复杂任务编排中具备同步与调度能力..........................................................................5图5:Agent任务中,CPU占据端到端总延迟的绝大部分...............................................................7图6:Intel Xeon 6700/6900代数据中心CPU的核心数最高可达288核.........................................8图7:AMD数据中心CPU核心数持续上行......................................................................................9图8:英伟达GB200 Grace Blackwell Superchip结构图..................................................................10图9:DeepSeek明确由CPU调度Engram数据库,CPU重要性凸显..........................................10图10:AMD营收拆分及盈利预测(亿美元)................................................................................11图11:Intel营收拆分及盈利预测(亿美元)..................................................................................11图12:海光信息CPU代际梳理.........................................................................................................12 1.从对话模型到行动智能体:Agent架构重塑CPU与GPU分工 1.1.主流Agent形态从模型推理走向“浏览器+代码执行” Agent的本质是运行在一个具备操作系统能力的云端沙盒计算环境中。我们认为Agent的能力跃迁,并非来自在GPU上堆叠更多token进行推理,而是来自调用外部系统(浏览器、文件系统、终端、网络)完成真实世界任务。在成熟Agent架构中,GPU只是被操作系统调度的加速器,Agent的“身体”是一台完整的云端计算机。OpenAI官方披露,ChatGPTAgent通过视觉浏览器、代码解释器等工具完成复杂多步骤任务,能力不局限于模型内部推理。Manus将产品目标明确表述为:不仅思考,更要替用户行动。其核心基础设施是Manus沙盒——一台真实的云端电脑/虚拟机: ➢任务级隔离:每个Agent/任务分配一台独立云端虚拟机,任务间完全隔离,可并行执行。 ➢完整计算环境:VM具备操作系统级能力,包括网络、文件系统、浏览器、终端与各类软件工具。 主流Agent架构为每个Agent配备一台云端电脑,Agent并非直接运行在GPUKernel上,而是运行在具备完整操作系统能力的云端计算环境中。Logto的技术分析指出,Manus云端浏览器本质是运行在云端的私有浏览器环境,可维持登录状态与会话连续性。据E2B,Manus多Agent系统需要完成网页浏览、文件搜索、终端命令等复杂任务,因此需要一台完整的云端电脑。LatentSpace更是指出,包括Mistral、Perplexity、HuggingFace、LMArena、Gumloop等在内的Agent系统,均采用“每个Agent配一台云端电脑”的架构范式。 数据来源:Manus,东吴证券研究所 数据来源:OpenAI,东吴证券研究所 1.2.为何CPU在Agent时代具有不可替代性 1.2.1.Agent执行阶段的离散控制流决定CPU优于GPU Agent运行在沙盒化的通用计算机环境中,这一执行形态决定了其工作负载天然呈现高度分支化与强控制流特征。Manus为每个Agent任务分配一个隔离的云端虚拟机,不同任务在逻辑上高度异构(如网页浏览、代码修改、环境部署等),任务之间可并行但控制流完全不同。 分支类任务不适合由GPU执行,控制流发散导致算力利用率急剧下降。英伟达在其CUDA官方文档中明确指出,GPU采用SIMT执行模型:线程以32个为一组(warp),在同一周期内执行同一条指令。一旦同一warp内线程进入不同分支路径(WarpDivergence),GPU会将不同分支串行执行,不属于当前分支的线程被mask掉,直接导致吞吐下降。实验结果显示,即便是有限程度的分支发散,也会显著拉长执行时间。在32路完全发散的极端情况下,性能下降可达27-125倍,等效算力利用率仅剩个位数百分比。因此,分支类任务不适合由GPU执行,是GPU编程中需要避免的情形。 CPU为复杂控制流而生,天然适配Agent的执行特征。现代服务器CPU(如AMDEPYC、Intel Xeon)属于典型MIMD架构:每个核心拥有独立的程序计数器、指令缓存与解码逻辑;不同核心可完全独立执行不同控制流。微架构层面,CPU专门为复杂逻辑分支进行了长期演进:真实通用程序中,平均每5–7条指