您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [国金证券]:计算机:AI进入新临界点 - 发现报告

计算机:AI进入新临界点

信息技术 2026-02-01 刘高畅,陈芷婧 国金证券 Michael Wong 香港继承教育
报告封面

本周观点 Agent生态持续扩张。1)大模型公司Anthropic大幅上调未来数年的营收预测,预计今年销售额将增长四倍,达180亿美元,而明年将达550亿美元。其AI编码助手Claude Code去年11月的年化收入已超过10亿美元。2)1月27日月之暗面发布并开源K2.5模型,最大亮点在于Agent集群。K2.5能根据任务需求,现场调度多达100个分身,并行处理1500个步骤。3)AI助手Clawdbot近期爆火,不仅吸引大量开发者尝试,更引来腾讯云、阿里云等国内云厂商火速接入。Clawdbot能接管个人终端几乎所有任务。可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等,并且可以接入用户常用的聊天APP,通过WhatsApp、Telegram等平台发送指令。Clawdbot带来的“贾维斯”式的未来人机交互体验,为Agent形式打开了新的思路。 Agent驱动的强化学习(RL)时代,CPU可能比GPU更早成为瓶颈。与传统单任务RL不同,现代Agent系统需要同时运行成百上千个独立环境实例,"环境并行化"让CPU成为事实上的第一块短板。主要源于三大核心逻辑:1)Multi-Agent带来OS调度压力,Agent的“推理-执行-反思”循环机制需要操作系统层面频繁调度,且沙盒(Sandbox)的运行高度依赖CPU算力。2)为解决长上下文导致的GPU显存容量问题,业界采用KV CacheOffload技术将数据迁移至CPU内存,这不仅要求CPU具备大内存,还需其承担繁重的调度与传输任务。3)高并发工具调用:检索、编码、网页浏览等非模型推理任务上由CPU执行,在高并发场景下,多线程/多进程的处理需求推高了CPU的负载。 DeepSeek Engram架构或进一步推动以存代算。DeepSeek推出Engram架构,把大模型里的“计算”和“超大规模记忆”解耦,Transformer的算子全部在GPU/加速卡上计算,而1000亿参数的Engram表存储运行则在CPU内存中。此外Anthropic推出的Claude Cowork,通过知识库为Claude设计的一种全新永久记忆方式。我们认为,类Engram架构能有效突破GPU显存限制,从而推动以存代算需求和CPU配比提升。 Agent驱动存储需求持续增长。近期美国存储厂商陆续披露亮眼业绩。Agent的执行过程需要记忆以及上下文缓存,对存储带来了巨大需求。三星发布白皮书深入探讨了Agentic AI时代,利用SSD进行KV Cache Offloading,可以解决GPU显存瓶颈、提高推理性能并降低成本。在Agent环境中,多轮对话需反复处理相似提示词。若KV缓存仅存于GPU本地,会话迁移时需重新预填充,引入高延迟。通过将KV缓存卸载至SSD等共享存储,可实现跨节点快速恢复。投资建议 相关标的: 海外算力/存储:中际旭创、新易盛、兆易创新、大普微、中微公司、天孚通信、源杰科技、胜宏科技、景旺电子、英维克等;闪迪、铠侠、美光、SK海力士、中微公司、北方华创、拓荆科技、长川科技。 国内算力:寒武纪、东阳光、海光信息、协创数据、华丰科技、星环科技、网宿科技、首都在线、神州数码、百度集团、大位科技、润建股份、中芯国际、华虹半导体、中科曙光、润泽科技、浪潮信息、东山精密、亿田智能、奥飞数据、云赛智联、瑞晟智能、科华数据、潍柴重机、金山云、欧陆通、杰创智能。 CPU:海光信息、中科曙光、澜起科技、禾盛新材、中国长城、龙芯中科、兴森科技、深南电路、宏和科技、广合科技。 风险提示 行业竞争加剧的风险;技术研发进度不及预期的风险;特定行业下游资本开支周期性波动的风险。 内容目录 一、Agent生态持续扩张.........................................................................3二、三大逻辑揭示Agent对CPU的刚性需求.........................................................4三、Agent驱动存储需求持续增长.............................................................6四、相关标的...................................................................................8风险提示.......................................................................................8 图表目录 图表1:Kimi K2.5模型使用多个角色的agent集群完成综述.........................................3图表2:KVCache卸载使得KVCache能够从有限的GPU内存中传输到更大且性价比更高的存储........4图表3:五大代表性Agent工作负载中的任务延迟分布..............................................5图表4:五大代表性Agent工作负载中的任务延迟分布..............................................5图表5:处理LangChain工作负载时,AMD Threadripper CPU和Nvidia B200 GPU的动态能耗........6 一、Agent生态持续扩张 近期全球Agent生态进展不断,业界创新频出:大模型公司Anthropic大幅上调未来数年的营收预测,财联社1月28日报道Anthropic预计今年销售额将增长四倍,达180亿美元,而明年将达550亿美元。该公司旨在缩小与老对手OpenAI之间的营收差距。这些营收预测远高于Anthropic去年夏天的预测,反映了Anthropic近期的成功,包括其AI编码助手Claude Code的增长。该产品去年11月的年化收入已超过10亿美元,约占当时总年化收入的14%,这帮助该公司在去年年底实现了超过90亿美元的年化收入。不过,由于训练和运行其AI模型的费用也在增长更快,超过了收入,因此,Anthropic将预期现金流正增长的时间推迟到了2028年,比此前预测晚了一年。 1月27日月之暗面发布并开源K2.5模型,最大亮点在于Agent集群。面对复杂任务,K2.5不再是一个包揽一切的“全能专家”,而是化身为一支即时组建的“专业团队”。它能根据任务需求,现场调度多达100个分身,并行处理1500个步骤。所有的角色分配与任务拆解,无需预设,全由K2.5现场决策。 例如给Kimi Agent集群投喂40篇关于心理学和AI的论文。Kimi先是通过多次调用工具,按顺序把这40篇论文通读一遍,以此确保上下文里完整保留了所有必要信息。紧接着,它衍生出几个子agent,本质上是Kimi的「分身」,分别负责不同章节撰写。最后,主agent负责把关验收,将所有内容汇总生成了一份长达几十页的专业PDF综述。 来源:月之暗面kimi公众号,国金证券研究所 AI助手Clawdbot爆火,展现Agent新形态。第一财经1月29日报道,近期一款名为Clawdbot的AI助手近期从海外火到国内,成为 2026年开年最受瞩目的AI爆款。它不仅吸引大量开发者尝试,更引来腾讯云、阿里云等国内云厂商火速接入,提供一键部署服务。 通俗来说,Clawdbot如同一个线上版“贾维斯”,能接管个人终端几乎所有任务。作为一个免费开源项目,它迅速吸引了大量开发者与从业者参与测试并分享体验。Clawdbot可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等,并且可以接入用户常用的任何聊天APP,所有的操作均可通过WhatsApp、Telegram等平台完成,用户只需通过对话,就能 操控设备自动执行各类任务。Clawdbot甚至带火了苹果Mac mini,有不少人为了让Clawdbot24小时在线运行,专门去下单了一台,谷歌AI产品负责人Logan Kilpatrick就是其中之一。Clawdbot的核心设计理念是“本地运行”,它能深度访问用户的电脑系统、文件、应用和聊天记录,因此,将它部署在独立的Mac mini上,可以避免与主力工作电脑混用,最大程度保障隐私和系统安全。目前Clawdbot更像是少数极客的尝鲜项目。然而它所带来的“贾维斯”式的未来人机交互体验,为行业打开一扇新的窗口。 二、三大逻辑揭示Agent对CPU的刚性需求 随着大模型的应用从简单的Chatbot向能完成复杂任务的Agent演进,计算负载的重心正在发生微妙的偏移。Agent不仅需要GPU进行模型推理,更依赖高性能CPU来处理复杂的逻辑编排、工具调用和内存管理。以下是我们认为Agent驱动CPU需求爆发的三大核心逻辑: ①Multi-Agent架构引发的OS调度压力 传统的LLM对话是线性的,而Agent的工作流则是复杂的闭环。“推理→执行→评估→反思”的循环机制:Agent需要在生成Token之外,执行大量的逻辑判断和状态管理。,模型需要不断在“思考”和“行动”之间切换。导致操作系统层面的上下文切换和进程调度任务大幅增加。 沙盒(Sandbox)需求飙升:Agent执行代码等操作经常需要在隔离的云端沙盒中运行。这些沙盒环境的启动、运行和销毁依赖CPU算力。 ②长上下文场景下的KV Cache卸载对CPU的挑战 naddod的技术文章阐述了其原理,键值缓存(KV Cache)可以加速Transformer推理,但它也会带来一个副作用:消耗大量显存。随着大型语言模型上下文长度的不断增长,这个问题会变得越来越突出。例如当上下文长度达到8万个token时,仅KV Cache本身就可能消耗数十GB的显存。更重要的是,GPU显存不仅要容纳KV Cache,还要容纳模型权重和中间计算结果。一旦显存耗尽,推理就会崩溃甚至失败。为了解决这一冲突,业界提出了键值缓存卸载(KV Cache Offload)方案。其核心思想是将GPU内存中不活跃或暂时未使用的键值数据迁移到其他存储介质例如CPU内存或者SSD。然而CPU与GPU之间的通信带宽远低于GPU内部的HBM带宽。而且在进行KV Cache传输和管理时,也需要CPU进行任务的调度,进一步加剧了CPU的负载。 NVIDIA2025年9月的一篇技术博客《How to Reduce KV Cache Bottlenecks with NVIDIADynamo》就专门阐述了在长上下文场景下,利用NVIDIA Dynamo等技术将KV Cache卸载到CPU内存的必要性,并指出这是解决HBM瓶颈的关键手段。 来源:Nvidia官网,国金证券研究所 ③高并发工具调用带来的CPU算力消耗 Agent的能力不仅在于对话,更在于使用工具,例如检索、写代码、浏览网页。这些非模型推理任务主要由CPU承担。前文五大代表性Agent工作负载中各项任务的延迟数据证明了这一点。而且在高并发场景下可能有大量Agent同时工作,这些任务需要高性能CPU进行多线程/多进程处理 据英特尔与佐治亚理工学院2025年11月的论文《A CPU-CENTRIC PERSPECTIVE ONAGENTIC AI》对代表性Agent任务进行了延迟、吞吐量和能耗指标的分析,揭示CPU相对于GPU对这些指标的显著影响,结果表明很多情况下GPU是Agent性能的瓶颈:在五大代表性Agent工作负载(HaystackRAG、Toolformer、ChemCrow、LangChain、SWE-Agent)中,.CPU.端的工具处理占延迟的.43.8%~90.6%.(如.ENNS.检索、WolframAlphaAPl.调用、文献搜索).,而.LLM.推理仅占较小部分。如H