2026年01月22日14:44 关键词 CPU GPU n gramMOE长文本效率需求价格AI推理模型能耗供应链成本国产化内存优化协调堵点协同调度 全文摘要 随着人工智能(AI)时代的到来,CPU资源需求显著增加,主要源于推理、数据库检索、Python执行等任务的激增。尽管技术创新旨在减轻GPU负载,实际上却导致CPU负担加重,尤其是在处理大规模文本、MOE模型和n gram架构等场景下。从技术、地缘政治到能效革命等多角度分析,CPU需求上升受到美国对华高性能CPU禁售、国内对国产CPU依赖增强及能效比提升等因素影响。 CPU的复仇–被低估的协调效率-20260121_导读 2026年01月22日14:44 关键词 CPU GPU n gramMOE长文本效率需求价格AI推理模型能耗供应链成本国产化内存优化协调堵点协同调度全文摘要 随着人工智能(AI)时代的到来,CPU资源需求显著增加,主要源于推理、数据库检索、Python执行等任务的激增。尽管技术创新旨在减轻GPU负载,实际上却导致CPU负担加重,尤其是在处理大规模文本、MOE模型和n gram架构等场景下。从技术、地缘政治到能效革命等多角度分析,CPU需求上升受到美国对华高性能CPU禁售、国内对国产CPU依赖增强及能效比提升等因素影响。同时,探讨了GPU与CPU协同调度优化策略以提升计算效率,以及供应链安全和国产CPU发展机遇等未来趋势。整体上看,AI时代凸显了CPU的重要性,协调效率成为瓶颈,预计未来CPU需求将持续增长,价格可能维持高位。 章节速览 00:00 AI时代CPU需求激增:技术革新与地缘战略的双重驱动 在AI时代,尽管GPU算力需求受到关注,但技术革新如n-gram架构、检索增强生成、MOE模型以及长文本处理,以及地缘战略和能效革命,共同推动了CPU需求的显著增长。这些技术进步不仅减轻了GPU负担,还极大地提升了CPU的调度和管理任务,导致CPU需求激增。同时,美国对华的GPU禁售和CPU在能效方面的优势,进一步加速了CPU在AI应用中的复兴。未来,CPU需求的上涨趋势可能持续,其协调效率和功能的重要性日益凸显。 05:05 N-gram架构对CPU需求增长的影响分析 N-gram架构通过存储分层卸载技术、异构计算以及大内存寻址功能,显著增加了CPU的依赖和开销。存储分层卸载技术导致数据搬运调度完全由CPU控制,当请求样本数量超过32时,地址翻译耗时成为延迟的主要原因。异构计算虽缓解了GPU压力,但增加了CPU同步和协调的资源开销,使CPU利用率从85%降至50%左右。大内存寻址功能将CPU内存比作百科全书,支持1TB内存寻址,但管理大内存列表和跨区访问消耗大量CPU资源,每增加100GB内存寻址空间,CPU开销增加约18%。 08:33 AI代理时代的计算资源挑战与模型创新 随着AI代理时代的到来,单次推理演变为复杂任务执行,增加了CPU负载,打破了GPU越多越快和模型越小越省成本的假设。大模型对GPU的门槛降低,CPU协调效率成为新壁垒,促使技术架构创新。近期的涨价热潮也反映了行业对资源需求的新认识。 10:40供需逻辑分析:AI推理与国产化驱动CPU需求激增 对话深入探讨了AI推理需求、国内信创加AI推动及供应链反馈导致的CPU需求激增现象。海外AI推理对CPU需求显著提升,国内党政信创要求CPU国产化,新基建招标明确算力标准,加之供应链恐慌性囤货及地缘政治影响,共同推高CPU价格与需求。英特尔等供应商产能调整,国产CPU虽产能利用率高,但良率不足,供需矛盾加剧。 15:11 M架构对产业链效率影响及CPU压力缓解策略 讨论了M架构对产业链效率的提升作用,指出虽GPU成本下降但整体成本上升,CPU成为瓶颈导致系统效率降低。分析了CPU面临的困境,包括路由计算、内存管理等,并提出产业界正通过精细化调度实现CPU与GPU的协 同加速,以缓解CPU压力,提升计算系统效率。 18:08优化CPU与GPU协作提升系统效率 通过分批次处理任务和自适应调度策略,优化CPU与GPU的协作,显著降低延迟和能耗。具体措施包括限制每批次任务数量、按任务特性分配计算资源、实施资源隔离与动态调整,以及采用预分配专家权重、DMA引擎加速数据传输和算子融合等技术,有效缓解CPU瓶颈,提升系统整体性能。 21:36 AI时代CPU需求激增与国产化机遇 对话深入探讨了AI时代CPU需求激增的现象,指出海外云厂商加大采购力度,国内信创和AI双轮驱动下国产CPU迎来机遇。供应链安全成为新焦点,国产CPU如鲲鹏、飞腾、龙芯等在性能和性价比上展现优势,未来需优化系统性能与协同调度,提升计算效率。 发言总结 发言人1 他讨论了人工智能时代下CPU需求增长的原因和趋势。随着AI技术,如N-gram架构、检索增强和MOE等的应用,对CPU资源的需求显著增加,最初旨在减轻GPU负担的技术最终导致了CPU资源需求的上升。从地缘政治和能效革命的角度看,CPU需求也在增加,特别是在中国市场,由于信创政策和AI新基建的需求,国产CPU的采购需求显著增加,引发价格波动。他还提到了缓解CPU压力的策略,如CGAM方法和任务分类自适应策略。他预测未来CPU需求将持续增长,强调了CPU在AI时代的重要性,以及供应链安全和国产CPU的历史机遇。 要点回顾 在AI时代,从推理的角度看,一些具体步骤如数据库检索、Python执行、训练册的人类反馈、数据清洗和奖励模型打分等为何会占用大量CPU资源? 发言人1:这些步骤在实现上,尽管最初目标是为了节省GPU负载以提升整体效率,但实际上都导致了CPU资源需求的增加。例如,通过诸如n gram架构、检索增强生成以及MOE等创新设计,虽然旨在减少GPU需求,但最终结果却导致了CPU负载的上升。 MOE模型和长文本长上下文是如何影响CPU需求的? 发言人1:MOE模型(混合专家模型)相较于传统的稠密模型,通过将任务分派给多个专长的“厨师”(即子模型),降低了GPU需求,但也极大地增加了CPU的需求,因为它负责调度和协调这些子模型。而长文本长上下文设计是为了节省GPU内存,却将原本放在GPU小本子中的内存需求转移到了CPU必须管理的大内存中,同样带来了CPU大量的需求。 从宏观维度看,哪些因素也在提升CPU的需求? 发言人1:宏观层面,地缘战略如美国对华禁售高端芯片以及能效革命成为推动CPU需求大幅增长的两个重要因素。国内探索使用CPU集群进行量化和推理,意外验证了32核CPU在运行大语言模型时性价比很高,同时海外厂商也在跟进。此外,阿姆的CPU每token处理能耗远低于AA700,并且CPU集群通过液冷技术能达到接近1.1的PUE,这些都促使CPU技术得到复兴。 当前AG(AI)时代瓶颈是否转移到CPU协调效率上? 发言人1:是的,当前AG时代真正的瓶颈已从GPU算力转移到CPU协调效率,这是供需关系变化和行业发展的新趋势。CPU的涨价可能不是暂时现象,而是长久需求增长的表现。 n gram架构是如何带来CPU需求增长的? 发言人1:n gram架构带来的CPU需求增长主要体现在三个方面:一是其存储分层卸载技术使得大部分数据搬运调度由CPU控制,当请求样本数量大于32时,CPU地址翻译耗时可能占据延迟的三分之一以上;二是异构计算导致的CPU同步和协调资源开销增大;三是n gram提供了一TB的内存寻址能力,相较于普通256GB限制,极大地增加了内存管理和跨区访问的CPU开销,每增加100GB内存选址空间,CPU开销会增加约18%。 在当前AI时代背景下,为什么之前的GPU越多越快的假设被打破,并且CPU成为瓶颈的情况更加明显? 发言人1:随着AI技术的发展,尤其是代理AI任务的出现,其执行过程需要多次推理和调用工具、等待结果等步骤,这使得对CPU的需求增加。此外,除了GPU计算外,还涉及到数据库检索、网络请求、文档解析等能力,这些大多只能在CPU上运行,且部分MOE模型在动态加载参数时对内存要求较高,进一步加剧了CPU的压力。 AI领域对CPU需求的变化是否改变了大家默认的一些假设? 发言人1:是的,两个被默认的假设被证伪了。一是GPU数量并非与计算速度直接挂钩,当CPU成为瓶颈时,多GPU配置与双GPU配置在任务吞吐量上的差距可能并不大。二是模型大小并不直接与成本成正比,一些较小模型在处理CPU开销时,其成本可能远高于大型模型。 Deep Seek在CPU架构创新方面有哪些举措? 发言人1:Deep Seek的创新体现在NM架构上,一方面降低了大模型对GPU的依赖,提升了CPU的协调效率,另一方面也看到了近期CPU涨价潮的现象。 需求端对CPU需求增加的主要影响因素有哪些? 发言人1:主要有三个方面:一是海外AI推理领域发现CPU表现优秀,采购量显著增长;二是边缘侧如自动驾驶、智能制造等领域的AI需求爆发,对CPU的需求也随之增长;三是国内信创+AI的推动下,党政机关要求CPU国产化接近百分之百,同时新基建和智能中心招标明确要求CPU算力不低于GPU算力的1.5倍,导致CPU需求大增。 供应链反馈是否也对CPU价格上涨起到推动作用? 发言人1:是的,供应链方面存在恐慌性囤货现象,受地缘政治影响,服务器ODM厂商提前锁定全年CPU用量,预付款增加,同时现货价格有所上涨,部分型号甚至出现接近二三十的涨幅。此外,芯片供应商如英特尔的战略收缩以及台积电产能被其他大客户占用,都导致了CPU供应量缩减,而国产CPU先进制程良率偏低,整体供应存在不足。 AI技术进步是否实际提升了整个产业链的效率? 发言人1:虽然N gram架构提出能够实现GPU降本和整体效率提升,但实际情况是,由于CPU成为瓶颈,整体成本有所上升。同时,MOE架构和长文本处理导致CPU压力增大,GPU利用率下降,计算系统的整体效率并未得到有效提升。CPU面临的困境包括路由计算、内存管理、寻址空间以及动态加载等,这些都会降低整个计算系统的效率。 n gram模型在使用中是否给CPU带来了过大的压力,以及业界如何缓解这一压力?M公司提出了哪些补丁方案来缓解CPU瓶颈问题? 发言人1:是的,n gram模型在运行时可能会对CPU造成较大压力。为了解决这个问题,产业界正在探索通过协调CPU和GPU的调度来优化计算系统的效率,前提是承认两者都是性能瓶颈。具体解决方案之一是采用CGAM方法,通过设置请求任务的数量(例如将大任务分批处理),以时间换取效率,降低CPU调度负担并充分利用GPU能力,从而节省约1.5倍的CPU能耗。M公司提出了几种补丁方案,包括专家权重的精细化调度:一是将专家权重在节点上预分配,减少跨节点访问;二是设置DMA引擎直接在内存间搬运数据,避免过多CPU资源消耗;三是融合不同算子,如路由和工具调度能力,减少内核切换带来的效率损失,从而提高整体效率。 对于CPU调用较多和大模型推理任务场景,业界采取了什么策略? 发言人1:在这些场景下,业界采用了一种自适应策略,根据任务类型将任务分配给更适合执行的硬件(CPU或GPU)。例如,增强检索和代码执行等任务更适合由GPU完成,而纯文本生成等大模型友好型任务则由CPU处理。此外,通过资源隔离和动态调整,确保大模型任务不占用CPU资源,反之亦然,并通过并行任务优化及动态调整资源分配,以减少混合负载并最大化效率。 未来对CPU的需求是否会有延续性? 发言人1:综合判断,未来对CPU的需求将延续。海外如美国三大云厂商正在囤货,并增加对长久性内存介于DRAM和显存之间的VAM内存的采购;国内在信创和AI双轮驱动下,国产CPU如海光和飞腾的AI顶级CPU也出现溢价和热销现象,且智能中心对稳定运行新架构的CPU需求加大。同时,供应链方面存在对前期预测失误、产能约束和囤货导致的恐慌加剧等问题,尤其是国产化带来的议价压力和供应链安全的重要性日益凸显。 当前A