2026年03月22日21:02 关键词 AI算力基建推理任务存储系统数据精度高并发长文本存储架构延时系统低延时互联芯片存储层级硬件资源系统效能GPU CPU存储SSD DPU CXL HBM 全文摘要 当前,人工智能(AI)算力基础设施建设正处于快速发展阶段,主要关注AI推理任务对硬件需求的演进以及技术栈的变化。随着推理任务的增加,KV缓存的存储需求显著上升,为应对这一挑战,提出了缓存复用、主动丢弃和缓存下移等多种解决方案。此外,讨论着重于存储系统优化,包括内存分层架构和高速通信技术的应用,如英伟达的Bluefield DPU和CXL,以及CPU角色的转变,以提高AI推理任务的执行效率。 AI算力基建的下半场-20260320_导读 2026年03月22日21:02 关键词 AI算力基建推理任务存储系统数据精度高并发长文本存储架构延时系统低延时互联芯片存储层级硬件资源系统效能GPU CPU存储SSD DPU CXL HBM 全文摘要 当前,人工智能(AI)算力基础设施建设正处于快速发展阶段,主要关注AI推理任务对硬件需求的演进以及技术栈的变化。随着推理任务的增加,KV缓存的存储需求显著上升,为应对这一挑战,提出了缓存复用、主动丢弃和缓存下移等多种解决方案。此外,讨论着重于存储系统优化,包括内存分层架构和高速通信技术的应用,如英伟达的Bluefield DPU和CXL,以及CPU角色的转变,以提高AI推理任务的执行效率。尽管面临资本支出(Capex)的挑战,AI算力市场仍显示出巨大潜力,得益于AI收入的增长和用户对高性能算力需求的增加。未来,AI算力基建的发展被看好,尤其是在AI应用和收入增长的推动下。 章节速览 00:00 AI算力基建技术需求与市场分析 从技术栈角度出发,分析了AI算力硬件需求的演化,指出推理任务的爆发导致硬件需求变化,强调了KV缓存架构创新及CPU在AI硬件中的重要性提升,展现了AI算力基建从GPU主导向系统级资源调动的转变。 01:29 KV Cash存储问题与长文本、高并发场景的挑战 对话讨论了在推理任务中,随着模型层数、注意力头维度和数据精度的增加,KV Cash存储需求显著增长的问题。尤其在长文本处理和高并发场景下,KV Cash的存储开销成为系统瓶颈。此外,端测部署Agent时引入的外部知识库也加剧了存储压力。针对这些挑战,需要寻找优化KV Cash存储的方法。 03:55解决KV Cache问题的模型与系统优化策略 对话讨论了主流业内针对KV Cache问题的解决策略,包括模型和算法层面的复用、主动丢弃和offload,以及系统层面的KV数据路径重构。复用策略利用高并发场景下的共享KV Cache;主动丢弃通过算法优化如滑动窗口注意力机制减少KV Cache;offload将不常用KV Cache移至远端或经济内存。系统层面,通过重构KV数据路径,利用decode卡的闲置带宽绕过IO瓶颈,优化整体效能。 07:22模型与算法推动存储分层架构 对话探讨了模型和算法的技术路线变化如何催生存储分层架构,通过优化内存使用,如将简单推理任务从GPU转移到CPU内存,降低系统成本并提升效能。未来,硬件架构和互联芯片的改进将进一步降低延时,实现更高效的存储分层。 10:39存储层级优化与未来技术趋势探讨 讨论了存储层级优化策略,包括GPU直接访问SSD、HBM堆叠技术及CXL协议在高速存储访问中的应用,强调了DPU、CXL三代及光交换方案对未来存储池化的重要支撑作用。 14:35 AI推理架构下CPU与GPU协同演进趋势 讨论了AI推理架构中CPU角色的转变及其与GPU的协同工作模式,指出CPU正从GPU附属调度单元升级为参与推理核心环节的关键处理器,形成GPU计算与CPU控制执行的双引擎架构。此外,CPU有望向高带宽数据设备演进,实现内存池化与扩展性提升,同时针对不同工作负载持续分化,与加速器边界趋于模糊,未来可能融合成为数据流调度的基础控制单元。 18:50 AI算力需求激增与capex困境探讨 讨论了AI算力需求增长,特别是coding agent推动下tokens消耗激增,以及行业面临的capex困境。提到全球算力周期、模型厂商出海逻辑、硬件降本趋势和AI算力基建投资叙事延续性。通过大厂不定期披露和三方接口数据,展示了token使用量变化,强调代码类应用和角色扮演任务占比提升。 21:30中国开源模型API调用量增长趋势及算力需求分析 中国开源模型在2025年三季度后API调用量显著增加,2026年2月16日至22日周度数据中,中国模型调用量首次超越美国,占据前五名中的四席。基于Open Water平台数据,轻度至重度用户每日token消耗量级分别为5000至20万、220万至150万、高达500万。每月token消耗量已达到数千万亿甚至1亿级别,较去年增长上百倍,反映出国内厂商算力需求的紧迫性。 23:39 AI公司年化收入预测与硬件成本优化探讨 讨论通过假设不同用户等级的tokens消耗,预测了某AI公司年化收入,指出模型可能过于激进,未充分考虑免费用户影响及企业客户批量折扣。强调硬件端优化,特别是GPU成本效率提升,对降低推理成本的重要性。通过实例分析,展现了顶级GPU在提升单卡吞吐量方面的显著进步,指出硬件迭代对推动技术发展和降低成本的关键作用。 28:46 AI基建投资与收入增长的挑战与机遇 对话讨论了AI基建投资与收入增长之间的挑战,指出头部互联网厂商资本开支与经营现金流的高比例关系,以及当前收入与预期目标的较大差距。尽管存在困难,但基于真实token消耗和用户付费意愿提升,预计AI基建投资将呈现强劲增长,有望在未来几年内实现1000亿美元的营收目标,形成飞轮效应的超级周期。 发言总结 发言人1 他讨论了AI算力基础设施的发展现状,强调该领域仍处于早期阶段而非进入下半场。他深入分析了市场需求和技术发展对AI算力硬件提出的新要求,特别是KV缓存架构创新、CPU系统资源调度以及硬件底层技术的根本变革。在推理系统中,KV缓存面临巨大挑战,如存储量随模型复杂度增加而急剧上升,导致存储和内存瓶颈。为应对这些挑战,提出了KV缓存复用、主动数据丢弃和offload技术等策略。同时,AI模型和算法的演进推动了存储架构的分层,这对硬件架构和CPU、GPU协同工作方式产生了深远影响。他还指出,尽管面临资本开支(CapEx)挑战,但技术进步和成本优化为实现可持续增长提供了可能。最后,他传达了一个积极的信息,认为随着技术不断进步和用户付费意愿增强,AI算力基础设施的投资和增长潜力巨大。 要点回顾 AI算力基建是否处于发展的下半场? 发言人1:不是,AI算力基建现在应该是一个刚开始或蓬勃发展中的行业。 AI算力硬件需求发生了哪些变化? 发言人1:随着推理任务爆发,对硬件需求发生了很大变化,尤其是KV(键值对)存储架构创新和CPU使用调度需求增加,不再仅限于GPU。 KV cash在推理过程中的主要问题是什么?导致KV cash需求量提升的因素有哪些? 发言人1:在推理过程中,随着模型层数、注意力投诉、每个头的维度以及数据精度等因素增加,KV cash的存储量会随着推理任务量的增长而快速上升,导致存储受限和成本瓶颈。多环节交互、高并发访问以及端测部署agent引入外部检索文档等都会使KV cash的需求量线性外扩。 业界如何应对KV cash存储开销的问题? 发言人1:业界主要有三种解决方案:一是KV cash复用,在高并发场景下利用共享热点;二是主动丢弃,在长文 本和大量外部文档输入时,通过算法优化压缩或丢弃部分KV cash;三是KV cash offload,即将部分KV cash存储在更远端、经济的地方,如远端节点或内存中。 是否还有其他方式改善系统效能? 发言人1:除了模型层面的优化,现在的系统infer层面也在进行KV数据路径重构以提升整体效能,例如DP最新论文提到的方法。 在面对长文本推理任务时,您如何处理在近端放不下的大容量KV cash? 发言人1:在处理这种问题时,由于预览过程会产生很大的KV cash容量,而近端存储空间有限,所以会将这些数据放在远端服务器中。如果直接从远端读取数据,会遇到网卡带宽瓶颈,导致GPU核的闲置利用率很高。为了解决这个问题,Deep SIK提出了一种全局映射优化方案,即利用解码器(decode)的闲置带宽,通过绕远的方式将数据从远端内存加载到预览卡上,从而打破了IO瓶颈。 针对KV开始的优化问题,目前主要采用哪些解决方案? 发言人1:目前主要采用两大类解决方案。一类是从模型和算法层面进行优化,例如复用、丢弃部分数据或将数据存储在更便宜的内存中。另一类是在存储端通过系统层面的优化来解决,比如采用分层存储架构,根据数据的访问频率和重要性分配到不同层级的存储中,如HBM、DRAM、SSD和HDD等。 为什么现在会出现分层存储架构,并举例说明?存储分层架构对未来的发展趋势是什么? 发言人1:分层存储架构的出现主要是由于模型和算法技术路线的变化,例如Google的GMA 3和Deep SIK的in gram等项目,它们通过固定的索引或推理方式高效利用有限的硬件资源,采用查表等方法减少对计算资源的消耗。例如,在简单且直观的推理任务中,如查询“法国的首都是哪里”,可以将信息存放在CPU内存中并由CPU查找,这样既降低了系统成本,也实现了存储的分层优化。随着模型和算法技术的发展,分层存储架构将成为常态。未来的系统会根据存储延时需求和容量大小对存储进行分层使用,如HBM延时最低,CPU内存、SSD、HDD等层级依次升高。同时,硬件层面还会通过低延时架构和互联芯片的变化进一步优化存储架构,以实现更高效率的数据通信和存储使用。 英伟达在存储访问方面做了什么创新? 发言人1:英伟达通过DPU和新型网卡技术,实现了GPU直接通过BS4网卡访问local SSD,降低了时延,并且未来可能会出现类似HBM的高带宽闪存技术,进一步提升存储访问效率。 CXL在存储领域的应用及其发展趋势如何? 发言人1:CXL作为一种新兴协议,允许高速访问跨机柜的内存扩展模块和其他存储资源,目前正式商用的是二代产品,随着三代CXL与新一代CPU的结合,将实现基于PCIE语义的快速访问SSD和DRAM等存储设备,成为存储池化的重要技术支撑。 CPU在AI推理任务中的角色发生了怎样的转变?为了适应AI推理任务对内存带宽的需求,CPU有哪些演进趋势? 发言人1:在AI推理任务中,CPU的角色正在从GPU附属调度单元转变为直接参与推理核心环节的关键处理器。随着任务复杂度增加,CPU负责控制与执行逻辑,而GPU则主要处理计算密集型任务。为了满足高带宽需求,CPU正在向高带宽数据设备演进。具体方案包括LPDDR5和DDR5X直连,以及下一代采用so模组来提升峰值内存带宽;同时,对于叉86 CPU,使用第二代MRDM模组以达到与GPU相当的带宽水平。 CPU在不同工作负载下的分化趋势是怎样的? 发言人1:CPU将会持续分化以匹配不同的工作负载需求,例如有些CPU仅负责节点控制与分发,有些则需要强大的计算能力和数据管理功能,因此不同场景下CPU的产品线将有所区别。 AMD和英特尔在处理器设计上是如何区别的?DPU在数据中心架构中的角色以及未来发展趋势是怎样的? 发言人1:AMD采用了一种简单的设计,大河负责处理大型任务,小河则负责小型事务。而英特尔则集成了高性能核(P核)和经济核(E核)的设计。DPU类似于数据平面型的加速器,可能会与CPU、网卡及加速器融合。未来CPU与GPU甚至CPU与网卡的边界将变得模糊,例如AMD的MI300中,CPU可能可以访问HBM内存。同时,通过集成DPU或交换机,可以缩短通路,提高整体性能,并预测未来硬件在数据流调度中可能会有更多融合。 当前市场需求端的情况如何