行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

AI算力基建的下半场20260320

2026-03-20 未知机构罗鑫涛Robin

当前AI算力基础设施建设处于快速发展阶段，重点关注AI推理任务对硬件需求的演进及技术栈变化。随着推理任务增加，KV缓存的存储需求显著上升，提出缓存复用、主动丢弃和缓存下移等解决方案。存储系统优化包括内存分层架构和高速通信技术应用，如英伟达Bluefield DPU和CXL，以及CPU角色的转变，以提高AI推理任务执行效率。

AI算力市场面临资本支出（Capex）挑战，但AI收入增长和用户对高性能算力需求推动市场潜力巨大。未来AI算力基建发展被看好，尤其在AI应用和收入增长的推动下。

章节核心观点与数据：

AI算力基建技术需求与市场分析：推理任务爆发导致硬件需求变化，强调KV缓存架构创新及CPU重要性提升，展现从GPU主导向系统级资源调动的转变。
KV Cash存储问题与长文本、高并发场景的挑战：模型层数、注意力头维度、数据精度增加导致KV Cash存储需求增长，长文本处理和高并发场景下成为系统瓶颈，端测部署Agent引入外部知识库加剧存储压力。
解决KV Cache问题的模型与系统优化策略：主流解决方案包括模型算法层面的复用、主动丢弃和offload，以及系统层面的KV数据路径重构，利用decode卡闲置带宽绕过IO瓶颈。
模型与算法推动存储分层架构：模型和算法技术路线变化催生存储分层架构，优化内存使用，如将简单推理任务从GPU转移到CPU内存，降低系统成本并提升效能。
存储层级优化与未来技术趋势探讨：存储层级优化策略包括GPU直接访问SSD、HBM堆叠技术及CXL协议应用，DPU、CXL三代及光交换方案对未来存储池化重要支撑作用。
AI推理架构下CPU与GPU协同演进趋势：CPU从GPU附属调度单元升级为参与推理核心环节的关键处理器，形成GPU计算与CPU控制执行双引擎架构，CPU向高带宽数据设备演进，与加速器边界趋于模糊，未来可能融合成为数据流调度基础控制单元。
AI算力需求激增与capex困境探讨：AI算力需求增长，coding agent推动下tokens消耗激增，行业面临capex困境，全球算力周期、模型厂商出海逻辑、硬件降本趋势和AI算力基建投资叙事延续性。
中国开源模型API调用量增长趋势及算力需求分析：中国开源模型2025年三季度后API调用量显著增加，2026年2月中国模型调用量首次超越美国，占据前五名中的四席，轻度至重度用户每日token消耗量级分别为5000至20万、220万至150万、高达500万，每月token消耗量达数千万亿级别，较去年增长上百倍。
AI公司年化收入预测与硬件成本优化探讨：假设不同用户等级的tokens消耗预测某AI公司年化收入，模型可能过于激进，未充分考虑免费用户影响及企业客户批量折扣，硬件端优化对降低推理成本重要性显著，顶级GPU在提升单卡吞吐量方面进步显著。
AI基建投资与收入增长的挑战与机遇：头部互联网厂商资本开支占经营现金流（OCF）比例高，AI收入增长不及预期，但用户付费意愿增强，收入数量级提升，AI基建投资在未来仍有较大增长空间，预计进入飞轮效应的超级周期。

研究结论：

AI算力基建仍处于早期阶段，市场需求和技术发展对硬件提出新要求，KV缓存架构创新、CPU系统资源调度及硬件底层技术变革是关键趋势。
KV Cash存储问题通过模型算法和系统优化策略解决，存储分层架构成为常态，未来硬件层面将通过低延时架构和互联芯片变化进一步优化。
AI算力需求激增，行业面临capex困境，但AI收入增长和用户付费意愿增强推动市场潜力巨大，中国模型厂商算力需求紧迫。
AI基建投资与收入增长存在挑战，但未来仍有较大增长空间，预计进入飞轮效应的超级周期。

2026年03月22日21:02 关键词 AI算力基建推理任务存储系统数据精度高并发长文本存储架构延时系统低延时互联芯片存储层级硬件资源系统效能GPU CPU存储SSD DPU CXL HBM 全文摘要当前，人工智能（AI）算力基础设施建设正处于快速发展阶段，主要关注AI推理任务对硬件需求的演进以及技术栈的变化。随着推理任务的增加，KV缓存的存储需求显著上升，为应对这一挑战，提出了缓存复用、主动丢弃和缓存下移等多种解决方案。此外，讨论着重于存储系统优化，包括内存分层架构和高速通信技术的应用，如英伟达的Bluefield DPU和CXL，以及CPU角色的转变，以提高AI推理任务的执行效率。 AI算力基建的下半场-20260320_导读 2026年03月22日21:02 关键词 AI算力基建推理任务存储系统数据精度高并发长文本存储架构延时系统低延时互联芯片存储层级硬件资源系统效能GPU CPU存储SSD DPU CXL HBM 全文摘要当前，人工智能（AI）算力基础设施建设正处于快速发展阶段，主要关注AI推理任务对硬件需求的演进以及技术栈的变化。随着推理任务的增加，KV缓存的存储需求显著上升，为应对这一挑战，提出了缓存复用、主动丢弃和缓存下移等多种解决方案。此外，讨论着重于存储系统优化，包括内存分层架构和高速通信技术的应用，如英伟达的Bluefield DPU和CXL，以及CPU角色的转变，以提高AI推理任务的执行效率。尽管面临资本支出（Capex）的挑战，AI算力市场仍显示出巨大潜力，得益于AI收入的增长和用户对高性能算力需求的增加。未来，AI算力基建的发展被看好，尤其是在AI应用和收入增长的推动下。章节速览 00:00 AI算力基建技术需求与市场分析从技术栈角度出发，分析了AI算力硬件需求的演化，指出推理任务的爆发导致硬件需求变化，强调了KV缓存架构创新及CPU在AI硬件中的重要性提升，展现了AI算力基建从GPU主导向系统级资源调动的转变。 01:29 KV Cash存储问题与长文本、高并发场景的挑战对话讨论了在推理任务中，随着模型层数、注意力头维度和数据精度的增加，KV Cash存储需求显著增长的问题。尤其在长文本处理和高并发场景下，KV Cash的存储开销成为系统瓶颈。此外，端测部署Agent时引入的外部知识库也加剧了存储压力。针对这些挑战，需要寻找优化KV Cash存储的方法。 03:55解决KV Cache问题的模型与系统优化策略对话讨论了主流业内针对KV Cache问题的解决策略，包括模型和算法层面的复用、主动丢弃和offload，以及系统层面的KV数据路径重构。复用策略利用高并发场景下的共享KV Cache；主动丢弃通过算法优化如滑动窗口注意力机制减少KV Cache；offload将不常用KV Cache移至远端或经济内存。系统层面，通过重构KV数据路径，利用decode卡的闲置带宽绕过IO瓶颈，优化整体效能。 07:22模型与算法推动存储分层架构对话探讨了模型和算法的技术路线变化如何催生存储分层架构，通过优化内存使用，如将简单推理任务从GPU转移到CPU内存，降低系统成本并提升效能。未来，硬件架构和互联芯片的改进将进一步降低延时，实现更高效的存储分层。 10:39存储层级优化与未来技术趋势探讨讨论了存储层级优化策略，包括GPU直接访问SSD、HBM堆叠技术及CXL协议在高速存储访问中的应用，强调了DPU、CXL三代及光交换方案对未来存储池化的重要支撑作用。 14:35 AI推理架构下CPU与GPU协同演进趋势讨论了AI推理架构中CPU角色的转变及其与GPU的协同工作模式，指出CPU正从GPU附属调度单元升级为参与推理核心环节的关键处理器，形成GPU计算与CPU控制执行的双引擎架构。此外，CPU有望向高带宽数据设备演进，实现内存池化与扩展性提升，同时针对不同工作负载持续分化，与加速器边界趋于模糊，未来可能融合成为数据流调度的基础控制单元。 18:50 AI算力需求激增与capex困境探讨讨论了AI算力需求增长，特别是coding agent推动下tokens消耗激增，以及行业面临的capex困境。提到全球算力周期、模型厂商出海逻辑、硬件降本趋势和AI算力基建投资叙事延续性。通过大厂不定期披露和三方接口数据，展示了token使用量变化，强调代码类应用和角色扮演任务占比提升。 21:30中国开源模型API调用量增长趋势及算力需求分析中国开源模型在2025年三季度后API调用量显著增加，2026年2月16日至22日周度数据中，中国模型调用量首次超越美国，占据前五名中的四席。基于Open Water平台数据，轻度至重度用户每日token消耗量级分别为5000至20万、220万至150万、高达500万。每月token消耗量已达到数千万亿甚至1亿级别，较去年增长上百倍，反映出国内厂商算力需求的紧迫性。 23:39 AI公司年化收入预测与硬件成本优化探讨讨论通过假设不同用户等级的tokens消耗，预测了某AI公司年化收入，指出模型可能过于激进，未充分考虑免费用户影响及企业客户批量折扣。强调硬件端优化，特别是GPU成本效率提升，对降低推理成本的重要性。通过实例分析，展现了顶级GPU在提升单卡吞吐量方面的显著进步，指出硬件迭代对推动技术发展和降低成本的关键作用。 28:46 AI基建投资与收入增长的挑战与机遇对话讨论了AI基建投资与收入增长之间的挑战，指出头部互联网厂商资本开支与经营现金流的高比例关系，以及当前收入与预期目标的较大差距。尽管存在困难，但基于真实token消耗和用户付费意愿提升，预计AI基建投资将呈现强劲增长，有望在未来几年内实现1000亿美元的营收目标，形成飞轮效应的超级周期。发言总结发言人1 他讨论了AI算力基础设施的发展现状，强调该领域仍处于早期阶段而非进入下半场。他深入分析了市场需求和技术发展对AI算力硬件提出的新要求，特别是KV缓存架构创新、CPU系统资源调度以及硬件底层技术的根本变革。在推理系统中，KV缓存面临巨大挑战，如存储量随模型复杂度增加而急剧上升，导致存储和内存瓶颈。为应对这些挑战，提出了KV缓存复用、主动数据丢弃和offload技术等策略。同时，AI模型和算法的演进推动了存储架构的分层，这对硬件架构和CPU、GPU协同工作方式产生了深远影响。他还指出，尽管面临资本开支（CapEx）挑战，但技术进步和成本优化为实现可持续增长提供了可能。最后，他传达了一个积极的信息，认为随着技术不断进步和用户付费意愿增强，AI算力基础设施的投资和增长潜力巨大。要点回顾 AI算力基建是否处于发展的下半场？发言人1：不是，AI算力基建现在应该是一个刚开始或蓬勃发展中的行业。 AI算力硬件需求发生了哪些变化？发言人1：随着推理任务爆发，对硬件需求发生了很大变化，尤其是KV（键值对）存储架构创新和CPU使用调度需求增加，不再仅限于GPU。 KV cash在推理过程中的主要问题是什么？导致KV cash需求量提升的因素有哪些？发言人1：在推理过程中，随着模型层数、注意力投诉、每个头的维度以及数据精度等因素增加，KV cash的存储量会随着推理任务量的增长而快速上升，导致存储受限和成本瓶颈。多环节交互、高并发访问以及端测部署agent引入外部检索文档等都会使KV cash的需求量线性外扩。业界如何应对KV cash存储开销的问题？发言人1：业界主要有三种解决方案：一是KV cash复用，在高并发场景下利用共享热点；二是主动丢弃，在长文本和大量外部文档输入时，通过算法优化压缩或丢弃部分KV cash；三是KV cash offload，即将部分KV cash存储在更远端、经济的地方，如远端节点或内存中。是否还有其他方式改善系统效能？发言人1：除了模型层面的优化，现在的系统infer层面也在进行KV数据路径重构以提升整体效能，例如DP最新论文提到的方法。在面对长文本推理任务时，您如何处理在近端放不下的大容量KV cash？发言人1：在处理这种问题时，由于预览过程会产生很大的KV cash容量，而近端存储空间有限，所以会将这些数据放在远端服务器中。如果直接从远端读取数据，会遇到网卡带宽瓶颈，导致GPU核的闲置利用率很高。为了解决这个问题，Deep SIK提出了一种全局映射优化方案，即利用解码器（decode）的闲置带宽，通过绕远的方式将数据从远端内存加载到预览卡上，从而打破了IO瓶颈。针对KV开始的优化问题，目前主要采用哪些解决方案？发言人1：目前主要采用两大类解决方案。一类是从模型和算法层面进行优化，例如复用、丢弃部分数据或将数据存储在更便宜的内存中。另一类是在存储端通过系统层面的优化来解决，比如采用分层存储架构，根据数据的访问频率和重要性分配到不同层级的存储中，如HBM、DRAM、SSD和HDD等。为什么现在会出现分层存储架构，并举例说明？存储分层架构对未来的发展趋势是什么？发言人1：分层存储架构的出现主要是由于模型和算法技术路线的变化，例如Google的GMA 3和Deep SIK的in gram等项目，它们通过固定的索引或推理方式高效利用有限的硬件资源，采用查表等方法减少对计算资源的消耗。例如，在简单且直观的推理任务中，如查询“法国的首都是哪里”，可以将信息存放在CPU内存中并由CPU查找，这样既降低了系统成本，也实现了存储的分层优化。随着模型和算法技术的发展，分层存储架构将成为常态。未来的系统会根据存储延时需求和容量大小对存储进行分层使用，如HBM延时最低，CPU内存、SSD、HDD等层级依次升高。同时，硬件层面还会通过低延时架构和互联芯片的变化进一步优化存储架构，以实现更高效率的数据通信和存储使用。英伟达在存储访问方面做了什么创新？发言人1：英伟达通过DPU和新型网卡技术，实现了GPU直接通过BS4网卡访问local SSD，降低了时延，并且未来可能会出现类似HBM的高带宽闪存技术，进一步提升存储访问效率。 CXL在存储领域的应用及其发展趋势如何？发言人1：CXL作为一种新兴协议，允许高速访问跨机柜的内存扩展模块和其他存储资源，目前正式商用的是二代产品，随着三代CXL与新一代CPU的结合，将实现基于PCIE语义的快速访问SSD和DRAM等存储设备，成为存储池化的重要技术支撑。 CPU在AI推理任务中的角色发生了怎样的转变？为了适应AI推理任务对内存带宽的需求，CPU有哪些演进趋势？发言人1：在AI推理任务中，CPU的角色正在从GPU附属调度单元转变为直接参与推理核心环节的关键处理器。随着任务复杂度增加，CPU负责控制与执行逻辑，而GPU则主要处理计算密集型任务。为了满足高带宽需求，CPU正在向高带宽数据设备演进。具体方案包括LPDDR5和DDR5X直连，以及下一代采用so模组来提升峰值内存带宽；同时，对于叉86 CPU，使用第二代MRDM模组以达到与GPU相当的带宽水平。 CPU在不同工作负载下的分化趋势是怎样的？发言人1：CPU将会持续分化以匹配不同的工作负载需求，例如有些CPU仅负责节点控制与分发，有些则需要强大的计算能力和数据管理功能，因此不同场景下CPU的产品线将有所区别。 AMD和英特尔在处理器设计上是如何区别的？DPU在数据中心架构中的角色以及未来发展趋势是怎样的？发言人1：AMD采用了一种简单的设计，大河负责处理大型任务，小河则负责小型事务。而英特尔则集成了高性能核（P核）和经济核（E核）的设计。DPU类似于数据平面型的加速器，可能会与CPU、网卡及加速器融合。未来CPU与GPU甚至CPU与网卡的边界将变得模糊，例如AMD的MI300中，CPU可能可以访问HBM内存。同时，通过集成DPU或交换机，可以缩短通路，提高整体性能，并预测未来硬件在数据流调度中可能会有更多融合。当前市场需求端的情况如何

点击免费查看完整报告

AI算力基建的下半场20260320

你可能感兴趣

【风口研报·行业】OpenAl正式发布视频生成模型Sora，分析师多角度看Sora颠覆之处，并看好这几家深耕虚拟现实产业的公司或将受益;OpenAI计划筹集数万亿美金扩张GPU等AI算力基建

【风口研报·行业】持仓结构明显改善+算力基建高景气仍在+多家公司业绩增速及指引优秀，分析师看好这个AI算力板块“情绪修复+筹码重构”的双重机会-；国货龙头市..

【国君通信|行业深度】AI算力:穿越AI的基石,算力基建的起始

通信行业周报：DCI，AI算力基建的由“内”而“外”

人工智能行业AI算力报告-穿越AI的基石，算力基建的起

【电报解读】AI转型加速，腾讯一季度净利润同比增长11pct，资本开支达370亿元！机构称云服务成本的上升对于算力基建与硬件类企业将形成直接利好，这家公司产品在腾讯数据中心多个项目中有应用-20260514

电子板块推荐更新：强调推理的OpenAI o1模型发布，AI算力基建提速

国君电子总结最近海外算力叙事的转向AI基建进入整合期但大概率不到泡沫

兼论金融周期下半场的宏调框架：规范PPP、财政纪律收紧=基建回落？

电子行业周观点：AI agent时代算力消耗陡增，看好算力基建机遇