【中泰电子】存储:AI推理带来需求爆发、驱动范式升级,周期能见度大幅拉长 分析师: 王芳S0740521120002,杨旭S0740521120001,康丽侠S0740525040001 摘要 存储是AI推理的核心瓶颈,驱动存储需求爆发、存储范式改进。 LLM推理的解码阶段本质是memory-bound,核心存储负载包括:模型权重、KV Cache、激活值、RAG向量库等。相较于模型权重等静态张量数据,KV Cache是随上下文长度和并发数动态膨胀的张量数据,推理性能(TTFT / TPS)高度依赖对KV Cache的保存和对KV Cache的管理效率。在传统冯·诺依曼架构下,大模型推理时的大量高维张量数据、Transfomer的自注意力机制均加剧了内存墙问题,数据量巨大、搬运成本高,严重拖慢推理效率,存储使访存带宽与延迟逐步成为制约系统吞吐与响应性能的核心瓶颈,因此黄仁勋一直在说:“GPU大部分时间都在等数据,而不是在计算”,“计算能力增长远快于内存带宽,GPU经常处于饥饿状态(starving for data)。”而提升存储带宽和容量可以显著增强推理性能、降低推理成本,“以存代算”是必然趋势。 随着模型越来越大、上下文越来越长、使用人数增加等,AI推理带来HBM、DRAM、SSD、HDD的需求全面爆发,同时面对大模型推理的访存受限问题,产业界也在推进存储器性能升级和存储层级优化,存储从单一层级向高带宽+大容量+分级管理的协同架构演进,存储与计算的关系也由传统解耦逐步走向协同优化。1)高带宽存储器解决方案:包括HBM、WOW 3D堆叠DRAM、HBF。2)优化存储分级管理系统:CXL内存池化技术,Prefill和Decode阶段的分机柜部署(英伟达GTC2026推出的最新方案)。 在前期价格涨幅大、行业看接下来2年供需紧张的情况下,对合约价的跟踪会从“从价格还能涨多少”转向“价格高位保持多久”,预计合约价26年全年上涨,27年至少保持高位,客户与原厂签多年长协拉长周期。 现货价占市场10%左右:近期部分现货市场价格有回调10-20%左右,主要系存储模组的现货价与合约价价差大,贸易商获利了结心理强。 合约价占市场90%左右:目前北美CSP因担心拿不到产能,陆续与原厂签订3-5年长约,国内模组厂也有签,客户与原厂基本达成价格共识,周期能见度拉长。此前周期中合约价上涨3-4个季度就会回落,主要系由消费电子库存周期主导,本轮周期由AI需求驱动,服务器占存储的敞口达到50%-60%,行业供需高度紧张,预计26年全年价格上涨,但是逐季价格收敛,预计27年价格也保持高位。 存储是AI硬件板块中短期业绩确定性最强,供需在可见的2年内持续紧张,同时估值中枢有提升的潜在可能性。 投资建议:建议关注:1)弹性模组及主控:德明利、江波龙、佰维存储、大普微、联芸科技等;2)兆易创新、普冉股份、东芯股份、北京君正、澜起科技、聚辰股份、恒烁股份等;3)设备:微导纳米、拓荆科技、中微公司、精智达、华海清科、中科飞测、京仪装备、骄成超声、百傲化学、北方华创等。4)光刻机产业链:茂莱光学、汇成真空、波长光电、阿石创、联合化学、富创精密、永新光学等。 风险提示:1)长鑫长存产能释放加剧竞争的风险。2)AI CAPEX不及预期的风险。3)数据更新不及时,模型测算偏差风险。 目录 一、AI推理带来存储需求爆发和存储范式的改进 二、看未来2年供需持续紧张,原厂与客户签订长协 三、存储是AI硬件估值最低、业绩确定性最强的方向 1.1 AI推理带来存储需求爆发 大模型训练和推理对存储需求存在区别:训练:基于提前备好的海量静态数据集,数据总量可控、规则、可预测,偏向一次性学习过程,但由于数据集规模大、计算密集,单任务维度下显存消耗、整体存储容量需求远大于推理;推理:数据实时输入、请求粒度小、并发高、上下文长度差异大、延迟要求严格,偏向持续性的应用过程,为避免重复计算需保留大量KV cache,其在每一次token生成都会访问、对延迟高度敏感、会随序列长度动态扩展,是显存占用和带宽消耗的核心因素,因此在智能体AI普及带来用户爆发式增长、参数规模扩大、应用复杂度提升的背景下,数据会快速动态膨胀,预计远期在数据中心中,推理存储需求占比(2030年预计70%+)远超训练。 大模型训练:1)运行机制:计算密集型工作,系统需反复读写、写入巨量数据,数据流动频率高、负载持续、IO密度高,但是训练阶段数据集通常是固定规模,不随时间线性增长。2)存储介质:训练样本通常存在HDD/SSD,模型参数、激活值等核心计算内容的加载与处理在HBM/GDDR(GPU显存),DRAM用于扩展内存、保存部分模型权重,SSD作为补充设备,用于保存中间文件(例如检查点文件、超出HBM/DRAM的数据、不活跃Token)。 大模型推理:1)运行机制:存储需求由“规模扩张”与“动态波动”共同驱动。随大模型参数规模扩大以及应用复杂度提升,推理侧存储需求呈现显著非线性增长特征。2)存储介质:训练好的模型首先存储在SSD,推理时从SSD加载至DRAM,再从DRAM加载至HBM(用户输入query及生成token相关计算),HBM的KV cache亦持续更新支持实时推理,若上下文过长导致DRAM无法容纳,继续缓存至SSD,推理结束后,完整的Session数据、用户日志、输入输出等数据在HDD/SSD长期储存。 1.1 AI推理带来存储需求爆发 从单模型/单任务维度对比,训练对存储容量与带宽需求远高于推理:训练的计算需求、显存消耗需求、存储容量消耗需求、带宽需求均高于推理,尤其是存储容量需求约推理100-1000倍,原因是训练需要存参数、梯度、优化器状态、激活值、Checkpoint、数据集,而推理通常只需要存参数、KV Cache、中间缓存等。 但从AI平台维度对比,推理数据将会动态膨胀,在数据中心的存储需求占比预计快速提升,未来预计远超训练:AI从“生成式”向“智能体AI”迈进,不仅拓宽应用场景、提升普及度,使用户数爆发式增长,还对上下文记忆能力、自主性、规划能力、持续学习能力都提出更高要求,此背景下KV Cache规模快速膨胀,多并发请求放大实时显存占用,同时模型权重、向量数据库及推理过程中的中间数据(如生成token缓存)推动整体存储容量需求持续攀升,因此推理对存储的需求正急剧增长,未来预计远超训练。 1.1 AI推理带来存储需求爆发 大模型训练需要存储海量数据集、大量权重、激活值、梯度、状态等,其中激活值、优化器内存消耗最大。•一、前向传播阶段:训练数据依次通过模型各层计算并产生激活值。 基础训练数据(原始输入):即用于模型学习的原始训练语料(文本、图像等多模态数据),是前向传播的核心输入,属于静态数据,总量固定,需提前存储在本地或网络存储(HDD/SSD)中,供模型读取计算。 模型参数(初始权重):模型中可学习参数的总数量,属于固定基础数据,是前向计算的核心依据,近年参数量爆发式增长,由亿级增长至万亿级。激活值:前向传播过程中,模型各层运算经过激活函数处理后生成该层输出,即激活值,需临时保存,用于后续反向传播计算梯度。激活值显存消耗大,其显存占用通常与批量大小(batch size)、序列长度(sequence length)、模型层数等因素密切相关。 •二、反向传播阶段:逐层反向计算误差梯度,梯度计算完毕后激活值被释放,梯度数据保留用于参数更新。 误差数据:前向传播结束后,计算结果与训练标签的偏差值(损失值),用于指导梯度计算的方向,但需临时存储至梯度计算完成。梯度数据:误差以与前向传播相反方向,与各层参数、前向传播的激活值进行计算,用于衡量参数调整的方向和幅度,存储体量与模型参数规模正相关。 •三、参数更新阶段:优化器根据保存梯度及自身参数更新模型参数,更新完毕后上版本模型参数、梯度数据、优化器参数释放。 优化器:根据保存的梯度及自身参数(如学习率、动量等)更新模型的参数。为让模型参数更新时能尽可能逼近最优值,许多不同的优化器被提出,如SGD和Adam,这些优化器需要保存额外的信息。 更新后的模型参数(新权重):替换原有的初始权重,成为后续训练迭代或推理的基础,需存储至模型下一次迭代更新。 •四、全流程阶段。 检查点(checkpoint):训练中某个特定时点保存的模型快照,包括模型参数、优化器状态、梯度数据、训练元数据等,保障训练意外中断后能恢复进度。检查点数据主要保存在SSD中,避免丢失,DRAM负责加载检查点数据至内存,再迁入HBM,缩短数据恢复时间。 来源:《大模型时代下的存储系统挑战与技术发展》,《面向深度学习的数据存储技术综述》,黄金量化公众号等,中泰证券研究所 1.1 AI推理带来存储需求爆发 1.1 AI推理带来存储需求爆发 n在推理过程中,占据主要存储资源的数据类型包括:模型权重、KV Cache、激活值、RAG向量数据库以及Token长期落盘数据。其中,前四类主要以高维张量形式存在,构成推理阶段的核心存储负载,并主要驻留于HBM与DRAM等高速存储层级。 Ø1)模型权重(静态张量数据):模型权重为预训练及微调阶段生成的参数矩阵集合,其规模由参数量与量化精度共同决定。例如,INT8精度下7B模型约占用7GB存储空间。推理过程中,权重通常常驻于HBM以满足高带宽访问需求,在显存受限场景下,部分权重可分层卸载至DRAM或通过分页/流式加载机制调度。 Ø2)KV Cache(动态张量数据,核心增量负载):KV Cache用于缓存历史Token的Key与Value,以避免自回归解码过程中重复计算注意力,从而显著降低算力开销,其本质是随序列长度动态扩展的高维张量,KV Cache是推理侧显存占用与带宽消耗的核心决定因素。 •每个Token的KV Cache占用空间约为:2×模型层数×隐藏层维度×精度字节数,总KV Cache规模随Batch Size、上下文长度(Sequence Length)及并发请求数线性增长,并在系统层面呈现出显著的动态膨胀的特点。 •在Prefill阶段:以批量写入为主,快速构建KV Cache;在Decode阶段:以高频读取为主,并随生成过程持续追加写入。 •(注:Batch size,模型一次性处理的样本数量(如句子或文档数),增大Batch Size可利用GPU并行能力提升速度,但会占用更多显存,且过大会导致收敛变慢) Ø3)激活值:(张量数据,瞬时数据):激活值为前向计算过程中产生的中间结果,生命周期极短,主要在SRAM与HBM之间流转。 Ø4)RAG向量数据库(外部数据库):RAG引入外部知识库,通常以向量形式存储于SSD/HDD。在高并发低延迟场景下,其索引结构(如ANN Index)通常需常驻于CPU DRAM,以降低检索延迟;部分热点数据亦可能被加载至HBM参与加速。 Ø5)Token的长期落盘(文字符):用户输入与模型输出的Token通常以日志或数据流形式持久化至SSD/HDD。其底层表现为离散整数序列或字符串,相较于高维张量数据,其存储体量与成本占比极低,对整体存储架构影响有限。 1.1 AI推理带来存储需求爆发 1.1 AI推理带来存储需求爆发 nAI推理驱动存储需求指数级爆发。 Ø1)KVCache多层缓存成为推理系统“标配”,带来存储需求全面爆发。 Ø定位分工:HBM成本高、延迟低,承担热点计算与高频访问;DRAM承接层级缓存与中等频度访问;SSD作为成本/容量折中层,承接冷数据与长周期缓存/索引。 Ø工程逻辑:在大体量查询与长上下文背景下,系统优先复用Prefill阶段的KV cache,以降低Decode计算与端到端时延。当再次遇到相似问题时,可直接调用已缓存KV,无需重复计算,整体算力成本更优。 Ø随着“缓存保留时长”与“并发度”提升,热数据上收至HBM、冷数据下沉至DRAM/SSD的比重上升,带动DRAM与SSD配置同