您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [东吴证券]:电子:格局落定,价值归真:从周期波动走向技术溢价 - 发现报告

电子:格局落定,价值归真:从周期波动走向技术溢价

电子设备 2026-02-06 张良卫 东吴证券 Michael Wong 香港继承教育
报告封面

证券分析师:张良卫执业证书编号:S0600516070001联系电话:021-60197988二零二六年二月六日 摘要:从传统周期到AI驱动的技术溢价与高成长性 ➢增长逻辑重构:AI带来的不是反弹,而是指数级增长的新需求,存储不再仅仅跟随宏观经济进行简单的库存周期波动,而是成为了AI算力的决定性瓶颈(存力决定算力的效率)。 ➢训练端(Scaling Laws驱动):模型参数量呈线性增长(如GPT-3到GPT-4增幅超9倍),直接拉动HBM(容纳参数)和SSD(存Checkpoint)的容量需求呈指数级爆发。 ➢推理端(商业化落地驱动):随着RAG(检索增强生成)和超长上下文(Long Context)的应用,KV Cache(键值缓存)对显存的占用或持续增加,且用户越多、交互越深,对存储的带宽和容量需求就越大。 ➢估值体系重塑:量价齐升,高业绩持续兑现,行业正处于“营收高增”与“净利率扩张”的共振期。 量:AI训练与推理规模的扩大带来绝对出货量的增长。价:HBM、企业级SSD等高技术含量产品占比提升,拉高了平均售价(ASP)。利:存储是重资产行业,营收覆盖固定成本后,新增的涨价红利将大比例转化为净利润,导致净利增速远超营收增速(高经营杠杆)。 建议关注:闪迪(SNDK.O)、SK海力士(000660.KS)、三星电子(005930.KS)、美光科技(MU.O)。 风险提示:下游AI资本开支(CAPEX)不及预期风险;存储原厂产能扩张失控导致供需格局恶化风险;新技术研发进度或良率爬坡不及预期风险。 目录 1、AI价值链梳理 2、存储需求分级与存储硬件架构 3、大语言模型的存储需求 4、训练与推理端技术发展拉动存储需求增长 5、美光科技(MU.O)战略聚焦数据中心,HBM3E技术突破 6、闪迪(SNDK.O)拆分后的价值重估,AI存储技术持续迭代 7、SK海力士享AI存储先发优势,巨头三星奋力追赶 8、估值情况分析 风险提示 1、AI价值链梳理 1.1 AI产业链梳理——硬件环节率先受益 1.2竞争格局:存储呈寡头垄断特征,高壁垒支撑高盈利 1.3AI算力建设带动高端存储需求 1.4架构分级:依数据热度分层,确立三级存储架构模式 ➢AI对存储的需求基本可以分为三大维度:冷数据、温数据、热数据。 ➢Storage: SSD+HDD •冷数据:对传输速度要求较低,用柜外硬盘存储,例如HDD/SSD-QLC,容量大,价格较低。 •温数据:对传输速度要求适中,用柜内硬盘存储,例如SSD-TLC,速度价格适中。 ➢Memory: DRAM(HBM+DDR) •热数据:对传输速度要求极高,用柜内内存存储,例如HBM3e、LPDDR5X,速度快价格高。 1.5技术路径:内存侧重快读写,持久存储聚焦大容量低成本 ➢Memory和Storage的区别: ➢Memory: •以DRAM(HBM、LPDDR)等为代表,读写快、断电后不保存数据。•用晶体管+电容(1T1C结构)存储数据,每个单元1bit数据。 ➢Storage: •以SSD(NAND FLASH)、HDD为代表,读写较慢,断电后保存数据。•用浮栅晶体管存储数据,每个单元(1-4bit数据) 2、存储需求分级与存储硬件架构 2.1模型适配:数据流转明确硬件分工,全流程拉动存储需求 ➢AI对存储的需求本质上可以分为三部分:容纳参数;存放过程;数据注入。 ➢存储物理分层可以分为四部分:HBM、LPDDR、SSD、柜外SSD&HDD。 •容纳参数(存放模型本身权重Weights):HBM。•存放过程数据(KV cache等)。HBM+LPDDR+SSD,KV cache主要存放HBM+LPDDR内,训练过程中的check point会保存至SSD。•数据注入(存放及预热训练需要的原始数据,注入给HBM或LPDDR):SSD+柜外SSD&HDD。 2.2NVIDIA GB200异构存储设计,实现容量与带宽的性能互补 ➢在NVIDIA GB200 NVL72/36中,单个计算托盘包含2个GB200 Superchips,每个GB200Superchip包含1个Grace CPU和2个Blackwell GPU。还构建了“HBM + LPDDR +SSD”的三级存储阶梯,实现了带宽高低搭配与容量的互补。 ➢HBM3e:每个GPU配备8颗HBM3e(24GB)内存,单GPU容量达192GB,单计算托盘总容量768GB ➢LPDDR5X:每个CPU配备16颗LPDDR5X(32GB),单CPU容量达512GB(480GB可用,32GB为备用),单计算托盘总容量1024GB。 ➢SSD:每个计算托盘标配4 * 3.84TB E1.SNVMeSSD,可扩展至8个接口,单盘可扩张至7.68TB,单计算托盘总容量15.36TB/61.44TB(单GPU对应3.84TB/15.36TB)。 2.3 LPDDR5X作为高性价比显存补充,平衡带宽成本与容量 ➢LPDDR5X与HBM核心差异在于带宽。 ➢LPDDR5X服务于CPU,用于运行操作系统、驱动程序、数据加载器;GPU还可通过NVLink-C2C直接访问这部分内存,存放模型或context。➢HBM3e服务于GPU,高带宽的特性,为GPU提供充足数据,用于存储正在计算的权重(Weights)、KV cache和激活值(activations)。➢在NVLink72 GB200中,有18个计算托盘,其中每个托盘有32颗LPDDR5X,32颗HBM3e;单托盘LPDDR5X带宽1092.2GB/s,HBM3e带宽32768GB/s。NVLink72 GB200机柜中LPDDR5X带宽19.2TB/s,HBM3e带宽576TB/s。 ➢所以在实际计算中,LPDDR作为HBM的备用空间,HBM将一些低频KV cache下放至LPDDR内,NV Rubin还会将更低频的KV cache下放至柜内SSD,以拓展存储空间。 2.4Rubin架构下互联升级,存储密度稳步提升 ➢在Rubin架构中,柜内存储可分为三级 ➢第一级HBM4,HBM与GPU通过CoWos封装,物理距离最近,且HBM带宽最宽。单GPU容量达288GB,单计算托盘容量达1152GB; ➢第二级LPDDR5X,焊接在CPU旁的PCB板上;供CPU及GPU调度使用,带宽中等,相较于HBM差距明显,单CPU容量达1536GB,单计算托盘容量达3072GB; ➢第三级为柜内SSD,通过BlueField4 DPU调度互联,为CPU、GPU较低速传输数据。单计算托盘容量达64TB(2026CES发布会口径)。 资料来源:2026CES,东吴证券研究所 3、大语言模型的存储需求 3.1 transformer架构数据流转频繁——存力决定算力效率 ➢Transformer数据流转: ➢模型无法直接理解文字(如“人之初”),必须经过Token化(转数字ID)和向量化(Embedding),将离散的文字转化为计算机可运算的连续高维向量; ➢通过线性投影,将输入向量转化为Query(查询)、Key(键)、Value(值)三个矩阵; ➢最后通过计算注意力分数(Attention Score),衡量词与词之间的相关性,再加权融合Context Vector,最终经过Softmax输出预测结果(“性本善”) 3.2大语言模型分训练、推理数据流程——存力决定算力效率 ➢模型训练时:模型由SSD经过PCIe 6.0流向LPDDR5x,由CPU进行Token化,再回传给LPDDR5X,通过C2C互联传给HBM作为参数输入给GPU,GPU训练完成后回传结果给HBM,再写入SSD保存模型或周期性保存checkpoint。 ➢模型推理时:模型由SSD经过PCIe 6.0流向LPDDR5x,用户从网络端发送请求至交换机,由CPU进行Token化传输给LPDDR5X后,通过C2C互联连接HBM向GPU发送计算请求,GPU计算完成后传回HBM,HBM再传回LPDDR5X,再通过CPU回传给交换机,再将结果给到用户。 3.3容量测算:解构模型显存消耗或推动需求呈指数级增长 ➢AI模型的生命周期主要分为训练(Training)和推理(Inference)两个阶段。这两个阶段对显存有着截然不同的要求。 ➢“16字节法则”混合精度模型训练下显存消耗: ➢静态显存需求:参数(FP16)2Bytes;梯度(FP16)2Bytes;Adam优化器(FP32)需要维护参数的备份(4B) +动量(4B) +方差(4B)=12Bytes;故万亿参数的模型需要16TB级别显存才可存储其静态存储; ➢动态显存需求:模型状态也需占用显存空间,包括激活值及临时缓冲区,其中激活值大小与模型规模(层数L、隐藏层维度d_model)、序列长度(S)和训练批次大小(B)呈线性正相关。 ➢推理显存消耗: ➢静态显存需求:参数(FP16)2Bytes; ➢动态显存需求:推理中生成的过程数据KV cache需占用大量显存空间,目前主流大模型采用GQA算法,将多个Query头分成一组,每组共享一对Key/Value头,以Llama-3-70B为例,采用8:1的GQA分组,将KV cache的显存占用降低了8倍。KV cache=2 * L *𝑁𝐾𝑉*dℎ𝑒𝑎𝑑*𝑃𝑏𝑦𝑡𝑒𝑠* Batch Size * Context Length(2是Key Value两个矩阵,L为模型层数,𝑁𝐾𝑉是KV头数,dℎ𝑒𝑎𝑑是模型注意力头维度,𝑃𝑏𝑦𝑡𝑒𝑠是数据精度,Batch Size是并发请求数量,Context Length是序列长度)。GQA算法降低𝑁𝐾𝑉,使得显存需求得到一定缓解,但由于实际计算核心SRAM的空间极小,每Token计算需重新读取模型,大规模推理任务下,显存带宽仍是核心的限制因素。 3.4Scaling Laws下参数量持续膨胀,拉高存储容量需求下限 ➢模型大小是怎么计算的? ➢1)先从公司自身算力预算出发,计算出用于训练的算力。 算力计算方法:总算力(FLOPs)=显卡数量*单卡峰值算力*训练时长*有效利用率。 ➢2)根据Chinchilla Scaling Laws,C≈6*N*D(C为算力,N为参数量,D为数据量,6为每个Token在训练过程中通常需要6次浮点运算,前向传播2次+反向传播4次),D≈20*N,C≈120*N²。 ➢3)再根据计算得到的参数量来计算出层数L和维度d_model(N≈L*12* d_model ²) ➢4)由模型总维度d_model可以推算出𝑁_heads数量(d_model=𝑁_heads∗d_(heads_model))(其中d_(heads_model)为注意力头维度,目前标准维度为128) ➢以GPT-3为例,1750亿参数,模型总维度为12288(模型注意力头为96个,注意力维度为128维),模型层数为96层。 4、训练与推理端技术发展拉动存储需求增长 4.1训练端:模型升级驱动HBM及SSD的容量扩张 ➢大模型在训练阶段对存储的拉动: ➢更大模型——更大的显存及SSD空间需求 ➢模型参数量的持续扩张是大语言模型发展的主线。这种线性地增长是提升模型能力的核心路径,2020年,GPT-3参数量为1750亿,2023年3月,GPT-4参数量约为1.8万亿。增幅超9倍。在模型参数增长的背景下,为存放下更多参数,对存储(NAND+DRAM)的需求也持续增长。 ➢MoE架构——更大显存空间需求 ➢在MoE架构下通过稀疏激活机制,实现了“大模型的容量,小模型的算力”,但模型需全量存储在显存中,本质上是用存储空间换取训练速度,对显存需求拉动明显。 ➢长上下文——更大的带宽需求 ➢2020年到2026年GPT-3