您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华西证券]:数字经济专题报告之二十二:大模型驱动存储技术演进,存储全闪存化、网络化 - 发现报告

数字经济专题报告之二十二:大模型驱动存储技术演进,存储全闪存化、网络化

信息技术2023-04-24宋辉、柳珏廷华西证券李***
数字经济专题报告之二十二:大模型驱动存储技术演进,存储全闪存化、网络化

1、存储全闪存化、网络化 1)先进芯片(或者服务器)不等于先进算力,算力、存储、网络任一环节不可或缺:大模型进入万亿参数时代,单体服务器算力有限,需要将大量服务器打造大规模算力集群。 因此用上了先进芯片并不代表就拥有了先进算力,高性能计算存在“木桶效应”,计算、存储、网络任一环都不可或缺。 2)AI工作负载在不同阶段需要部署互补型存储介质及架构:ML和DNN工作负载对存储架构具有重大影响:由于GPU的并行处理能力和绝对密度,从基于磁盘的系统读取训练数据是最常见的瓶颈之一。要减少GPU空闲时间,可以使用固态阵列或驱动器或其他形式的非易失性存储器来优化预处理管道。 NVMe SSD可以缓解与神经网络相关的低带宽和高延迟问题。 3)产业变化:存储全闪存化、存储网络化 PCIe+NVMe作为SSD主流方案持续高增,验证技术路线逻辑。 存储以太网络化:传统FC最高32G/64G带宽,不满足全闪存高吞吐的需求,高带宽以太网技术成为新一代存储网络的事实标准。 4)国内企业级SSD诸多公司产品发展策略以固件、控制器等产品或者技术往下游模组延伸为主。国内SSD产业链厂商可以概括为“具备主控设计能力的模块生产公司”,相关具备PCIe SSD核心能力的公司包括:相关上市公司:同有科技、江波 龙、佰维存储、国科微(有研发投入)等,相关非上市公司:得一微、忆恒创源(固件)、得瑞领新(固件+主控)、大普微等。 分布式存储取代传统存储,存储网络高级控制器国产化机遇期:中国大陆拥有众多的光纤系统、交换系统和大数据产业基地,预计未来将会有非常广阔的国产替代空间,相关公司包括华澜微(HBA控制芯片、RAID控制芯片)、国芯科技(上市公司、RAID控制芯片)等。 2、通信板块观点 结合业绩确定性及估值两方面因素考虑,我们建议关注包括军工通信、面板以及低估的算力基础设施及工业互联网个股: 1)持续推荐算力基础设施 服务器等设备商:紫光股份(华西通信&计算机联合覆盖)、中兴通讯等; 算力中心:光环新网; 算力硬科技产业链:新雷能(服务器电源); 2)军工通信:烽火电子(华西通信&军工联合覆盖)、海格通信(华西通信&军工联合覆盖)、七一二等; 3)工业互联:金卡智能(华西通信&机械联合覆盖)等; 4)液晶面板拐点:TCL科技(华西通信&电子联合覆盖)等; 5)AI应用:航天信息(华西通信&计算机联合覆盖)等。 3、风险提示 AI底层相关顶层政策滞缓影响行业应用落地;AI厂商相关资本开支不及预期。 1.大模型驱动存储技术演进 先进芯片(或者服务器)不等于先进算力,算力、存储、网络任一环节不可或缺 大模型进入万亿参数时代,单体服务器算力有限,需要将大量服务器通过RDMA网络相连,打造大规模算力集群。通过对处理器、网络架构和存储性能的全面优化,为大模型训练提供高性能、高带宽、低延迟的智算能力支撑。 算力问题之所以成为行业头疼的难题,是因为当前大模型需要万亿参数时代,单体AI服务器算力有限,需要将大量AI服务器、存储系统通过高性能网络相连,打造大规模算力集群。 因此用上了先进芯片并不代表就拥有了先进算力,高性能计算存在“木桶效应”,一旦计算、存储、网络任一环节出现瓶颈,就会导致运算速度严重下降。 存储层面,几千台计算节点同时读取一批数据集,需要尽可能缩短加载时长。新一代集群,引入了腾讯云最新自研存储架构,支持不同场景下对存储的需求。其自研的文件存储、对象存储架构,具备TB级吞吐能力和千万级IOPS,充分满足大模型训练的大数据量存储要求。 AI工作负载在不同阶段需要部署新的存储介质和架构 从数据管理的角度来看,AI训练及推理具有四个关键阶段: 数据收集和整合(I/O密集型):从跨用户环境中不同来源收集数据开始,然后将这些数据转换为特定格式,并选择性地加以统一。某些情况下, 托管在云生态系统中的来源于外部的数据和数据集还需要在数据收集和融合管道中进行整合。 数据准备和清理(I/O极度密集型):在收集和整合阶段获得的数据通常为原始数据,需要实时清理,包括数据去重、删除格式错误条目、删除离群数据、删除错误数据和启发式回填。清理后,需要将数据转换为AI模型需要的格式。 常用转换例程包括旋转、贴标签、过滤、二次采样和标准化。 模型训练(统计ML、DNN): 统计ML(读取密集型):统计ML工作负载通常由传统ML分析组成,包括随机森林、决策树、集群、支持向量机等。从数据需求角度来说,这些模型的训练需要的数据较少。 DNN:DNN工作负载通常涵盖非常深入的神经网络,涉及一系列复杂模型,如卷积神经网络、循环神经网络等。这些模型一般使用高度并行化的技术进行实施。这些模型的特性各不相同,因此需要大量(经过清理且添加标签的)数据进行训练。这些模型的训练数据集大小在单个模型中可轻松扩展到多个PB。 训练阶段的核心运行包括大量随机小型(KB)读取操作。 推理:模型训练阶段会限制吞吐量,而推理或模型部署阶段一般对延迟时间比较敏感。在推理模式下,部署的经训练模型需要分析数据的最新快照(通常是流式数据),并近乎实时地提供分析。 推理I/O并非核心瓶颈,重要的是模型部署的基础架构要能够尽可能加快数据速度。 ML和DNN工作负载对存储架构具有重大影响:由于GPU的并行处理能力和绝对密度,从基于磁盘的系统读取训练数据是最常见的瓶颈之一。存储子系统的设计要减少I/O瓶颈,从而充分发挥专用计算硬件(如GPU)的投资价值。 要减少GPU空闲时间,使用固态阵列或驱动器或其他形式的非易失性存储器来优化预处理管道。由于在训练阶段摄入的数据量很大,最好是将这些数据集存储到共享存储器中,这样企业就可以单独扩展计算和存储环境。NVMe SSD可以缓解与神经网络相关的低带宽和高延迟问题。 产业变化:存储全闪存化、存储网络化 存储全闪存化:随着机械硬盘向全闪存升级,存储介质的读写性能提升了百倍。 PCIe+NVMe作为SSD主流方案持续高增,验证技术路线逻辑。全闪存具有更高的可管理性和可维护性,同时,固态硬盘的尺寸正变得更加灵活,通常可提供多种长度、宽度和高度选项。 接口方面,为了进一步缩短存储网络的延迟,NVMe协议正逐渐成为主流,固态硬盘接口将从传统的SATA/SAS过渡到PCIe/NVMe,PCIe接口的固态硬盘可以进一步释放固态硬盘的性能,使硬件直接与CPU进行通信,提高响应速度,NVMe协议则对接口协议进行统一,从而实现多操作系统的互联互通。 据信通院测算,NVMe SSD在2018-2023年间以38%的复合年增长率持续增长,2020年占据企业级SSD出货量的55%以上,云客户、OEM厂商和企业均将NVMe SSD作为存储设备的首选。 全球存储市场中,闪存成本不断下降,带动全闪存储份额快速增加,Gartner预测企业级SSD将以约37%的复合年增长率快速增长,到2026年,SSD总出货容量将增长到32%的整体HDD/SSD容量(2021年约20%份额)。 艾瑞咨询预计到2026年,国内企业级固态硬盘市场规模将增至669亿元,2022-2026年期间复合增速约为23.7%,而PCIe固态硬盘市场份额比例将进一步于2026年增至89.3% 存储以太网络化:传统FC最高32G/64G带宽,不满足全闪存高吞吐的需求,大带宽的以太网成为新一代存储网络的事实标准。 网络存储技术(Network Storage Technologies)大致分为三种:直连式存储(DAS:Direct Attached Storage)、网络存储设备(NAS:Network Attached Storage)和存储网络(SAN:Storage Area Network)。 其中SAN存储一般应用在超大企业中,提供性能更加的存储,性能最高,价格昂贵:存储设备相互连接且与一台服务器或一个服务器群相连的网络。它是一种通过光纤集线器、光纤路由器、光纤交换机等连接设备将磁盘阵列、磁带等存储设备与相关服务器连接起来的高速专用子网。 2.投资逻辑及机会 1)大模型进入万亿参数时代,单体服务器算力有限,需要将大量服务器打造大规模算力集群。通过对处理器、网络架构和存储性能的全面优化, 为大模型训练提供高性能、高带宽、低延迟的智算能力支撑。 因此用上了先进芯片并不代表就拥有了先进算力,高性能计算存在 “木桶效应”,计算、存储、网络任一环都不可或缺。 2)AI工作负载在不同阶段需要部署互补型存储介质及架构:ML和DNN工作负载对存储架构具有重大影响:由于GPU的并行处理能力和绝对密度,从基于磁盘的系统读取训练数据是最常见的瓶颈之一。要减少GPU空闲时间,可以使用固态阵列或驱动器或其他形式的非易失性存储器来优化预处理管道。NVMe SSD可以缓解与神经网络相关的低带宽和高延迟问题。 3)产业变化:存储全闪存化、存储网络化 PCIe+NVMe作为SSD主流方案持续高增,验证技术路线逻辑。 存储以太网络化:传统FC最高32G/64G带宽,不满足全闪存高吞吐的需求,高带宽以太网技术成为新一代存储网络的事实标准。 4)国内企业级SSD诸多公司产品发展策略以固件、控制器等产品或者技术往下游模组延伸为主。国内SSD产业链厂商可以概括为“具备主控设计能力的模块生产公司”,相关具备PCIe SSD核心能力的公司包括:相关上市公司:同有科技、江波龙、佰维存储、国科微(有研发投入)等,相关非上市公司 :得一微、忆恒创源(固件)、得瑞领新(固件+主控)、大普微、等。 分布式存储取代传统存储,存储网络高级控制器国产化机遇期:中国大陆拥有众多的光纤系统、交换系统和大数据产业基地,预计未来将会有非常广阔的国产替代空间,相关公司包括华澜微(HBA控制芯片、RAID控制芯片)、国芯科技(上市公司、RAID控制芯片)等。 3.近期通信板块观点及推荐逻辑 本周持续推荐 结合业绩确定性及估值两方面因素考虑,我们建议关注包括军工通信 、面板以及低估的算力基础设施及工业互联网个股: 1)持续推荐算力基础设施 服务器等设备商:紫光股份(华西通信&计算机联合覆盖)、中兴通讯等; 算力中心:光环新网; 算力硬科技产业链:新雷能(服务器电源); 2)军工通信:烽火电子(华西通信&军工联合覆盖)、海格通信(华西通信&军工联合覆盖)、七一二等; 3)工业互联:金卡智能(华西通信&机械联合覆盖)等; 4)液晶面板拐点:TCL科技(华西通信&电子联合覆盖)等; 5)AI应用:航天信息(华西通信&计算机联合覆盖)等; 中长期产业相关受益公司 1)算力设备提供商:中兴通讯、紫光股份、星网锐捷、烽火通信等主设备商; 光通信厂商:中天科技、亨通光电、中际旭创、天孚通信、新易盛 、光迅科技等; 2)算力运营商:中国移动、中国电信、中国联通等; 3)算力&智算中心:光环新网、奥飞数据、科华数据 4)军工通信:新雷能、烽火电子、七一二、上海瀚迅、海格通信等; 5)卫星互联网:雷科防务、震有科技、康拓红外等; 6)AI应用层面:亿联网络、东方国信、平治信息、航天信息等; 4.风险提示 AI底层相关顶层政策滞缓影响行业应用落地;AI厂商相关资本开支不及预期。