您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[安信证券]:安信通信基础设施系列报告之光模块需求测算:AI训练及推理有望带动高速率光模块用量 - 发现报告
当前位置:首页/行业研究/报告详情/

安信通信基础设施系列报告之光模块需求测算:AI训练及推理有望带动高速率光模块用量

信息技术2023-04-19张真桢安信证券最***
安信通信基础设施系列报告之光模块需求测算:AI训练及推理有望带动高速率光模块用量

本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。 1 2023年04月19日 通信 行业快报 AI训练及推理有望带动高速率光模块用量——安信通信基础设施系列报告之光模块需求测算 证券研究报告 投资评级 领先大市-A 维持评级 首选股票 目标价(元) 评级 行业表现 资料来源:Wind资讯 升幅% 1M 3M 12M 相对收益 2.9 29.6 41.2 绝对收益 8.0 30.4 41.1 张真桢 分析师 SAC执业证书编号:S1450521110001 zhangzz2@essence.com.cn 陆心媛 联系人 luxy3@essence.com.cn 相关报告 ChatGPT提升算力需求增长中枢,超算服务器出货量有望大幅提升——安信通信基础设施系列报告之算力与服务器需求测算 2023-04-10 热管理行业:为设备安全运行提供保障,未来市场空间广阔 2023-02-13 能源电子产业发展指导意见发布,通信能源相关细分行业有望充分受益 2023-01-18 创维数字PANCAKE产品技术领先,有望受益内容端放量 2022-09-21 边缘云助力分布式算力架构,多应用场景市场空间广阔 2022-09-08 SuperPOD为英伟达专为AI设计的一站式AI数据中心解决方案,为业内典型案例。NVIDIA DGX SuperPOD作为英伟达针对AI发展而开创的一站式 AI 数据中心,拥有最为典型而高效的胖树拓扑架构,可以作为光模块与GPU数量关系测算过程的主要对象和测算结果的拓展依据。在NVIDIA SuperPOD的基础上,NVIDIA于2015年开始构建Selene,最终实现了全新的人工智能模型节点架构,制造出了运行速度排名全球第五的超级计算机。 光模块相比传统铜线优势明显,随着高速率场景占比提升有望逐步替代铜线。相比于传统的铜缆传输,光模块凭借自身截面半径小、易于弯折、连接范围广和易于布线等优势,在传输速率逐渐提升的当下有望进一步替代铜线,实现全光模块方案。 A100与H100、训练与推理场景中光模块种类及数量不尽相同。1)在训练场景中,通过模型测算:在A100 GPU搭建的胖树拓扑结构下,200G光模块用量与GPU数量关系为6:1;在H100 GPU搭建的胖树拓扑结构下,400G光模块用量与GPU数量关系为1:1,800G光模块用量与GPU数量关系为2.5:1。2)在推理场景中,数据中心经流的东西向信息流量相比于南北向较少,对于带宽要求低于训练用数据中心,但是鉴于我们认为推理侧GPU用量高于训练侧GPU用量,推理场景对于光模块市场规模和需求增速也有一定的推动能力。 建议关注标的:中际旭创、新易盛、天孚通信、源杰科技、光迅科技、华工科技、博创科技、太辰光、仕佳光子、剑桥科技、光库科技、德科立。 风险提示:AIGC发展不及预期,云厂商数据中心建设不及预期,宏观环境变动风险,测算及假设不及预期风险。 -15%-5%5%15%25%35%2022-042022-082022-122023-04通信沪深300本报告仅供 Choice 东方财富 使用,请勿传阅。999563347 行业快报/通信 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。 2 内容目录 1. NVIDIA SuperPOD:大模型AI专用架构,光模块测算典型案例 ..................... 3 1.1. NVIDIA SuperPOD为高性能AI训练首选方案 ............................... 3 1.2. DGX SuperPOD架构:以SU为基的拓扑网络 ................................ 3 1.2.1. SU:DGX SuperPOD基本构件 ....................................... 3 1.2.2. Fat-Tree拓扑:适合AI训练的拓扑结构 ............................. 4 1.3. 光模块对标铜线:光纤传输优势明显,传统物料逐渐被取代 .................. 4 2. DGX A100架构中光模块与GPU的数量关系——以SuperPOD为例 ................... 5 2.1. 以140台A100服务器为例 .............................................. 5 2.2. 以特定数据的案例分析A100架构中光模块与GPU的数量关系 ................. 8 3. DGX H100架构中光模块与GPU的数量关系——以SuperPOD为例 ................... 9 3.1. 以特定数据的案例分析H100架构中光模块与GPU的数量关系 ................. 9 4. 推理阶段光模块与GPU数量关系 .............................................. 10 5. 结论及风险提示 ............................................................ 10 图表目录 图1. SU的基本物理架构 ........................................................ 3 图2. DGX SuperPOD胖树拓扑结构(140台服务器) ................................ 4 图3. 铜线方案1、4和12个平行通道的三种链路宽度 .............................. 5 图4. DGX A100背板图 .......................................................... 5 图5. DGX A100平面架构图 ...................................................... 6 图6. A100架构使用的QM8790交换机为上下行共40个200G端口 ..................... 6 图7. DGX SuperPOD的存储架构(140台服务器) .................................. 7 图8. DGX A100计算架构与存储架构采用200G接口 ................................. 8 图9. DGX H100背板图 .......................................................... 9 图10. H100架构使用的QM9700交换机为上下行共32个800G端口(等同于64个400G端口) .......................................................................... 9 表1: 基于NVIDIA DGX SuperPOD的Selene基本情况 .............................. 3 表2: “全光模块化”架构下DGX SuperPOD计算架构光模块数量 ....................... 7 表3: “全光模块化”架构下DGX SuperPOD存储架构光模块数量 ....................... 7 表4: “全光模块化”与“半光模块化”架构下A100中光模块与GPU数量关系 .............. 8 表5: “全光模块化”与“半光模块化”架构下H100中光模块与GPU数量关系 ............. 10 本报告仅供 Choice 东方财富 使用,请勿传阅。 行业快报/通信 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。 3 1.NVIDIA SuperPOD:大模型AI专用架构,光模块测算典型案例 1.1.NVIDIA SuperPOD为高性能AI训练首选方案 NVIDIA DGX SuperPOD™是一个AI数据中心基础设施平台,是英伟达专为AI设计的一站式AI数据中心解决方案。在DGX SuperPOD的助力下,业内优秀的加速基础设施可以做到兼具敏捷性与可扩展性能,从而应对极具挑战性的AI和高性能计算(HPC)工作负载,并获得行业认可的结果。 在NVIDIA SuperPOD的基础上,NVIDIA于2015年开始构建Selene,最终实现了全新的人工智能模型节点架构,制造出了运行速度排名全球第五的超级计算机。2015年NVIDIA的工程师们希望构建一个既能训练自动驾驶汽车,又能满足深度学习研究的AI模型,于是开始了第一个系统级设计,并于2016年成功研制出了基于NVIDIA Pascal GPU的SATURNV集群;2017年,他们关注到新的应用程序的开发推动了对多节点训练的需求,要求系统之间的高速通信和对高速存储的访问,这些需求需要多个GPU来进行处理,这意味着原有的工作负载的计算方式需要更新(如模型并行性)才能跟上应用程序的步伐。因此,团队制作了基于V100的更大的NVIDIA DGX-2系统集群,先试用32个DGX-2节点,随后是64个,最终形成了拥有96节点架构的DGX SuperPOD系统。在DGX SuperPOD系统的帮助下,NVIDIA的研发人员在在几周内就完成了大型安装团队通常需要几个月才能实现的目标。 表1:基于NVIDIA DGX SuperPOD的Selene基本情况 Build time (in weeks) Assembly crew Power (in MW) Node count Total GPUs Total CPUs HPC performance (in pflops) AI performance (in exaflops) 3.5 6 1.34 280 2,240 560 27.58 1.4 资料来源:英伟达官网,安信证券研究中心 1.2.DGX SuperPOD架构:以SU为基的拓扑网络 1.2.1.SU:DGX SuperPOD基本构件 DGX SuperPOD的基本构件是SU,其由20个A100系统组成,在优化了性能和成本的同时仍然最大限度地减少了系统瓶颈与功能能耗,为复杂的工作内容以及较高的工作负载提供了结构上的支持。在正常的工作情境下,1个SU可以支持48个AI PFLOP。 图1.SU的基本物理架构 资料来源:英伟达官网,安信证券研究中心 本报告仅供 Choice 东方财富 使用,请勿传阅。 行业快报/通信 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。 4 1.2.2.Fat-Tree拓扑:适合AI训练的拓扑结构 NVIDIA DGX的计算结构设计最大限度地提高了AI工作性能,并在发生硬件故障时提供了一些冗余空间并最大限度地降低了成本。DGX A100 SuperPOD是一种模块化的系统,使用Mellanox HDR InfiniBand网络,实现了完整的“Fat-Tree”拓扑架构。 如下图所示,部署140个DGX A100的情况下,InfiniBand交换机在Fat-Tre