您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[申银万国期货]:人工智能行业GenAI系列之34:网络之辩,英伟达Blackwell背后的光电演绎 - 发现报告

人工智能行业GenAI系列之34:网络之辩,英伟达Blackwell背后的光电演绎

信息技术2024-03-30李国盛、杨海晏、黄忠煌申银万国期货R***
AI智能总结
查看更多
人工智能行业GenAI系列之34:网络之辩,英伟达Blackwell背后的光电演绎

GenAI系列之34 证券分析师:李国盛A0230521080003 ligs@swsresearch.com杨海晏A0230518070003黄忠煌A0230519110001林起贤A0230519060002刘洋A0230513050006联系人:李国盛ligs@swsresearch.com 2024.3.30 投资案件 结论 •AI底层硬件向“大系统”演进。 •市场较多讨论英伟达GB200 NVL系统的通信需求,光与铜“孰轻孰重”;我们认为光电混合是当前重要架构,未来更高速的光网络和芯片层面的光互联是长期方向。 •基于云厂商视角,我们预计GB200NVL系统是AI训练+推理在云端的较佳选择。而在英伟达B系列芯片更新的节点上,我们预计后续AI芯片迭代出货,对应的800G/1.6T光模块/光器件需求增长,硅光、液冷产业链投资机会也随之增加,看好海外大厂的高速网络需求的持续性。 原因及逻辑 •1)英伟达的GB200 NVL72方案将72 GPU高密度配置在一个机柜中,用于大模型训推,其中柜内组网以电气信号背板和铜线的NVLink网络为主,而机柜外扩容组网尤其千至万卡互联则需要2-3层交换机网络和光通信方案。前者是芯片互联增量,后者架构延续但整体升级。 •2)整体看,单一介质网络连接的性能,最大传输距离与最高带宽成反比,且综合考虑成本,同时考虑工程可行性。光电混合是当前出于成本考虑的重要架构,光网络和芯片层面的光互联是长期方向。•3)硅光的演进方向明确。芯片算力性能暴增+训练/推理的参数需求,网络、访存性能亟需同步提升。电口瓶颈已至,芯片-板卡-设备间高速互联,光电子几乎是迭代唯一出路。当前放量临近、格局逐步明晰。•4)AI硬件高密度、高功耗的路径下,液冷方案的渗透空间巨大。 投资案件 有别于大众的认识 •市场担心英伟达GB200系统为代表的AI硬件演进,光通信需求降低。我们从GB200 NVL72系统的拆解与理想化测算、光铜两种方案的应用场景、硅光产业的发展节奏等角度出发,认为光电混合是当前重要架构,未来更高速的光网络和芯片层面的光互联是长期方向。 •市场担心AI从训练到推理的过程,对硬件的需求降低。而AI大模型参数量的增速显著大于GPU内存与算力增速,高集成度+大内存+多GPU的系统更适配大模型训推,我们认为不管是800G/1.6T光模块/光器件需求,还是硅光、液冷的投资机会,均是后续重要的产业增量,看好高速网络等硬件需求的持续性。 相关标的:聚焦AI算力网络产业链 •光通信之中际旭创、新易盛、天孚通信、华工科技、光迅科技、源杰科技等。算力设备之紫光股份、锐捷网络、中兴通讯、烽火通信以及盛科通信等。液冷与IDC之英维克、飞荣达、润泽科技等。 风险提示: •1)芯片与系统的技术演进速度几乎是历史最快,同时也意味着演进方向可能多元化,科技大厂定制芯片的需求也说明了这一点。不同的系统架构和网络实践,可能会影响网络器件、设备等的长期需求。 •2)大模型算法的发展方向,例如参数量的变化、模型设计的变化等,也直接影响了底层的硬件架构设计,可能造成硬件需求的波动。 主要内容 1.Blackwell:英伟达新架构,变与不变2.高速网络:量化测算,迭代提速3.光通信:NVLink启示,硅光未来4.液冷:技术奇点,算力同行5.结论、相关标的与风险提示 1. Blackwell:英伟达新架构,变与不变 (一)性能跃升:内存、带宽、算力“三大件” •TSMC4NP工艺,2dies,20PFLOPS@FP8(Hopper2.5倍)•HBM3e192GB内存@8TBps带宽 (二)NVLink5th,拓展72GPU集群,C2C互联 •单GPU18xNVLink,带宽1800GBps(此前H100一代900GBps)•最新NVLinkSwitch交换芯片,可576GPU互联(目前实际应用72GPU互联,此前仅8GPU)•Chiptochip,真正意义上实现跨“服务器”互联,达机柜级(尽管此前H100也有尝试)新变化 (三)算力呈现方式:板卡-服务器-机柜系统 新变化 •GB200NVL72系统,算力的“最小单元”从GPU扩大为机柜,以应对海量参数训推 (四)网络场景:c2c,b2b,m2m,交换机网卡 •光、电混合,成本与性能平衡,200GSerDes,集群带宽首次应用1.6Tbps光网络 (五)液冷:高密度,高功率 •GB200功率可达2700W,NVL72单机柜总功率190kW+,全液冷必备 主要内容 1.Blackwell:英伟达新架构,变与不变 2.高速网络:量化测算,迭代提速 3.光通信:NVLink启示,硅光未来 4.液冷:技术奇点,算力同行 5.结论、相关标的与风险提示 2.1高速网络:AI竞赛揭开序幕,技术迭代明确加速 2024-2025年开始训练+推理密集的产业需求,市场对算力网络的路径与需求有分歧/预期差。 2.2英伟达GB200 NVL72系统,组网推演 GB200系统的构成: 2x Blackwell GPU + 1x GraceCPU = 1 GB200 GPU-CPU间由1组NVLink连接,带宽900 GB 每个GPU对外分别有18条NVLink连接对应1800 GB的带宽 在GB200 NVL72中: 2张GB200板卡构成1个计算节点,1个机柜中有18个计算节点。 相当于在1个机柜中,共计:18 x 4 = 72 GPUs18 x 2 = 36 CPUs 2.2英伟达GB200 NVL72系统,组网推演 9台NVLink Switch 1个GB200 NVL72机柜类似于过去1台服务器的颗粒度: •共18个NVSwitch芯片•72个ports@1.8 TBps 交换机和计算节点之间的连接方式和GH200类似,通过盲插高速背板(blindmate backplane)互联,铜线为主。 2.2英伟达GB200 NVL72系统,组网推演 据GTC2024公开的GB200NVL72系统的展示图,GB200机柜的正面的网络接口,包括: •ConnectX对应的InfiniBandOSFP接口(x4400Gb/800Gb)•BlueField-3DPU的QSFP112接口(x2)•RJ45的以太网接口 参考英伟达此前A100/H100/GH200等系统设计,我们预计InfiniBand的网络采用外部网络机柜的fat-tree组网。 2.2英伟达GB200 NVL72系统,组网推演 此外,英伟达GTC2024发布Quantum-XInfiniBand800交换机,1.6T时代来临! •其中NVIDIAQuantum-X800Q3400-RA4U交换机:•首个200GSerDes交换机;•144个800Gb端口,整合72个OSFP口(每个1.6T带宽,后续升级ConnectX-8800Gbps);•2层fat-tree架构下,支持10368个NIC扩容&同时LD版本为液冷系统。 NVIDIA Spectrum-X800EthernetPlatform800G OSFP x64 2.2英伟达GB200 NVL72系统,组网推演 以8台计算机柜为例,GB200 NVL72系统需要额外的网络机柜实现扩容,同时配置液冷机柜;实际整个系统机柜数接近20台,而跨机柜扩容,预计需要较多光通信连接。 2.3 NVLink和InfiniBand双体系,训推一体(4机柜组网) 2.3 NVLink和InfiniBand双体系,训推一体 GB200NVL72系统对网络的需求测算,4机柜72GPUs—— 1)NVLink交换机需求量:9x4=36台(各自机柜内的L1交换机) 2)InfiniBand交换机需求量:L14台+L22台=6台(X8001.6T交换机) •每台交换机144个端口,无收敛网络下,L1交换机上下行端口等分,即上行72+下行72; •第1台交换机的72个端口,分别连接4个机柜中18个Compute Node(共72个Node)中的第1张CX-8(800Gb),以此类推,由于每个Compute Node中均有4个CX-8,这样L1层的4台交换机,下行的72个端口可插满;•继续,对于4台L1交换机剩余的上行72个端口,总计4x72=288个连接,L2交换机仅需288÷144=2台,即可实现端口的全互联。 3)光模块的需求量(对应4x72=288GPUs): GPU侧,4x72=288个800G光模块(GPU比=1:1) 交换机侧,6x72=432个1.6T光模块(GPU比=1:1.5) 以上的2层fat-tree网络,最大可支持10368卡扩容 •即144x72;当集群大于10368卡时,L1交换机将大于144台;由于该L2交换机单台端口数最大144,则L1和L2之间无法充分互联,需要增加一层L3交换机。 •此时会增加1.6T光模块的GPU比,至1:2.5。 2.3 NVLink和InfiniBand双体系,训推一体 Keys: NVLink5th最大可576个GPU扩容,目前商用连接72个GPU,仅机柜层面;未来可能扩容。 •此前,H100一代对应的NVLink4th,“通过在服务器外部添加第二层NVLink交换机,NVLink交换机系统最多可以互连256个GPU”,即可通过新增网络投资的方式,实现算力性能跃升; •而本次NVLink5th,带宽与寻址性能大幅提升,系统性能的挖潜空间大(猜测或依据未来模型size、客户需求等进一步定制NVL网络) 机柜外扩容,纯光网络:依靠InfiniBand网络,对应ConnectX-7的400G(800G)网络,或未来升级的ConnectX-8的800G(1.6T)网络。 •IB架构的fat-tree光通信需求,与H系列一致(3层网络对应,GPU:1.6T光模块需求量≈1:2.5) 机柜内组网,电信号为主:NVL72系统依靠NVLink网络(高速背板),未来或结合硅光? 因此,尽管GB200在产品序列上是GH200的升级,但考虑GH200的实际推广情况,我们认为GB200的产业价值实际上应对标H100系统。 •H100服务器8GPU+2CPU+4NVSwitch•vsGB200NVL7272GPU+36CPU+18NVSwitch 2.3 NVLink和InfiniBand双体系,训推一体 站在云厂商视角,我们预计GB200NVL系统是AI训练+推理在云端的较佳选择。具体: 1)万亿以上参数训推,72GPU机柜是相比8GPU服务器更好的颗粒度选择; •GB200NVL72可单机柜胜任1.8T参数GPT-MoE的推理。 2)验证了大模型推理亦需要高速卡和大集群; •NVLink网络本质是GPU和HBM的扩容。与H100相比,GB200可提供30倍的token吞吐量,对于多模态推理、并发用户数爆发,意义重大。 2.3 NVLink和InfiniBand双体系,训推一体 3)云端大概率训推一体,符合云的虚拟化和分布式需求; •Gx系列是英伟达ARM训+推产品线重要布局,技术演进从传统服务器走向高密度集群•云端AIDC虚拟化部署,考虑训+推硬件一体化配置•增加FP4精度提升推理性能•“themoreyoubuy,themoreyousave” 4)Fat-tree组网架构没有变化,这延续了光通信的需求趋势; 5)机柜层面上,增加了部分铜与电气信号的连接需求; 6)液冷需求爆发,未来更高的芯片密度(72GPU甚至更多)是摩尔定律的选择。 因此GB200NVL在AWS、MSFT、Oracle等客户中评价较高,且已形成初步订单。 •例据Amazon,AWS正在使用GB200NVL72构建20736个B200GPU的计算集群。 主