AI智能总结
证券分析师:张良卫执业证书编号:S0600516070001联系邮箱:zhanglw@dwzq.com.cn联系电话:021-60199793 证券分析师:李博韦执业证书编号:S0600123070070联系邮箱:libw@dwzq.com.cn 2025年8月20日 我们认为Scale Up网络存在ScalingLaw,Scale Up柜间第二层网络会逐渐出现,光+AEC连接多出与芯片1:9的配比需求,交换机多出与芯片4:1的配比需求,相较Scale Out网络均倍增: 1.英伟达持续扩大Scale Up规模:英伟达正通过两大路径持续扩大Scale Up网络规模。2)提升单卡带宽:NVLink持续迭代,NVLink5.0单卡带宽达7200Gb/s;2)扩大超节点规模:Scale Up超节点规模不断扩大,从H100NVL8到GH200再到GB200等,NVL72等机柜方案可以提高训推效率,但并不是ScaleUp的上限,NVL72等机柜后续会作为最小的节点(Node)存在,像积木一样在柜与柜之间进一步拼出更大的Scale Up超节点,届时需要光连接等进行通信。 2.为什么需要ScaleUp网络:“内存墙”问题和AI计算范式演进推动Scale Up网络升级。“内存墙”:单一大模型的参数量与单卡显存的差距(即模型内存墙)、单卡算力与单卡显存间的差距(即算力内存墙)均逐代放大,通过Scale Up将显存池化。计算范式:为了提升计算效率,在进行数据并行、流水线并行的同时也采用张量并行与专家并行,后者对通信频次、容量的要求都跨越数量级。 3.为什么需要更大的Scale Up网络:TCO、用户体验、模型能力拓展。随着单用户每秒消耗的Token数(Tokens Per Second,TPS)提高,包括NVL72在内的现有服务器单卡性能都会逐渐坍缩,在用户体验持续提升、模型能力拓展的趋势下,单用户TPS必然增长,采用更大规模的Scale Out能提高单卡有效性能,TCO也更具经济性。我们认为Scale Up规模与预期单用户TPS、单卡实际性能间存在Scaling Law,前者会随后者非线性增长。 4.怎么组建更大的Scale Up网络:网络结构层面,在柜间搭建第二层Scale Up交换机;端口连接层面,光与AEC有望在第二层网络中并存,按照最新的NVLink与IB标准测算,1颗GPU需要9个额外的等效1.6T连接,为Scale Out网络的3-4.5倍,每4颗GPU需要额外1台交换机,为Scale Out网络的7.5-12倍。 投资建议:我们认为Scale Up需求有望持续拓展,带来倍增的网络连接需求,光连接、AEC、交换机等环节都有望深度受益,相关标的——光互连:中际旭创,新易盛,天孚通信,光库科技,长芯博创,仕佳光子,源杰科技,长光华芯,太辰光;铜互连:中际旭创,兆龙互连;交换机:锐捷网络,盛科通信,Astera Labs(美股,后同),博通,天弘科技,Arista 风险提示:算力互连需求不及预期;客户处份额不及预期;产品研发落地不及预期;行业竞争加剧。 我们认为后续算力互连需求发展存在乘数效应: •资本开支结构优化,算力芯片增长速度高于资本开支增速 ◼单芯片带宽提升,算力互连需求增速高于芯片需求增速◼芯片需求=CapEx×算力芯片投资在CapEx占比×芯片投资性价◼算力互连需求=芯片需求×单芯片带宽 英伟达持续扩大Scale Up规模 为什么需要ScaleUp网络 为什么需要更大的Scale Up网络 怎么组建更大的Scale Up网络 投资建议及风险提示 1.英伟达持续扩大Scale Up规模 1.1英伟达持续尝试扩大Scale Up规模 •英伟达从单卡带宽与超节点规模两个路径升级Scale Up; •NVLink跟随每一代GPU架构进行升级,目前最新用于B系列GPU的NVLink 5.0可支持单卡7.2Tb的带宽,相较用于H100的NVLink 4.0带宽翻倍; •Scale Up超节点规模在H100之后经历了GH200、GB200等方案,从NVL8拓展至NVL72甚至更高,这个扩展路径是复杂但必需的。 1.2H100 NVL8到GH200 NVL 256:前瞻但过于激进的一步 •英伟达在2023年基于H200发布了GH200 NVL256超节点,后者由32个计算Chassis组成,每个Chassis由8张GH200组成; •Chassis内8张GH200通过L1 NVSwitch连接,32个Chassis间通过L2 NVSwitch连接;•L2 NVSwitch通过光连接,每张GPU配套8个800G光模块,大约每7张GPU对应一台L2 NVSwitch;•单张GPU配套Scale Up的通信硬件成本较高与GPU为同一数量级,且训练、推理性能提升尚不明显,GH200 NVL 256未实现大范围推广,英伟达后续推出成本更低的GB200 NVL72的前身GH200 NVL32。 1.3GB与VR机柜:有效但并非Scale Up最终形态 •GB与VR的机柜方案已经讨论了很多,这里主要阐述我们对这类机柜产品的判断: ◼机柜方案延续了英伟达在GH200 NVL256上的思路,即除了提升NVLink带宽外,还要提高Scale Up超节点的规模,升级为机柜方案是为了增加GPU密度,节省物理空间的同时缩小GPU间连接距离,以使用相比于光连接成本更低的PCB、铜连接; ◼铜连接、PCB、液冷、电源等都随着GPU密度提高实现单张GPU对应价值量的跃升; ◼机柜方案实现的NVL72、NVL144等Scale Up确实可以提高训练、推理效率,但并不是英伟达Scale Up的上限,NVL72、NVL144等机柜方案后续会作为最小的Scale Up节点(Node)存在,像积木一样在柜与柜之间进一步拼出更大的Scale Up超节点,届时需要光连接等进行通信。可具体参考后续章节对Scale Up需求的底层逻辑以及趋势的分析。 2.为什么需要ScaleUp网络 2.1 Scale Up与Scale out的特点与作用各不相同 若干超节点(SuperPod,如NVL 72)组成集群(Cluster,如万卡、十万卡集群); •Scale Out网络实现集群内所有GPU卡互联,亮点在于网络内连接GPU数量大,与传统数据中心网络类似; •Scale Up网络实现超节点内所有GPU卡互联,亮点在于网络内单卡通信带宽高,组网规模尚小,为AI算力场景下新兴的网络架构; •Scale Up并不仅限于柜内,柜外也可进行Scale Up。 (由于篇幅有限本文未就技术原理做详细阐述,具体细节欢迎进一步交流) 2.2“内存墙”问题需要Scale Up网络将显存池化来缓解 训推计算的“内存墙”催生出通过Scale Up网络将显存池化的需求: •单一大模型的参数量与单卡显存的差距(即模型内存墙)、单卡算力与单卡显存间的差距(即算力内存墙)均逐代放大 •除模型参数外,推理计算生成的KV Cache(关键中间值的缓存,用于简化计算)占用显存大小也可达模型的50%甚至以上 •因此单卡运算时需从多张卡的显存读取所需参数、数据,为了尽可能减少数据传输时延,目前产业化应用最优解是使用Scale Up网络将显存池化,如NVL72。 2.3 AI训推计算范式推动Scale Up升级、单卡带宽提升 •AI训推需要分布式并行计算,基于对计算效率不断提升的追求,并行计算方式有数据并行(DataParallelism)、流水线并行(Pipeline Parallelism)、专家并行(MoEParallelism)及张量并行(Tensor Parallelism)。 •数据并行:将输入数据分配给各个负载,各负载上基于不同数据进行同一模型的训练/推理; •流水线并行:将模型分为若干层分配给各个负载,各负载分别进行不同层的计算; •张量并行:将模型参数运算的矩阵拆分为子矩阵传输至各个负载,各负载分别进行不同的矩阵运算 (由于篇幅有限本文未就技术原理做详细阐述,具体细节欢迎进一步交流) 张量并行计算原理 •目前模型训推主要采用混合并行,即多种并行方式同时进行,可从不同维度切分/编组进行并行 •张量并行、专家并行是粒度更细的并行方式,更高效利用单张芯片配套内存,因此可以明显提升计算效率。 (由于篇幅有限本文未就技术原理做详细阐述,具体细节欢迎进一步交流) 2.3张量并行对通信的高要求催生Scale Up需求 •张量并行在每一层神经网络的计算后都需要将新的计算结果收集、汇总,并将完整结果重新分发,即Allreduce通信,因此在训推时对通信频率、传输容量都有更高要求。 •需要用Scale Up满足越来越高的通信频率、传输容量需求。 (由于篇幅有限本文未就技术原理做详细阐述,具体细节欢迎进一步交流) 资料来源:《Understanding Communication Characteristics of Distributed Training》,《Characterizing Communication Patterns inDistributed Large Language Model Inference》,新华三,东吴证券研究所 3.为什么需要更大的Scale Up网络 3.1 Scale Up可加速推理,且增益随推理负载提升而扩大 •我们认为Scale Up规模越大,集群算力有效利用率往往越高,且随着单用户推理负载增加,增益会越来越大,这里以GB200 NVL72、B200 NVL8的对比为例(可见下一页图片) •测试配置:各类方案都是基于33000张GPU的Scale Out集群进行测试,GB200 NVL72采用了NVL72 Scale Up超节点、Grace CPU、FP4精度,B200 NVL8采用了NVL8 Scale Up超节点、IntelXeon CPU、FP8精度,因此精度优化可为GB200 NVL72直接带来1倍单卡性能提升; •模型:GPTMoE1.8T模型,采用混合并行推理(最多64维并行),FTL=5s,TTL=50ms,input/output长度分别为32768 /1024; •坐标轴含义:横轴代表单用户每秒收到的Token数(Tokens Per Second,TPS),亦即用户体验或模型推理的实际输出能力;纵轴代表集群内每张GPU每秒输出的Token数,亦即推理时单张卡的实际性能或有效利用程度; •每条曲线每点对应各单用户TPS下,所有混合并行方案及Chunk Size组合中单卡性能最大值 •可以初步观测到横纵坐标成反比,主要原因为单用户TPS提升后需要在单位时间内用更多GPU输出更多Token,通信阻塞变大,GPU等待数据传输的时间增加,利用率下降。 3.1 Scale Up可加速推理,且增益随推理负载提升而扩大 •在单用户TPS为10 Tokens/s时,GB200 NVL72的单卡实际性能约为B200 NVL8的3倍,考虑FP4精度优化带来的约1倍提升后,ScaleUp+GraceCPU带来约50%的性能提升; •在单用户TPS为20 Tokens/s时,GB200 NVL72的单卡实际性能约为B200 NVL8的7倍,考虑FP4精度优化带来的约1倍提升后,ScaleUp+GraceCPU带来约250%的性能提升; •我们认为随着单用户TPS增加,Scale Up带来的单卡利用率增益会越来越大。 (由于篇幅有限本文未就技术原理做详细阐述,具体细节欢迎进一步交流) 3.2 NVL72、144不是推理Scale Up的上限 •我们认为机柜对应的NVL72、NVL144等方案并不是Scale Up超节点的上限,机柜会像积木一样进一步拼出更大的超节点,这主要来自硬件TCO、用户体验、模型能力拓展三层因素; •当单用户TPS沿横轴提