AI智能总结
版权声明 ODCC(开放数据中心委员会)发布的各项成果,受《著作权法》保护,编制单位共同享有著作权。 转载、摘编或利用其它方式使用ODCC成果中的文字或者观点的,应注明来源:“开放数据中心委员会ODCC”。 对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC及有关单位将追究其法律责任,感谢各单位的配合与支持。 编写团队 项目经理:温华锋华为技术有限公司工作组长:何泽坤腾讯科技(深圳)有限公司贡献专家:李军华为技术有限公司王少鹏中国信息通信研究院潘灏涛华为技术有限公司董鹏华为技术有限公司陈祥玉华为技术有限公司王海波华为技术有限公司袁辉华为技术有限公司卢琛达华为技术有限公司林友熙华为技术有限公司胡秀丽华为技术有限公司 前言 大模型巨大的算力需求,持续提升了集群的规模,产生了大规模的Scale-out网络。模型稀疏化的演进趋势,又驱动了更大规模局部大带宽互连需求,产生了逐渐扩大的Scale-up网络。 本研究报告通过剖析智算网络训练与推理两大场景的业务负载及变化趋势,梳理不同网络类型的核心需求,对业界组网架构现状展开优缺点分析,进而提出扁平化优化方向,并展望未来网络架构发展方向。需强调:扁平化架构的实现亟需产业链深度协同,关键在于突破端侧网卡与I/ODie、及网侧交换机的高扇出能力、低功耗低时延且开放的光电互连能力、及端网协同的负载均衡与故障隔离等核心技术,这要求芯片商、设备商及最终用户形成联合攻坚生态。 目录 一、智算网络场景...................................................1(一)业务负载说明..............................................1(二)三种网络类型..............................................6二、现有组网架构讨论..............................................10(一)SO网络架构..............................................10(二)SU网络架构..............................................20三、扁平化智算网络架构优化方向....................................26(一)SO网络..................................................26(二)SU网络..................................................31四、未来网络架构趋势展望..........................................33(一)大规模低直径的网络.......................................34(二)多网融合.................................................36五、附录..........................................................37六、参考..........................................................37 图目录 图1大模型训练的并行技术示意...................................2图2DistServe论文中分离部署实测效果对比........................4图3AE分离部署仿真效果.......................................5图4智算网络的分类.............................................6图5胖树拓扑...................................................9图6Meta智算集群拓扑.........................................11图7阿里智算集群拓扑..........................................12图8不同集合通信算子对收敛的容忍度............................14图9稠密模型和稀疏模型通信模式的差异..........................16图10多轨组网示意,图为8轨道.................................17图11单轨组网示意.............................................17图12Dragonfly拓扑示意图......................................19图13 Dragonfly+拓扑示意图....................................20图14NVL72超节点的拓扑示意..................................21图15NVL576超节点的拓扑示意.................................22图16H100NVL256成本分析....................................22图17Google TPU集群的网络架构演进...........................23图18Torus拓扑的Alltoall通信性能仿真数据.......................24图19Torus拓扑的Allreduce通信性能仿真数据.....................24图20AMD的SU网络架构示意..................................25图21nD-FullMesh拓扑示意图...................................25图22多平面扩展接入带宽.......................................27图23IdealMulti-PlaneNetwork:EachNICisequippedwithmultiplephysicalports,eachconnectedtoadistinctnetworkplane.Asinglequeuepair(QP)cansimultaneouslyutilizeallavailableportsfortransmittingandreceivingpackets,which necessitates....................................27图24多平面组网的线路交织方式.................................28 图25多平面负载均衡示意.......................................29 图26多平面故障隔离示意.......................................3027Dragonfly+与Group-WiseDragonfly+在绕行路径的对比............31图28当前ETH-X超节点定义...................................32图29当前ETH-XUltra超节点定义..............................32图30二层BST拓扑示意图......................................35图31SlimFly拓扑示意图.......................................36图32 OUV合一的挑战.........................................36 表目录 表1模型训练、推理参数举例.....................................5表2各并行维度的通信数据量.....................................6表3三类网络的主要特征.........................................7表4电缆驱动距离参考..........................................14表5相同容量交换机不同扇出数的网络规模........................26表6各种拓扑的网络规模数据....................................37 一、智算网络场景 大模型训练已成为史上规模最大、计算与通信密集度最高的并行计算应用。遵循所谓的扩展定律(ScalingLaws),大模型的性能通过扩展模型参数和训练数据量得到提升。因此,为了在合理时间内完成训练,大模型对XPU(AI加速器)的数量需求持续增长。例如,开源的LLAMA-3.1模型在1.6万块GPU上进行训练,而下一代模型已使用10万块GPU进行训练。 (一)业务负载说明 1.训练场景 标准训练流程需要重复执行训练迭代轮次,其中每一轮迭代包含:前向传播计算损失值、反向传播确定梯度,以及通过优化器调整模型参数。为充分利用分布式算力,大模型训练通过多种并行策略将数据、模型和激活张量分割至数万块XPU。在每个迭代轮次内,XPU之间频繁交换数据以分发输入数据、同步激活值及梯度等。随着训练系统规模扩大,数据移动成为整个系统中最耗资源的环节。若缺乏强大的通信能力,训练过程极易被"通信墙"制约。 如上图1所示,大语言模型训练通常涉及多种并行技术,具体说明如下: (1)张量并行(TensorParallelism,TP) 以行或列方式分割模型层,将子层分布至多个XPU并行计算。 (2)序列并行(SequenceParallelism,SP) 部分文献亦称上下文并行,通过分割序列至多个XPU实现并行处理。 (3)专家并行(ExpertParallelism,EP) 针对采用混合专家(MoE)的模型,将稠密MLP层替换为含多专家的MoE层。EP将专家分布至不同XPU,输入令牌通过All2All通信动态路由至目标专家。 (4)流水线并行(PipelineParallelism,PP) 与逐层分割的TP不同,PP将模型层分配至多设备,以流水线方式执行前向/反向传播。 (5)数据并行(DataParallelism,DP) 在多个XPU间复制模型及优化器状态,每个副本并行处理部分输入批次。 2.推理场景 推理场景从并行技术角度与训练相似,其与训练相比,通信负载的差异化主要体现在部署策略上。业界近期显著的推理部署技术变化是PD分离和AE分离,其本质均是通过解耦计算特征不同的阶段,避免资源竞争,最大化硬件利用率。 (1)PD分离[8]: 将推理过程拆解为Prefill(预填充)和Decode(解码)两个独立阶段,分别部署不同的XPU上。Prefill阶段处理用户输入的整个Prompt上下文,计算所有Token的KVCache,硬件需求为计算密集型,适合部署在高算力XPU。Decode阶段基于KV Cache逐个生成输出Token(自回归),硬件需求为访存密集型,适合部署在大显存/高带宽XPU。Prefill阶段输出的KVCache,是Decode阶段的输入,网络新增的负载就从Prefill节点传输KV Cache数据到Decode节点。业界有实践证明PD分离可以大幅提升推理的TPS(tokenpersecond)性能,参考图2。 (2)AE分离[9]: 将MoE模型推理解耦为Attention(注意力计算)与Expert(专家执行)两个独立阶段,分别部署不同的XPU上。At