行业研究公司研究宏观策略财报招股书会议纪要海南封关低空经济 DeepSeek AIGC 大模型

扁平化智算网络架构研究报告

信息技术2025-09-15开放数据中心标准推进委员会艳***

AI智能总结

一、智算网络场景

业务负载说明
- 训练场景：大模型训练需要频繁的XPU间数据交换，数据移动成为系统瓶颈，训练过程易被“通信墙”制约。训练并行技术包括张量并行、序列并行、专家并行、流水线并行和数据并行，其中专家并行带来的通信量占比最大。
- 推理场景：推理场景与训练相似，但通信负载的差异化主要体现在部署策略上。PD分离和AE分离是两种主要的推理部署技术，通过解耦计算特征不同的阶段，避免资源竞争，最大化硬件利用率。
- 负载样例：不同并行技术产生的数据流量存在显著差异，专家并行占据总通信量中的绝对多数，网络带宽供给的架构设计需优先采用分层优化策略。
三种网络类型
- Front-End网络（VPC网络）：连接所有计算节点与外部世界，负责大规模数据进出，特点：超大规模、较高延迟容忍、支持多租户、带宽达100Gb/s。
- Scale-Out网络（SO网络）：用于互联多台XPU服务器，支持分布式训练、推理任务的节点间协作，特点：超低延迟、高带宽、中等规模、支持数十租户。
- Scale-Up网络（SU网络）：专注于XPU间的超高速互连，特点：极致低延迟、超高带宽、多链路、通常单租户、规模通常在一个机架或多个机架范围。

二、现有组网架构讨论

SO网络架构
- 胖树拓扑：业界主流的SO网络拓扑，通过叠加网络层次，可以持续扩大DCN网络规模，但组网成本高。
- 款型选择：框式设备端口数多，成本高；盒式设备端口数少，成本低。
- 收敛比设计：收敛比的设计取决于业务负载，业界通常选择在成本可接受范围内最低的收敛比，甚至是不收敛。
- 可靠性设计：电接入与光接入、单归接入与双归接入都是提升可靠性的方法。
- 轨道优化设计：多轨组网有利于稠密模型，但伴随模型稀疏化趋势，单轨组网将成为主流。
- Dragonfly拓扑：通过交换机间的直连替换交换机层次堆叠，实现组网规模的扩展，具有相对较好的对称性、可模组性、成本、普适性。
- Dragonfly+拓扑：在Dragonfly拓扑基础上，交换机组内交换机的互联关系为两层胖树，具有更强的可扩展性，可实现组内通信性能无损。
SU网络架构
- 胖树拓扑：英伟达NVL72超节点采用1层胖树架构，NVL576SuperPOD采用2层Clos拓扑实现576个B200GPU互联，但高成本光互联成为阻碍客户接受的主要原因。
- Torus拓扑：谷歌TPU集群采用Torus拓扑，结合OCS实现灵活拓扑切分，但All-to-All通信和小通信域切分时存在带宽损失。
- Mesh类拓扑：AMD的SU网络架构采用InfinityFabric互联，为Mesh类拓扑，具有更低直径，更优的All-to-All性能。

三、扁平化智算网络架构优化方向

SO网络
- 多平面胖树拓扑：通过扩展平面方式，满足接入端口的带宽需求，可实现两层十万卡集群组网，但需要解决X1模式MAC、硬件和布线、多平面负载均衡和多平面故障隔离等问题。
- Group-WiseDragonfly+：在Dragonfly+组网中，每个交换组内的多个L2交换机所有端口与其他组采用1D-FullMesh连接，具备Dragonfly+的全部优点，但组网规模变小。
SU网络
- 一层全光互连：ETH-XUltra项目提出单级光互联架构，实现256/512卡超节点，控制网络成本，实现计算与网络的解耦，但需要解决可靠性、端侧模式、光互连功耗和时延等问题。

四、未来网络架构趋势展望

大规模低直径的网络
- BalancedSparseTree（BST）：一种平衡稀疏树，基于组合理论设计的稀疏互联替代全互联，实现组网规模扩张，但减少了等价路径数量。
- SlimFly：基于图论中性质较好的MMS图进行构造得到，具有成本更低、性能接近Clos等优点，但组网的连线较为复杂，适配该拓扑的集合通信算法还有待完善。
多网融合：如果能实现多种网络类型的合一，包括协议的合一、物理的合一，TCO将进一步下降，但需要突破TCP、RDMA、LD/ST多业务性能隔离难题。

版权声明 ODCC（开放数据中心委员会）发布的各项成果，受《著作权法》保护，编制单位共同享有著作权。转载、摘编或利用其它方式使用ODCC成果中的文字或者观点的，应注明来源：“开放数据中心委员会ODCC”。对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为，ODCC及有关单位将追究其法律责任，感谢各单位的配合与支持。编写团队项目经理：温华锋华为技术有限公司工作组长:何泽坤腾讯科技(深圳)有限公司贡献专家:李军华为技术有限公司王少鹏中国信息通信研究院潘灏涛华为技术有限公司董鹏华为技术有限公司陈祥玉华为技术有限公司王海波华为技术有限公司袁辉华为技术有限公司卢琛达华为技术有限公司林友熙华为技术有限公司胡秀丽华为技术有限公司前言大模型巨大的算力需求，持续提升了集群的规模，产生了大规模的Scale-out网络。模型稀疏化的演进趋势，又驱动了更大规模局部大带宽互连需求，产生了逐渐扩大的Scale-up网络。本研究报告通过剖析智算网络训练与推理两大场景的业务负载及变化趋势，梳理不同网络类型的核心需求，对业界组网架构现状展开优缺点分析，进而提出扁平化优化方向，并展望未来网络架构发展方向。需强调：扁平化架构的实现亟需产业链深度协同，关键在于突破端侧网卡与I/ODie、及网侧交换机的高扇出能力、低功耗低时延且开放的光电互连能力、及端网协同的负载均衡与故障隔离等核心技术，这要求芯片商、设备商及最终用户形成联合攻坚生态。目录一、智算网络场景...................................................1（一）业务负载说明..............................................1（二）三种网络类型..............................................6二、现有组网架构讨论..............................................10（一）SO网络架构..............................................10（二）SU网络架构..............................................20三、扁平化智算网络架构优化方向....................................26（一）SO网络..................................................26（二）SU网络..................................................31四、未来网络架构趋势展望..........................................33（一）大规模低直径的网络.......................................34（二）多网融合.................................................36五、附录..........................................................37六、参考..........................................................37 图目录图1大模型训练的并行技术示意...................................2图2DistServe论文中分离部署实测效果对比........................4图3AE分离部署仿真效果.......................................5图4智算网络的分类.............................................6图5胖树拓扑...................................................9图6Meta智算集群拓扑.........................................11图7阿里智算集群拓扑..........................................12图8不同集合通信算子对收敛的容忍度............................14图9稠密模型和稀疏模型通信模式的差异..........................16图10多轨组网示意，图为8轨道.................................17图11单轨组网示意.............................................17图12Dragonfly拓扑示意图......................................19图13 Dragonfly+拓扑示意图....................................20图14NVL72超节点的拓扑示意..................................21图15NVL576超节点的拓扑示意.................................22图16H100NVL256成本分析....................................22图17Google TPU集群的网络架构演进...........................23图18Torus拓扑的Alltoall通信性能仿真数据.......................24图19Torus拓扑的Allreduce通信性能仿真数据.....................24图20AMD的SU网络架构示意..................................25图21nD-FullMesh拓扑示意图...................................25图22多平面扩展接入带宽.......................................27图23IdealMulti-PlaneNetwork:EachNICisequippedwithmultiplephysicalports,eachconnectedtoadistinctnetworkplane.Asinglequeuepair(QP)cansimultaneouslyutilizeallavailableportsfortransmittingandreceivingpackets,which necessitates....................................27图24多平面组网的线路交织方式.................................28 图25多平面负载均衡示意.......................................29 图26多平面故障隔离示意.......................................3027Dragonfly+与Group-WiseDragonfly+在绕行路径的对比............31图28当前ETH-X超节点定义...................................32图29当前ETH-XUltra超节点定义..............................32图30二层BST拓扑示意图......................................35图31SlimFly拓扑示意图.......................................36图32 OUV合一的挑战.........................................36 表目录表1模型训练、推理参数举例.....................................5表2各并行维度的通信数据量.....................................6表3三类网络的主要特征.........................................7表4电缆驱动距离参考..........................................14表5相同容量交换机不同扇出数的网络规模........................26表6各种拓扑的网络规模数据....................................37 一、智算网络场景大模型训练已成为史上规模最大、计算与通信密集度最高的并行计算应用。遵循所谓的扩展定律（ScalingLaws），大模型的性能通过扩展模型参数和训练数据量得到提升。因此，为了在合理时间内完成训练，大模型对XPU（AI加速器）的数量需求持续增长。例如，开源的LLAMA-3.1模型在1.6万块GPU上进行训练，而下一代模型已使用10万块GPU进行训练。（一）业务负载说明 1.训练场景标准训练流程需要重复执行训练迭代轮次，其中每一轮迭代包含：前向传播计算损失值、反向传播确定梯度，以及通过优化器调整模型参数。为充分利用分布式算力，大模型训练通过多种并行策略将数据、模型和激活张量分割至数万块XPU。在每个迭代轮次内，XPU之间频繁交换数据以分发输入数据、同步激活值及梯度等。随着训练系统规模扩大，数据移动成为整个系统中最耗资源的环节。若缺乏强大的通信能力，训练过程极易被"通信墙"制约。如上图1所示，大语言模型训练通常涉及多种并行技术，具体说明如下：（1）张量并行（TensorParallelism,TP）以行或列方式分割模型层，将子层分布至多个XPU并行计算。（2）序列并行（SequenceParallelism,SP）部分文献亦称上下文并行，通过分割序列至多个XPU实现并行处理。（3）专家并行（ExpertParallelism,EP）针对采用混合专家（MoE）的模型，将稠密MLP层替换为含多专家的MoE层。EP将专家分布至不同XPU，输入令牌通过All2All通信动态路由至目标专家。（4）流水线并行（PipelineParallelism,PP）与逐层分割的TP不同，PP将模型层分配至多设备，以流水线方式执行前向/反向传播。（5）数据并行（DataParallelism,DP）在多个XPU间复制模型及优化器状态，每个副本并行处理部分输入批次。 2.推理场景推理场景从并行技术角度与训练相似，其与训练相比，通信负载的差异化主要体现在部署策略上。业界近期显著的推理部署技术变化是PD分离和AE分离，其本质均是通过解耦计算特征不同的阶段，避免资源竞争，最大化硬件利用率。（1）PD分离[8]：将推理过程拆解为Prefill（预填充）和Decode（解码）两个独立阶段，分别部署不同的XPU上。Prefill阶段处理用户输入的整个Prompt上下文，计算所有Token的KVCache，硬件需求为计算密集型，适合部署在高算力XPU。Decode阶段基于KV Cache逐个生成输出Token（自回归），硬件需求为访存密集型，适合部署在大显存/高带宽XPU。Prefill阶段输出的KVCache，是Decode阶段的输入，网络新增的负载就从Prefill节点传输KV Cache数据到Decode节点。业界有实践证明PD分离可以大幅提升推理的TPS（tokenpersecond）性能，参考图2。（2）AE分离[9]：将MoE模型推理解耦为Attention（注意力计算）与Expert（专家执行）两个独立阶段，分别部署不同的XPU上。At

点击免费查看完整报告