您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国移动研究院]:王瑞雪:全调度以太网,构建新型智算中心网络底座 - 发现报告
当前位置:首页/行业研究/报告详情/

王瑞雪:全调度以太网,构建新型智算中心网络底座

王瑞雪:全调度以太网,构建新型智算中心网络底座

全调度以太网,构建新型智算中心网络底座中国移动 王瑞雪2023.10 目录01中国移动NICC技术体系及关键技术03中国移动智算中心网络技术创新与实践02新型智算中心网络的演进趋势04总结与展望 什么是NICC新型智算中心以高性能GPU、AI加速卡为中心,以高速互联智算集群为目标,形成集约化建设的E级超大规模算力基础设施,具备软硬件AI全栈环境,支撑AI大模型的高效训练和推理 新型智算中心新算效新互联新存储新平台新节能 NICC新型智算中心架构基础设施智算平台ROCmCUDACANNTesnsorFlowPyTorchPaddlePaddleDeepSpeed文件对象块存储计算CPUGPU液冷高效供电机房配套冷却水系统应用使能......跨架构编译器算力抽象运行时算力原生智算运维裸金属实例虚拟机实例容器实例DPU 高速互联计算总线内存池融合存储全局统一存储Hypervisor +AI开发框架智算运营跨节点分布式训练调度编排调度计量计费算力交易用户界面运营管理模块开发管理交付管理运维管理模块虚机容器IaaS管理模块裸机存储网络网络RoCEGSE平台存储互联节能算效CIM强化互联技术、深化算力协同、定义新型存储、新增算力原生、升级绿色节能新平台-算力原生“芯合”算力原生平台,使能应用一次开发,跨架构迁移新互联-高速互联计算总线构建智算芯片快速互联标准体系,提升卡间互联性能新存储-内存池构建统一内存池,实现一致性内存语义和空间寻址新互联-全调度以太网GSE无阻塞、高带宽、低时延网络,提升节点间的传输性能新算效-DPU与计算、网络、存储深度协同,助力算效提升。 新节能-冷板式液冷聚焦液冷服务器和机柜的接口标准,优化运维管理能力布局攻关创新技术推动智算发展 目录01中国移动NICC技术体系及关键技术03中国移动智算中心网络技术创新与实践02新型智算中心网络的演进趋势04总结与展望 智算中心网络定义面向任务场景,以算力资源为池化对象,网络提供CPU、GPU、存储之间高速连接面向业务场景,以服务器/VM为池化对象,网络提供VM/服务器之间连接数据中心As Is – Data Center智算中心To Be – Cluster Computing............CPU PoolMemory PoolGPU PoolStorage Pool智算中心网络Bus服务器/VMBus服务器/VMBus服务器/VMBus数据中心网络•智算中心网络作为算力组成部分,用于连接CPU、GPU、内存等池化异构算力资源,贯穿数据计算、存储全流程,网络性能增强对提升智算中心整体算力水平具有关键意义 传统DC与智算中心流量模型区别单个流量累积流量单个流量累积流量传统DC流量模型智算中心(All-to-all)流量模型单个流量:数量多、带宽小、异步累积流量:抖动幅度较小,具有随机性单个流量:数量少、带宽大、同步累积流量:波峰、波谷效应明显,具有周期性GPU停工等待其他GPU完成工作 服务器内Tensor并行(机内总线通信)一组服务器内Pipeline并行(网络同轨通信)服务器间数据并行(网络同轨通信)GPU1GPU0GPU2GPU3GPU5GPU4GPU6GPU7Pipeline stage0GPU1GPU0GPU2GPU3GPU5GPU4GPU6GPU7Pipeline stage1GPU1GPU0GPU2GPU3GPU5GPU4GPU6GPU7Pipeline stageXData Parallel Rank0GPU1GPU0GPU2GPU3GPU5GPU4GPU6GPU7Pipeline stage0GPU1GPU0GPU2GPU3GPU5GPU4GPU6GPU7Pipeline stage1GPU1GPU0GPU2GPU3GPU5GPU4GPU6GPU7Pipeline stageXData Parallel Rank1Data Parallel Rank Y大模型:数据并行+模型并行(Tensor并行+Pipeline并行),AI训练集群规模千卡->万卡并行方式特征对通信的需求Tensor并行(TP)通信量巨大(百GB),通信时间不可掩盖节点内allreduce超高带宽Pipeline并行(PP)通信量较大(模型相关,百M-GB级)通信时间不可掩盖/流水可掩盖跨节点P2P中带宽数据并行(DP)通信量大(GB级)通信时间计算可大部分掩盖跨节点allreduce高带宽MOE通信量大通信时间不可掩盖跨节点alltoall/allreduce高带宽大模型训练通信特点:Ø周期性,每轮迭代的通信模式一致Ø流数量少,单流带宽大,同步突发Ø每轮通信量大(GB~百GB级)•服务器内通信量为百GB级,以allreduce为主•服务器间通信量为GB级,包括allreduce和p2p,大部分可以被计算掩盖•MOE会引入节点间alltoall流量AI参数面通信特征:数据并行+模型并行 面向大模型训练,网络成为AI算力瓶颈AI大模型以GPU集群分布式训练为基础,集群节点间频繁地参数同步带来大量通信开销,超大集群不意味着超大算力,智算中心网络技术和设备能力成为提升GPU集群算力水平的关键网络性能决定GPU集群算力加速比集群有效算力∝{GPU单卡算力*总卡数*线性加速比*有效运行时}网络可用性决定GPU集群稳定性2%的丢包就会使RDMA吞吐率下降为0GPU集群性能 ≠ 单GPU性能*N网络设备能力决定GPU集群组网规模注:以H800(400G*8)服务器为例,51.2T可支持1024台服务器组网,12.8T仅支持64台服务器组网网络规模=K2/4(K=单台设备端口数量) 10传统无损网络技术的方案逻辑达成效果带来问题解决办法达成效果达成效果解决办法带来问题达成效果解决办法带来问题解决办法解决办法PFC和ECN的技术原理并不复杂,工程实施的重点和难点主要在于缓存水线配置调优的复杂度很高,且水线设置对业务性能的影响大RDMA降低服务器侧时延加重阻塞/丢包PFC无丢包吞吐降低ECN调节发送端速率高性能集群计算的网络需求:高带宽、低时延、无损高带宽成本降低以太网(RoCE)IB网络成本高带宽/时延与无损不可兼得带来问题?无损网络演进路线 目录03中国移动智算中心网络技术创新与实践02新型智算中心网络的演进趋势04总结与展望01中国移动NICC技术体系及关键技术 12传统无损以太网基础转发和调度机制制约网络性能有效通信带宽≠网卡/交换机组网物理带宽任务同步产生“多打一”流量,拥塞导致时延、抖动增加•方向:对每条流的多个数据包逐个进行负载分担,实现单流在全路径“喷洒”,提升有效带宽,更好应对突发流量•问题:传统以太网源端发流不关注网络情况及目的端接受能力,直接向网络“推”流,AI训练过程存在多打一流量,导致网络产生拥塞或丢包;通知源端降速或重传,导致GPUGPU空闲,算力损失•问题:AI训练的流特征是流数量少但单流带宽大,传统流级负载均衡极易造成多个流哈希到同一条链路,造成部分链路拥塞,部分空闲,网络利用率低,无法应对突发的网络流量现有以太网协议基础转发和调度机制,在AI模型训练场景存在天然缺陷,单纯优化上层网络协议无法解决,需深入底层基础协议,对物理层、MAC层转发机制进行革新,并推动网络芯片底层逻辑架构支持,突破无损以太性能瓶颈In-cast流量•方向:源端向目的端“请求”发送权限,基于网络转发能力的被动“拉”流,最大概率消除拥塞概率,优化长尾时延基于流转发,流数量少导致哈希失效,链路负载不均源端任意向网络推流,出现拥塞被动降速,GPU闲置等待 13全调度以太网三大核心机制中国移动提出全调度以太网(GSE)技术架构,最大限度兼容以太网生态,创新基于报文容器(PKTC)的转发及调度机制,构建无阻塞、高带宽、低时延的新型智算中心网络,形成标准开放的技术体系,助力AI产业发展从“局部”决策到“全局”调度从“流”分发到“报文”分发从盲发+被动控制到感知+主动控制将业务流拆分到不同“报文容器”转发,提供逐“报文容器”负载均衡机制,提升带宽利用率从被动拥塞控制,到基于“授权请求和响应机制”的主动流控,最大限度避免网络拥塞产生全局视野的转发调度机制,实现集中式管理运维、分布式控制转发,提高网络可用性当前:逐流负载,链路利用率低、发生拥塞被动降速未来:逐报文容器转发,链路负载均衡,全局调度,避免拥塞创新以太网转发机制,实现三大核心机制转变源leafSpineSpineSpine目的leaf213213213213213213拥塞21321321丢包 14全调度以太网(GSE)部署场景GSE协议可根据网络设备和网卡能力,将方案各组件功能在网络组件中重新分工,支持多种组网场景,为后续网络建设和设备选型提供灵活的方案选择场景一:仅网侧运行GSE,网卡不感知场景二:部分功能下沉网卡,实现端网协同...GSF...GSFGSPLeaf网卡网卡网卡计算卡计算卡计算卡GSP网卡网卡网卡计算卡计算卡计算卡SpineGSF...GSFGSP...Leaf网卡网卡网卡计算卡计算卡计算卡GSFGSPGSPGSP计算卡计算卡计算卡Spine网卡•GSP和GSF角色均由网络设备担任,执行GSE头解封装、 多路径分发、端到端授权应答及报文排序•传统RoCE网卡,对网卡无额外要求Ø源GSP、GSF由网络设备担任,执行GSE头解封装、多路径分发等功能Ø网卡承担部分GSP角色,负责授权应答和报文排序 15全调度以太网(GSE)推进进展云网智联大会发布《全调度以太网技术架构》白皮书中国算力大会正式启动全调度以太网(GSE)推进计划中国网络大会发布业界首款GSE原型系统CCSA成功立项《全调度以太网总体技术要求》2023.62023.82023.92023.5评估评测技术标准联合仪表厂家开展合作,制定普适统一的网络功能、性能评估方法联合产业推动GSE方案成熟,形成开放统一的技术标准体系依托中国移动CIFIT试验网,验证新型网络技术,推动技术成熟与规模建设创新试验 16全调度以太网(GSE)推进计划Ø全调度以太网(GSE)推进计划研究范畴:• 物理层:低时延Phy、PhySEC、故障快速检测、B400G高速光接口、光交换等• 链路层:基于报文分发和重组机制、调度技术、链路级安全及容错等• 网络层:新型组网拓扑、新型组播/任播协议等;• 传输层:改进的RDMA、新型拥塞控制等• 应用层:在网计算、存储加速、开放API框架等• 管理和运维体系:网络可视化、可调试能力、多维自动化能力中国移动,中国信息通信研究院,华为、中兴、锐捷、新华三、浪潮信息、Broadcom、Intel、清华大学、上海交通大学、鹏城实验室、紫金山实验室、北京邮电大学、中科院计算机网络信息中心、中信科、迈普、Spirent、是德科技、盛科、云合智网、楠菲微电子、燧原科技、昆仑芯、星云智联、云脉芯联、中科驭数、云豹智能、大禹智芯、中盈优创等Ø成员情况:中国移动携手中国信通院,联合国内外三十余家主流互联网,设备商、芯片商、高校院所联合发起GSE推进计划,推动智算中心网络技术创新、标准完善和产业应用,打造高速无损、开放兼容的新型智算中心网络技术体系 17面向集合通信原生传输框架,通过端网协同,支持组播、任播、聚播三种基本模式,实现网络中一组节点内存直读/写端侧组级传输协议端网协同转发协议全调度以太网(GSE)—NDMA技术分布式系统节点间以多对多的集合通信为主,业界主流方案基于RDMA点到点高效传输,实现多对多集合通信,存在性能瓶颈多播业务效率问题•引入了与通信规模线性相关的额外开销,且无法通过优化下层网络的延迟/吞吐性能来消除扩展性问题•有测试表明,RDMA商用网卡在QP数量超过256时,吞吐即会出现明显的下降 Wang Z, Luo L, Ning Q, et al. SRNIC: A Scalable Architecture for RDMA NICs[J]组播任播5356545654 18MPI_bcast任务完成时间平均降低50%存