中国移动王瑞雪2023.10 目录 01中国移动NICC技术体系及关键技术 02新型智算中心网络的演进趋势 03中国移动智算中心网络技术创新与实践 什么是NICC新型智算中心 新型智算中心 以高性能GPU、AI加速卡为中心,以高速互联智算集群为目标,形成集约化建设的E级超大规模算力基础设施,具备软硬件AI全栈环境,支撑AI大模型的高效训练和推理 NICC新型智算中心架构 强化互联技术、深化算力协同、定义新型存储、新增算力原生、升级绿色节能 目录 01中国移动NICC技术体系及关键技术 02新型智算中心网络的演进趋势 03中国移动智算中心网络技术创新与实践 智算中心网络定义 •智算中心网络作为算力组成部分,用于连接CPU、GPU、内存等池化异构算力资源,贯穿数据计算、存储全流程,网络性能增强对提升智算中心整体算力水平具有关键意义 智算中心 数据中心 面向任务场景,以算力资源为池化对象,网络提供CPU、GPU、存储之间高速连接 面向业务场景,以服务器/VM为池化对象,网络提供VM/服务器之间连接 传统DC与智算中心流量模型区别 单个流量:数量多、带宽小、异步累积流量:抖动幅度较小,具有随机性 单个流量:数量少、带宽大、同步累积流量:波峰、波谷效应明显,具有周期性 AI参数面通信特征:数据并行+模型并行 大模型:数据并行+模型并行(Tensor并行+Pipeline并行),AI训练集群规模千卡->万卡 大模型训练通信特点: Ø每轮通信量大(GB~百GB级) •服务器内通信量为百GB级,以allreduce为主•服务器间通信量为GB级,包括allreduce和p2p,大部分可以被计算掩盖•MOE会引入节点间alltoall流量 面向大模型训练,网络成为AI算力瓶颈 AI大模型以GPU集群分布式训练为基础,集群节点间频繁地参数同步带来大量通信开销,超大集群不意味着超大算力, 智算中心网络技术和设备能力成为提升GPU集群算力水平的关键 集群有效算力∝{GPU单卡算力*总卡数*线性加速比*有效运行时} 注:以H800(400G*8)服务器为例,51.2T可支持1024台服务器组网,12.8T仅支持64台服务器组网 无损网络演进路线 目录 01中国移动NICC技术体系及关键技术 02新型智算中心网络的演进趋势 03中国移动智算中心网络技术创新与实践 04总结与展望 传统无损以太网基础转发和调度机制制约网络性能 现有以太网协议基础转发和调度机制,在AI模型训练场景存在天然缺陷,单纯优化上层网络协议无法解决,需深入底层基础协议,对物理层、MAC层转发机制进行革新,并推动网络芯片底层逻辑架构支持,突破无损以太性能瓶颈 源端任意向网络推流,出现拥塞被动降速,GPU闲置等待 基于流转发,流数量少导致哈希失效,链路负载不均 •问题:传统以太网源端发流不关注网络情况及目的端接受能力,直接向网络“推”流,AI训练过程存在多打一流量,导致网络产生拥塞或丢包;通知源端降速或重传,导致GPUGPU空闲,算力损失 •问题:AI训练的流特征是流数量少但单流带宽大,传统流级负载均衡极易造成多个流哈希到同一条链路,造成部分链路拥塞,部分空闲,网络利用率低,无法应对突发的网络流量 任务同步产生“多打一”流量,拥塞导致时延、抖动增加 •方向:对每条流的多个数据包逐个进行负载分担,实现单流在全路径“喷洒”,提升有效带宽,更好应对突发流量 •方向:源端向目的端“请求”发送权限,基于网络转发能力的被动“拉”流,最大概率消除拥塞概率,优化长尾时延 全调度以太网三大核心机制 中国移动提出全调度以太网(GSE)技术架构,最大限度兼容以太网生态,创新基于报文容器(PKTC)的转发及调度机制,构建无阻塞、高带宽、低时延的新型智算中心网络,形成标准开放的技术体系,助力AI产业发展 创新以太网转发机制,实现三大核心机制转变 从盲发+被动控制到感知+主动控制 从“流”分发到“报文”分发 从“局部”决策到“全局”调度 从被动拥塞控制,到基于“授权请求和响应机制”的主动流控,最大限度避免网络拥塞产生 全局视野的转发调度机制,实现集中式管理运维、分布式控制转发,提高网络可用性 将业务流拆分到不同“报文容器”转发,提供逐“报文容器”负载均衡机制,提升带宽利用率 当前:逐流负载,链路利用率低、发生拥塞被动降速 13未来:逐报文容器转发,链路负载均衡,全局调度,避免拥塞 全调度以太网(GSE)部署场景 GSE协议可根据网络设备和网卡能力,将方案各组件功能在网络组件中重新分工,支持多种组网场景,为后续网络建设和设备选型提供灵活的方案选择 •GSP和GSF角色均由网络设备担任,执行GSE头解封装、多路径分发、端到端授权应答及报文排序•传统RoCE网卡,对网卡无额外要求 Ø源GSP、GSF由网络设备担任,执行GSE头解封装、多路径分发等功能Ø网卡承担部分GSP角色,负责授权应答和报文排序 全调度以太网(GSE)推进进展 云网智联大会发布《全调度以太网技术架构》白皮书 创新试验 评估评测 技术标准 依托中国移动CIFIT试验网,验证新型网络技术,推动技术成熟与规模建设 联合仪表厂家开展合作,制定普适统一的网络功能、性能评估方法 联合产业推动GSE方案成熟,形成开放统一的技术标准体系 全调度以太网(GSE)推进计划 中国移动携手中国信通院,联合国内外三十余家主流互联网,设备商、芯片商、高校院所联合发起GSE推进计划,推动智算中心网络技术创新、标准完善和产业应用,打造高速无损、开放兼容的新型智算中心网络技术体系 Ø全调度以太网(GSE)推进计划研究范畴: •物理层:低时延Phy、PhySEC、故障快速检测、B400G高速光接口、光交换等•链路层:基于报文分发和重组机制、调度技术、链路级安全及容错等•网络层:新型组网拓扑、新型组播/任播协议等;•传输层:改进的RDMA、新型拥塞控制等•应用层:在网计算、存储加速、开放API框架等•管理和运维体系:网络可视化、可调试能力、多维自动化能力 Ø成员情况: 中国移动,中国信息通信研究院,华为、中兴、锐捷、新华三、浪潮信息、Broadcom、Intel、清华大学、上海交通大学、鹏城实验室、紫金山实验室、北京邮电大学、中科院计算机网络信息中心、中信科、迈普、Spirent、是德科技、盛科、云合智网、楠菲微电子、燧原科技、昆仑芯、星云智联、云脉芯联、中科驭数、云豹智能、大禹智芯、中盈优创等 全调度以太网(GSE)—NDMA技术 分布式系统节点间以多对多的集合通信为主,业界主流方案基于RDMA点到点高效传输, 实现多对多集合通信,存在性能瓶颈 多播业务效率问题 •引入了与通信规模线性相关的额外开销,且无法通过优化下层网络的延迟/吞吐性能来消除 扩展性问题 •有测试表明,RDMA商用网卡在QP数量超过256时,吞吐即会出现明显的下降Wang Z, Luo L, Ning Q, et al. SRNIC: A Scalable Architecture for RDMA NICs[J] 全调度以太网(GSE)—NDMA原型验证结果 组网环境:4台服务器,1台交换机,服务器安装计算/存储应用软件,配置25G以太网卡 目录 01中国移动NICC技术体系及关键技术 02新型智算中心网络的演进趋势 03中国移动智算中心网络技术创新与实践 04总结与展望 总结与展望 •大模型时代,新型智算中心是对新互联、新算效、新存储、新平台、新节能技术的全面升级 •智算中心网络的有效带宽、时延抖动、可靠性成为提升训练效率的关键因素 •链路负载均衡不均、被动拥塞控制机制、自动化能力不足是当前智算中心网络面临的主要问题 •以全调度以太网为核心,开展四层(物理层、链路层、网络层、传输层)+一体(管理和运维体系)攻关,构建标准开放技术生态和评测体系,推动新型智算中心网络技术体系成熟 •欢迎更多上下游产业伙伴加入GSE推进计划,推动GSE技术标准和生态成熟,助力AI技术发展 谢谢!




