中国移动研究院2024.03 目录 01智算中心网络技术概况 02全调度以太网技术创新 03智算网络技术评测面临的挑战 算和网是新型智算中心关键基础设施 智算中心是以GPU芯片为核心的计算基础设施和以高速以太网交换芯片为核心的网络基础设施的综合体, 智能算力需求激增推动计算与网络基础设施建设不断布局 算和网基础设施倍受关注 随着算力需求的快速增长,AI基础设施建设不断布局,算与网成为AI算力重要基础设施的两大核心 AI基础设施 GPU芯片为核心的算力基础 以太网交换芯片为核心的网络基础 •算力需求激增,GPU是重中之重•AI芯片市场规模不断扩大,较2022年,2026年AI芯片规模提升4倍•GPU技术快速发展,Nvidia即将推出H200,H200的算力是H100的2倍左右 •GPU市场规模提升,对网络设备需求激增,交换芯片的更新换代周期缩短至1.5年 来源:Frost&Sullivan,中商产业研究院... 网络成为AI算力瓶颈,以网强算对我国更加重要 AI大模型以算力集群分布式训练为基础,带来大量节点间通信消耗,组网规模、网络性能和可靠性决定集群有效算力, 网络成为AI算力“瓶颈”,以网强算成为提升大模型训练效率的关键 集群有效算力∝{GPU单卡算力*总卡数*线性加速比*有效运行时} 智算中心网络概况 智算中心网络用于连接CPU、GPU、内存等池化异构算力资源,贯穿数据计算、存储全流程,网络性能增强对提升智算中心整体算力水平具有关键意义;与通用云计算网络不同,AI参数面网络要求极高,是业界关注焦点 智算中心 通算中心 AI训练依赖典型集合通信原语 ALLReduce:在主节点上进行Reduce(如sum、min)操作,通过Garther分发给所有节点,所有节点得到相同数据, 一个典型的32卡HDallreduce过程: üStep1-3:通过总线完成机内8卡通信 üStep4-5:通过网络完成4台服务器之间的通信 Allreduce:可以通过算法转化为对分通信 特征:ü点到点通信,对分流量,无多打一ü网络同轨通信 通信数据量Double,无多打一 通算中心与智算中心流量模型差异性 通用算力以CPU芯片为主,业务种类多流量小,业务间相互独立;智能算力以GPU、Al芯片等人工智能芯片为主,通信关系固定,流数量少流量大,分布式训练带来大量节点的同步突发,木桶效应明显 •单个流量:数量多、带宽小、突发异步•累积流量:抖动幅度较小,具有随机性 •单个流量:数量少、带宽大、突发同步•累积流量:波峰、波谷效应明显,具有周期性 业界主流通算中心与智算中心均采用spine-leaf架构,但两者端口速率、组网方式、网络协议均存在差异性 通算中心组网方案 智算中心组网方案 •端口速率方面:服务器端口10GE/25GE并存,汇聚层从40GE向100GE演进•服务器网卡数量:一机双卡•设备关系:交换机设备之间部署MC-LAG•组网形态:Leaf为盒式设备,Spine多为框式设备 •端口速率方面:服务器端口200GE/400GE,汇聚层400GE/800GE•服务器网卡数量:一机八卡•设备关系:交换机设备之间独立•组网形态:Leaf为盒式设备,Spine多为盒式设备 01智算中心网络技术概况 02全调度以太网技术创新 03智算网络技术评测面临的挑战 当前智算中心网络技术问题和挑战 现有以太网协议基于流的负载分担及拥塞控制机制,在AI模型训练场景存在天然缺陷,导致网络有效带宽和时延受限 问题一:基于流的负载均衡存在哈希极化问题 问题二:被动拥塞控制导致GPU闲置 •问题:传统以太网源端发流不关注网络情况及目的端接受能力,直接向网络“推”流,产生多打一流量,导致网络产生拥塞或丢包,导致GPU空闲,算力损失 •问题:传统流级负载均衡极易造成多个流哈希到同一条链路,造成部分链路拥塞,部分空闲,网络利用率低,无法应对突发的网络流量 有效通信带宽≠网卡/交换机组网物理带宽 任务同步产生“多打一”流量,拥塞导致时延、抖动增加 InfiniBand和RoCE存在各自问题,基于新型以太网构建开放、标准的生态,成为智算中心网络技术演进方向 GSE链路层三大核心技术 GSE创新以太网转发机制,基于三大核心机制转变,实现高精度负载均衡、网络层原生无损及低延迟 从盲发+被动控制到感知+主动控制 从“流”分发到“报文”分发 从“局部”决策到“全局”调度 从被动拥塞控制,到基于“授权请求和响应机制”的主动流控,最大限度避免网络拥塞产生 将业务流拆分到不同“报文容器”转发,提供逐“报文容器”负载均衡机制,提升带宽利用率 基于算网协同的全局视野转发调度机制,实现集中式管理运维、分布式控制转发 未来:逐报文容器转发,链路负载均衡,全局调度,避免拥塞 全调度以太网(GSE)技术体系框架 GSE技术体系最大限度兼容以太网生态,从四层(物理层、链路层、网络层、传输层)+一体(管理和运维体系)等层级优化和增强,GSE体系架构最大限度兼容以太网生态,创新基于报文容器(PKTC)的转发及调度机制,构建无阻塞、高带宽、低时延的新型智算中心网络,形成标准开放的技术体系,助力AI产业发展 全调度以太网(GSE)部署场景 GSE协议可根据网络设备和网卡能力,将方案各组件功能在网络组件中重新分工,支持多种组网场景,为后续网络建设和设备选型提供灵活的方案选择 •GSP和GSF角色均由网络设备担任,执行GSE头解封装、多路径分发、端到端授权应答及报文排序•传统RoCE网卡,对网卡无额外要求•适用于华为昇腾GPU生态系统 •源GSP、GSF由网络设备担任,执行、多路径分发等功能•网卡承担部分GSP角色,负责GSE头解封装、授权应答和报文排序•适用于英伟达及其他国产GPU生态系统 GSE部署优势,更好匹配国产芯片能力 采用逐包分发技术后,对leaf上行带宽需求降低,同等芯片容量下,leaf上行口的端口速率越小,组网规模越大,负载分担链路更加散列,包均衡能力更优,更适配国产芯片大规模组网需求 •组网规模:1024台GPU服务器,8K张GPU卡•包均衡能力:每Leaf上行有64条负载分担链路 •组网规模:256台GPU服务器,2K张GPU卡•包均衡能力:每Leaf上行有16条负载分担链路 同等芯片容量下,leaf上行端口速率为100G的组网规模较400G提升4倍,包均衡能力提升4倍 全调度以太网(GSE)推进计划进展概况 中国移动携手中国信通院,联合国内外三十余家主流互联网,设备商、芯片商、高校院所联合发起GSE推进计划, 推动智算中心网络技术创新、标准完善和产业应用,打造高速无损、开放兼容的新型智算中心网络技术体系 对标UEC,建议在CCSA成立国家层面的全调度以太网(GSE)推进委员会,工作范畴建议如下: 15•物理层:低时延Phy、PhySEC、故障快速检测、高速光接口、光交换等•链路层:基于报文分发和重组机制、调度技术、链路级安全及容错等•网络层:新型组网拓扑、新型组播/任播协议等;•传输层:改进的RDMA、新型拥塞控制等•管理和运维体系:网络可视化、可调试能力、多维自动化能力 目录 01智算中心网络技术概况 02全调度以太网技术创新 03智算网络技术评测面临的挑战 智算网络技术评测面临的挑战 智算中心具有明显的通信特征,且AI技术的快速发展推动算、网软硬件技术的快速迭代升级,制定普适统一的智算中心网络性能评测体系仍面临诸多挑战 •模拟GPU实际的计算、周期性通信,测试结果是否可以客观反映实际结果•仪表是否能支持千卡级、甚至万卡即模拟能力 •测试仪端口、规模是否能匹配网络的演进速度 •能够反映的新指标(有效带宽、长尾时延等) 模型种类 定制化 •端网协同是趋势,需同时兼做网卡和网络•私有拥塞控制协议、传输协议等优化,是否具备灵活的可编程能力和定制化功能 •基本的通信原语&通信原语不同的实现方式•支持大模型的种类、测试工具迭代速度是否能匹配•不同模型对网络的性能评价标准能否归一 感谢聆听