AI智能总结
中国移动秦凤伟 2023.11 AI需求激增推动建设计算和网络基础设施 ChatGPT引爆AI,智算算力需求激增,参数量呈指数级迭代增长推动计算与网络基础设施建设不断布局 智能计算需求持续激增 算网基础设施不断布局 随着算力需求的快速增长,AI基础设施建设不断布局,算与网成为AI算力的两大重要基础设施 ChatGPT驱动AI大模型训练进入爆发期,参数量指数级增长,AI智能算力增速远超摩尔定律 AI基础设施 算为核心 网为根基 算力需求激增,GPU是重中之重AI芯片市场规模不断扩大,较2022年,2026年AI芯片规模提升4倍,GPU市场已是红海 •GPU市场规模提升,对网络设备需求激增,网络发展前景极为明朗 我国智算增长迅速,较2019年,2023年算力规模提升14倍, 预测未来仍会大幅度的增长 来源:Frost&Sullivan,中商产业研究院... 面向大模型训练,网络成为AI算力瓶颈 ØAI大模型以GPU集群分布式训练为基础,带来大量节点间通信消耗,网络成为AI算力“瓶颈” Ø当前业界主流智算中心网络技术被国外厂商垄断,网络芯片存在代际差距,网络可能成为我国AI发展的“新卡点” 集群有效算力∝{GPU单卡算力*总卡数*线性加速比*有效运行时} •单个流量:数量多、带宽小、异步•累积流量:抖动幅度较小,具有随机性 •单个流量:数量少、带宽大、同步•累积流量:波峰、波谷效应明显,具有周期性 IB与RoCE是目前业界主流高性能网络协议 InfiniBand与RoCE是由IBTA提出的两种主流面向RDMA提供高性能交换能力的传输协议,前者从硬件级别保证网络低时延、高吞吐,后者是将RDMA应用到以太网,依赖PFC等协议实现无损,两者在路由机制、转发机制、算网能力等方面存在差异 •Infiniband:1999年IBTA提出,第一代RDMA技术,交换机、网卡、光模块、光纤都是专用产品,专用无损网络,全球独家,和以太网不能互通,采购及维护成本高•RoCE:2010年IBTA提出,本质为网卡侧封装技术,不涉及网络侧技术,网络无损能力依赖网络设备与网卡实现,产业开放,组网规模和转发性能较差 当前RoCE网络存在诸多问题,不适应大AI模型部署 现有以太网协议基础转发和调度机制,在AI模型训练场景存在天然缺陷,单纯优化上层网络协议无法解决, 需对底层转发和调度机制进行革新,并推动网络芯片底层逻辑架构支持,突破无损以太性能瓶颈 源端任意向网络推流,出现拥塞被动降速,GPU闲置等待 基于流转发,流数量少导致哈希失效,链路负载不均 •问题:传统以太网源端发流不关注网络情况及目的端接受能力,直接向网络“推”流,AI训练过程存在多打一流量,导致网络产生拥塞或丢包;通知源端降速或重传,导致GPUGPU空闲,算力损失 •问题:AI训练的流特征是流数量少但单流带宽大,传统流级负载均衡极易造成多个流哈希到同一条链路,造成部分链路拥塞,部分空闲,网络利用率低,无法应对突发的网络流量 任务同步产生“多打一”流量,拥塞导致时延、抖动增加 •方向:对每条流的多个数据包逐个进行负载分担,实现单流在全路径“喷洒”,提升有效带宽,更好应对突发流量 •方向:源端向目的端“请求”发送权限,基于网络转发能力的被动“拉”流,最大概率消除拥塞概率,优化长尾时延 业界智算中心高性能网络标准组织介绍---UEC 2023年7月19日,Linux基金会成立超以太网联盟(UEC),发布UE技术愿景白皮书,当前已成立四个工作组并与OCP开展合作 •面向大模型和高性能计算场景,从物理层到软件层对以太协议栈和配套芯片产业进行革新 •创始成员:AMD、Arista、博通、思科、Eviden、HPE、Intel、Meta和微软,强强联合,覆盖全产业生态,核心是将“产品”标准化 UEC组织愿景 基于以太网,实现一个开放、可互通、高性能、全通信栈的架构,满足大规模AI和HPC不断增长的网络需求 业界智算中心高性能网络创新方向 AWS基于自研Nitro卡革新SRD协议,优化组网规模和抖动 基于信元交换的博通DDC架构,端到端授权,充分利用网络带宽 核心思想:通过RD传输模式增大组网规模,通过报文切分和全链路喷洒技术优化抖动,EBS场景吞吐量提升4X,写延迟降低90% 核心思想:Spine-Leaf架构内部不使用以太协议,通过Cell-Based转发机制和基于请求授权的流控体系全面提升网络有效带宽,减少网络抖动 Ø采用多级Bigraph拓扑架构,充分利用以太网多路径优势 Ø兼容网卡能力及RoCE协议,网络基于Cell-Based的精细颗粒度转发及动态负载 Ø采用VoQ技术实现端到端流量调度,最大程度防止网络拥塞概率 Ø无序交付,单流多路径,降低时延 Ø报文等长切分技术,优化抖动 Ø端口速率适配性强,组网架构灵活 ØBased-RTT拥塞控制算法 GSE技术体系框架 GSE技术体系最大限度兼容以太网生态,从四层(物理层、链路层、网络层、传输层)+一体(管理和运维体系)等几个层级进行优化和增强,构建无阻塞、高带宽、低时延的新型智算中心网络,形成标准开放的技术体系,助力AI产业发展 GSE技术体系---高速以太网 800G&1.6Tbps以太网将成为承载超高速算力互联、构建算网基础设施的重要手段,满足智算中心网络AI大模型应用场景带来的数据量持续增长需求 GSE技术体系---光交换 新型光交换机与传统交换机的核心区别在于用光口代替电口,无需插光模块,可实现端口与速率无关;内部无交换芯片,点到点通信关系一定时间内固定,设备容量及端口密度与芯片无关,可用在网络中替代Spine设备,提升网络性能及建设扩容灵活性 11•端口密度:576*576口(光)——根据技术工艺•额外需求:无需光模块,光纤直连面板•成本:100~200w/台•技术特征:ü端口间通信关系固定,通过全光开关进行切换(1对1)ü光信号完全透明传输,无需光模块,与速率无关,避免光电转化,时延更低ü设备交换容量无上限(取决于光纤传输能力),从国产化角度出发,对芯片依赖程度小,支持大规模节点组网 •端口密度:400G*32口(电)——根据芯片容量 •额外需求:配备400G光模块(3w/个)•成本:~60w/台•技术特征:ü通过路由表转发,端口间通信关系灵活(N对N)ü上下游速率要求对等,负载不均时,Spine下行会出现拥塞场景ü设备交换容量依赖芯片,组网规模受限于芯片能力 GSE技术体系---新型拓扑 •Group与Group之间full-mash,每个group内部可以是任意拓扑结构,如Fat-tree(Dragonfly+) MR路由(Minimal Routing):通过路由协议(isis or ospf)找到最短路径转发,无法实现负载均衡,无法充分利用带宽资源 NMR路由(Non-minimal Routing):目前没有标准方法,人为手工调整权重和cost值、BGP路由策略和路由属性指导路径转发,自动化能力差、管理复杂 AR路由(Adaptive Routing):动态调整路径,非最短路径路由需手工配置,多个拥塞点出现,会导致流量无法切换路径丢包 VLB路由(Valiant Load-Balance Routing):Valiant算法动态调整,链路长度*路径的拥塞程度的大小决定选择路径,拥塞程度消息获取方式未标准化。 •人为干预控制流量转发,缺乏动态负载分担机制 •现有网络架构缺乏网络拥塞的标准定义和远程拥塞的通知机制,难以及时获取拥塞信息。 GSE技术体系---全调度以太网三大核心机制 中国移动提出全调度以太网(GSE)技术架构,最大限度兼容以太网生态,创新基于报文容器(PKTC)的转发及调度机制,构建无阻塞、高带宽、低时延的新型智算中心网络,形成标准开放的技术体系,助力AI产业发展 创新以太网转发机制,实现三大核心机制转变 从盲发+被动控制到感知+主动控制 从“流”分发到“报文”分发 从“局部”决策到“全局”调度 从被动拥塞控制,到基于“授权请求和响应机制”的主动流控,最大限度避免网络拥塞产生 全局视野的转发调度机制,实现集中式管理运维、分布式控制转发,提高网络可用性 将业务流拆分到不同“报文容器”转发,提供逐“报文容器”负载均衡机制,提升带宽利用率 当前:逐流负载,链路利用率低、发生拥塞被动降速 13未来:逐报文容器转发,链路负载均衡,全局调度,避免拥塞 GSE技术体系---全调度以太网(GSE)推进计划 中国移动携手中国信通院,联合国内外三十余家主流互联网,设备商、芯片商、高校院所联合发起GSE推进计划,推动智算中心网络技术创新、标准完善和产业应用,打造高速无损、开放兼容的新型智算中心网络技术体系 •成员情况: •全调度以太网(GSE)推进计划研究范畴: •物理层:低时延Phy、PhySEC、故障快速检测、高速光接口、光交换等 14中国移动,中国信息通信研究院,华为、中兴、锐捷、新华三、浪潮信息、Broadcom、Intel、清华大学、上海交通大学、鹏城实验室、紫金山实验室、北京邮电大学、中科院计算机网络信息中心、中信科、迈普、Spirent、是德科技、盛科、云合智网、楠菲微电子、燧原科技、昆仑芯、星云智联、云脉芯联、中科驭数、云豹智能、大禹智芯等 •链路层:基于报文分发和重组机制、调度技术、链路级安全及容错等 •网络层:新型组网拓扑、新型组播/任播协议等; •传输层:改进的RDMA、新型拥塞控制等 •管理和运维体系:网络可视化、可调试能力、多维自动化能力 GSE技术体系---NDMA 分布式系统节点间以多对多的集合通信为主,业界主流方案基于RDMA点到点高效传输,实现多对多集合通信,存在性能瓶颈 多播业务效率问题 •引入了与通信规模线性相关的额外开销,且无法通过优化下层网络的延迟/吞吐性能来消除 扩展性问题 •有测试表明,RDMA商用网卡在QP数量超过256时,吞吐即会出现明显的下降Wang Z, Luo L, Ning Q, et al. SRNIC: A Scalable Architecture for RDMA NICs[J] 面向集合通信原生传输框架,通过端网协同,支持组播、任播、聚播三种基本模式,实现网络中一组节点内存直读/写 通过原型系统验证,MPI_bcast任务完成时间平均降低50%,存储场景IOPS提升45%以上(任播模式) GSE技术体系---网络可靠性 AI大模型训练中所需GPU卡数量达到千卡、万卡级别,增加了网络故障概率,如何提高网络可靠性是重中之重 •GPU卡故障:1000张GPU卡的训练规模,在一个月内发生故障的概率为60%;若AI网络规模达到8000张GPU卡,则在一个月的训练中出现卡故障的概率为99%。 •光模块故障:近10w个光模块的AI训练网络,平均每4天就会发生一次光模块故障。 AI网络可靠性面临的问题 •本地故障检测:本地检测时间大约为几毫秒,故障检测时间太长,无法满足模型训练需求•本地故障切换:在发生链路故障时,通过ECMP、FRR等技术进行快速切换,将链路切换为备份链路。链路故障切换时间可在毫秒内实现•故障通知:IGP链路状态泛洪和BGP路由更新太慢,远端发生故障缺乏统一的故障通知机制•全局故障切换:当前只有本地故障的快速切换机制,但在响应远程故障时,仍缺乏快速切换机制 当前,AI大模型训练网络故障后,本地故障处理时间为几毫秒,远端故障处理时间为几秒,故障处理时间过长 IETF118:draft-cheng-rtgwg-ai-network-reliability-problem-00 总结与展望 •智算中心网络的有效带宽、时延抖动、可靠性成为提升训练效率的关键因素 •以全调度以太网为核心,开展四层(物理层、链路层、网络层、传输层)+一体(管理和运维体系)攻关,构