您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国移动研究院]:秦凤伟:AIGC时代智算中心网络协议演进与思考 - 发现报告
当前位置:首页/行业研究/报告详情/

秦凤伟:AIGC时代智算中心网络协议演进与思考

秦凤伟:AIGC时代智算中心网络协议演进与思考

AIGC时代智算中心网络协议演进与思考中国移动 秦凤伟2023.11 2AI需求激增推动建设计算和网络基础设施随着算力需求的快速增长,AI基础设施建设不断布局,算与网成为AI算力的两大重要基础设施ChatGPT引爆AI,智算算力需求激增,参数量呈指数级迭代增长推动计算与网络基础设施建设不断布局•算力需求激增,GPU是重中之重•AI芯片市场规模不断扩大,较2022年,2026年AI芯片规模提升4倍,GPU市场已是红海智能计算需求持续激增算网基础设施不断布局来源:IDC,2022AI基础设施算为核心网为根基•GPU市场规模提升,对网络设备需求激增,网络发展前景极为明朗来源:Frost&Sullivan,中商产业研究院...来源:中商产业研究院,安信证券研究中心我国智算增长迅速,较2019年,2023年算力规模提升14倍,预测未来仍会大幅度的增长ChatGPT驱动AI大模型训练进入爆发期,参数量指数级增长,AI智能算力增速远超摩尔定律 3面向大模型训练,网络成为AI算力瓶颈ØAI大模型以GPU集群分布式训练为基础,带来大量节点间通信消耗,网络成为AI算力“瓶颈”Ø当前业界主流智算中心网络技术被国外厂商垄断,网络芯片存在代际差距,网络可能成为我国AI发展的“新卡点”网络性能决定GPU集群算力加速比集群有效算力∝{GPU单卡算力*总卡数*线性加速比*有效运行时}网络可用性决定GPU集群稳定性2%的丢包就会使RDMA吞吐率下降为0GPU集群性能 ≠ 单GPU性能*N网络设备能力决定GPU集群组网规模芯片容量提升2倍,组网规模提高4倍随着GPU单卡算力进一步受限,获得同等算力的难度持续增加,以网强算是支撑为未来大模型训练的关键 4传统DC与智算中心流量模型区别•单个流量:数量多、带宽小、异步•累积流量:抖动幅度较小,具有随机性•单个流量:数量少、带宽大、同步•累积流量:波峰、波谷效应明显,具有周期性单个流量累积流量单个流量累积流量传统DC流量模型智算中心大模型(All-to-all)流量模型GPU停工等待其他GPU完成工作 5IB与RoCE是目前业界主流高性能网络协议InfiniBand与RoCE是由IBTA提出的两种主流面向RDMA提供高性能交换能力的传输协议,前者从硬件级别保证网络低时延、高吞吐,后者是将RDMA应用到以太网,依赖PFC等协议实现无损,两者在路由机制、转发机制、算网能力等方面存在差异IB 传输层IB 网络层IB 链路层IB 传输层IB 网络层以太链路层IB 传输层网络层以太链路层UDPInfinibandRoCE v1RoCE v2RDMA软件栈•Infiniband:1999年IBTA提出,第一代RDMA技术,交换机、网卡、光模块、光纤都是专用产品,专用无损网络,全球独家,和以太网不能互通,采购及维护成本高•RoCE:2010年IBTA提出,本质为网卡侧封装技术,不涉及网络侧技术,网络无损能力依赖网络设备与网卡实现,产业开放,组网规模和转发性能较差•存储转发,缓存时延大•需借助PFC、DCQCN协议实现端到端流控•直通转发,静态时延低•协议本身支持端到端流控管控机制不同,路由算法存在差异•个体算路相互独立•只看最短路径,易出现端口拥塞,故障触发倒换转发机制不同,网络性能存在差异•集中算路统一下发•结合端口拥塞+SPF,选择最优路径vsIBvsRoCE查表转发IB缓存校验查表RoCE 6当前RoCE网络存在诸多问题,不适应大AI模型部署有效通信带宽≠网卡/交换机组网物理带宽任务同步产生“多打一”流量,拥塞导致时延、抖动增加•方向:对每条流的多个数据包逐个进行负载分担,实现单流在全路径“喷洒”,提升有效带宽,更好应对突发流量•问题:传统以太网源端发流不关注网络情况及目的端接受能力,直接向网络“推”流,AI训练过程存在多打一流量,导致网络产生拥塞或丢包;通知源端降速或重传,导致GPUGPU空闲,算力损失•问题:AI训练的流特征是流数量少但单流带宽大,传统流级负载均衡极易造成多个流哈希到同一条链路,造成部分链路拥塞,部分空闲,网络利用率低,无法应对突发的网络流量现有以太网协议基础转发和调度机制,在AI模型训练场景存在天然缺陷,单纯优化上层网络协议无法解决,需对底层转发和调度机制进行革新,并推动网络芯片底层逻辑架构支持,突破无损以太性能瓶颈In-cast流量•方向:源端向目的端“请求”发送权限,基于网络转发能力的被动“拉”流,最大概率消除拥塞概率,优化长尾时延基于流转发,流数量少导致哈希失效,链路负载不均源端任意向网络推流,出现拥塞被动降速,GPU闲置等待 7业界智算中心高性能网络标准组织介绍---UEC开放性以开放的生态抗衡封闭的技术体系可互通基于IP和以太网完善的生态系统,物理层不做颠覆性改革高性能聚焦传输层性能优化,支持报文喷洒和乱序,拥塞控制等全栈优化物理层、链路层、传输层、软件应用层共同优化UEC组织愿景基于以太网,实现一个开放、可互通、高性能、全通信栈的架构,满足大规模 AI 和 HPC 不断增长的网络需求2023年7月19日,Linux基金会成立超以太网联盟 (UEC),发布UE技术愿景白皮书,当前已成立四个工作组并与OCP开展合作•面向大模型和高性能计算场景,从物理层到软件层对以太协议栈和配套芯片产业进行革新•创始成员: AMD、Arista、博通、思科、Eviden 、HPE、Intel、Meta和微软,强强联合,覆盖全产业生态,核心是将“产品”标准化 8业界智算中心高性能网络创新方向AWS基于自研Nitro卡革新SRD协议,优化组网规模和抖动Ø采用多级Bigraph拓扑架构,充分利用以太网多路径优势Ø无序交付,单流多路径,降低时延Ø报文等长切分技术,优化抖动ØBased-RTT拥塞控制算法核心思想:通过RD传输模式增大组网规模,通过报文切分和全链路喷洒技术优化抖动,EBS场景吞吐量提升4X,写延迟降低90%基于信元交换的博通DDC架构,端到端授权,充分利用网络带宽核心思想:Spine-Leaf架构内部不使用以太协议,通过Cell-Based转发机制和基于请求授权的流控体系全面提升网络有效带宽,减少网络抖动Ø兼容网卡能力及RoCE协议,网络基于Cell-Based的精细颗粒度转发及动态负载Ø采用VoQ技术实现端到端流量调度,最大程度防止网络拥塞概率Ø端口速率适配性强,组网架构灵活 9GSE技术体系框架物理层部署自动化测试验收自动化变更自动化运维自动化高速光接口光交换低延迟FECPhySec链路层报文分发和重组机制调度机制链路级安全及容错机制故障快速检测网络层新型组网拓扑新型组播/任播协议新型负载均衡机制传输层改进的RDMA拥塞管理传输模式选择性重传乱序重排大规模QP拥塞控制流量控制拥塞检测拥塞通告拥塞算法网络可视化 管 理 与 运 维 体 系GSE技术体系最大限度兼容以太网生态,从四层(物理层、链路层、网络层、传输层)+一体(管理和运维体系)等几个层级进行优化和增强,构建无阻塞、高带宽、低时延的新型智算中心网络,形成标准开放的技术体系,助力AI产业发展 10GSE技术体系---高速以太网800G&1.6Tbps以太网将成为承载超高速算力互联、构建算网基础设施的重要手段,满足智算中心网络AI大模型应用场景带来的数据量持续增长需求800GE相干8×100G PAM44×200G PAM4当前:光电接口均以单通道100G速率为主未来:光电接口将采用单通道200G速率以及800GE/1.6TE相干800GE&1.6TE接口形态1.6TE相干8×200G PAM4202320252027800GE&1.6TE标准演进IEEE802.3df:单通道100G PAM4草案阶段标准发布草案阶段IEEE802.3dj:单通道200G PAM4、800GE/1.6TE相干标准发布高波特率光电器件、5nm制程oDSP成熟 11GSE技术体系---光交换新型光交换机与传统交换机的核心区别在于用光口代替电口,无需插光模块,可实现端口与速率无关;内部无交换芯片,点到点通信关系一定时间内固定,设备容量及端口密度与芯片无关,可用在网络中替代Spine设备,提升网络性能及建设扩容灵活性•端口密度:400G * 32 口(电)——根据芯片容量•额外需求:配备400G光模块(3w/个)•成本:~60w/台•技术特征:ü通过路由表转发,端口间通信关系灵活(N对N)ü上下游速率要求对等,负载不均时,Spine下行会出现拥塞场景ü设备交换容量依赖芯片,组网规模受限于芯片能力•端口密度:576 *576口(光)——根据技术工艺•额外需求:无需光模块,光纤直连面板•成本:100~200w/台•技术特征:ü端口间通信关系固定,通过全光开关进行切换(1对1)ü光信号完全透明传输,无需光模块,与速率无关,避免光电转化,时延更低ü设备交换容量无上限(取决于光纤传输能力),从国产化角度出发,对芯片依赖程度小,支持大规模节点组网SpineLeafOCSLeaf电口光口 12GSE技术体系---新型拓扑ØMR路由(Minimal Routing):通过路由协议(isis or ospf)找到最短路径转发,无法实现负载均衡,无法充分利用带宽资源ØNMR路由(Non-minimal Routing):目前没有标准方法,人为手工调整权重和cost值、BGP路由策略和路由属性指导路径转发,自动化能力差、管理复杂ØAR路由(Adaptive Routing):动态调整路径,非最短路径路由需手工配置,多个拥塞点出现,会导致流量无法切换路径丢包ØVLB路由(Valiant Load-Balance Routing):Valiant算法动态调整,链路长度*路径的拥塞程度的大小决定选择路径,拥塞程度消息获取方式未标准化。switchgroupnodeIntra-linkInter-linkIETF117: draft-wang-rtgwg-dragonfly-routing-problem-00•Group与Group之间full-mash, 每个group内部可以是任意拓扑结构,如Fat-tree(Dragonfly+)•人为干预控制流量转发,缺乏动态负载分担机制•现有网络架构缺乏网络拥塞的标准定义和远程拥塞的通知机制,难以及时获取拥塞信息。 13GSE技术体系---全调度以太网三大核心机制中国移动提出全调度以太网(GSE)技术架构,最大限度兼容以太网生态,创新基于报文容器(PKTC)的转发及调度机制,构建无阻塞、高带宽、低时延的新型智算中心网络,形成标准开放的技术体系,助力AI产业发展从“局部”决策到“全局”调度从“流”分发到“报文”分发从盲发+被动控制到感知+主动控制将业务流拆分到不同“报文容器”转发,提供逐“报文容器”负载均衡机制,提升带宽利用率从被动拥塞控制,到基于“授权请求和响应机制”的主动流控,最大限度避免网络拥塞产生全局视野的转发调度机制,实现集中式管理运维、分布式控制转发,提高网络可用性当前:逐流负载,链路利用率低、发生拥塞被动降速未来:逐报文容器转发,链路负载均衡,全局调度,避免拥塞创新以太网转发机制,实现三大核心机制转变源leafSpineSpineSpine目的leaf213213213213213213拥塞21321321丢包 14GSE技术体系---全调度以太网(GSE)推进计划• 物理层:低时延Phy、PhySEC、故障快速检测、高速光接口、光交换等• 链路层:基于报文分发和重组机制、调度技术、链路级安全及容错等• 网络层:新型组网拓扑、新型组播/任播协议等;• 传输层:改进的RDMA、新型拥塞控制等• 管理和运维体系:网络可视化、可调试能力、多维自动化能力中国移动,中国信息通信研究院,华为、中兴、锐捷、新华三、浪潮信息、Broadcom、Intel、清华大学、上海交通大学、鹏城实验室、紫金山实验室、北京邮电大学、中科院计算机网络信息中心、中信科、迈普、Spirent、是德科技、盛科、云合智网、楠菲微电子、燧原科