AI智能总结
程伟强 中国移动研究院-基础网络技术研究所 算力成为数字经济时代的核心竞争力 AI大模型带动算力成为数字经济时代的核心竞争力。到2025年,我国算力规模将超过300 EFLOPS,智能算力占比达到35%;算力基础设施将成为推动我国经济转型升级和培育新动能的重要力量 传统DC与智算中心流量模型区别 智算中心大模型(All-to-all)流量模型 •单个流量:数量多、带宽小、异步•累积流量:抖动幅度较小,具有随机性 •单个流量:数量少、带宽大、同步•累积流量:波峰、波谷效应明显,具有周期性 面向大模型训练,网络成为AI算力瓶颈 ØAI大模型以GPU集群分布式训练为基础,带来大量节点间通信消耗,网络成为AI算力“瓶颈” Ø当前业界主流智算中心网络技术被国外厂商垄断,网络芯片存在代际差距,网络可能成为我国AI发展的“新卡点” 集群有效算力∝{GPU单卡算力*总卡数*线性加速比*有效运行时} 芯片容量提升2倍,组网规模提高4倍 2%的丢包就会使RDMA吞吐率下降为0 随着GPU单卡算力受限,以网强算成为提升大模型训练效率的关键,探索以太网的新调度机制、新接口速率和新安全方案,提升智算中心网络性能和整体算力水平 目录 以太网新调度机制—GSE 以太网新接口速率—B400GE 以太网新安全方案—PHYSec GSE技术体系---核心理念 中国移动提出全调度以太网(GSE)技术架构,最大限度兼容以太网生态,创新基于报文容器(PKTC)的转发及调度机制,构建无阻塞、高带宽、低时延的新型智算中心网络,形成标准开放的技术体系,助力AI产业发展 创新以太网转发机制,实现三大核心机制转变 从盲发+被动控制到感知+主动控制 从“流”分发到“报文”分发 从“局部”决策到“全局”调度 从被动拥塞控制,到基于“授权请求和响应机制”的主动流控,最大限度避免网络拥塞产生 全局视野的转发调度机制,实现集中式管理运维、分布式控制转发,提高网络可用性 将业务流拆分到不同“报文容器”转发,提供逐“报文容器”负载均衡机制,提升带宽利用率 当前:逐流负载,链路利用率低、发生拥塞被动降速 未来:逐报文容器转发,链路负载均衡,全局调度,避免拥塞 报文容器 报文容器是区别于CELL转发的一种核心转发机制,该机制下以太网报文根据最终设备或者设备出端口被逻辑分配并组装成”逻辑等长”的虚拟报文容器,并以该”容器”为最小单元在交换网络中传输 源节点根据报文容器长度以及已经占用的字节数为到达该节点的报文分配相应的容器ID,并记录其归属的报文容器编号及在该容器占用的字节数 DGSQ+调度 •在输入端口将发送到不同端口(或者优先级)的数据包虚拟成不同的队列,并且彼此互不影响,解决HOL •从Send-based到Receive-based,避免网络入向流量大于网络容量,从源头避免网络拥塞 负载均衡和重排序 •每个转发节点根据自身负载情况对PKTC进行负载均衡,且同PKTC内的报文转发路径相同,高精度负载均衡方式,消除网络微突发,获得转发低延迟 •目的节点依照PKTC为单位进行容器间解乱序,同PKTC内报文严格保序 目录 以太网新调度机制—GSE 以太网新接口速率—B400GE 以太网新安全方案—PHYSec IEEE802.3 B400GE标准目标演进 B400G以太网技术标准化进展 800Gbps以太网标准 ²802.3df:单通道100Gb/s的800G以太网标准,目前已完成Task Force Review形成D3.1版本草案“IEEE P802.3df™/D3.1, 14 Nov. 2023”,正在进行标准协会(SA)范围审查 ²802.3dj:单通道200Gb/s FEC采用低复杂度Hamming(128,120)内码级联RS(544,514)外码;PMA逻辑层方案已确定,光层Baseline目前还未确定,仍处于技术讨论阶段,需要更长的时间完成方案收敛 ²802.3dj:面向10km和40km场景的单波800Gbps相干标准进展缓慢,800GE LR1已确定采用KP4+BCH的FEC方案,但O波动和C波段之争逐渐白热化;800G ER1采用相干已获得业界共识,FEC和光层PMD方案尚未明确 1.6Tbps以太网标准 ²802.3dj:1.6TE PCS/FEC方案已确定,电接口形态包括16通道100Gbps(16AUI-16)和8通道200Gbps(1.6TAUI-8);1.6T 500m/2km PMD子层方案尚未明确,2km采用相干技术可行性更高 ²1.6TbpsLPO和CPO等技术已出现商用产品形态,在智算中心场景也将具有广泛的应用潜力 推动800G 10km目标立项,确立相干技术路线 中国移动积极参与并推动IEEE802.3df&dj工作组完成800G 10km目标立项,完成800G10km相干技术路线确立,提交10余篇标准文稿 Application Requirement for Beyond 400GE from TelecomOperators’ Perspective Consideration on 800Gb/s coherent solutions for 10km Considerations on GMP bypass for 800G-LR1/ER1 Towards consensus on a coherent based 800G 10 / 40 kmspecification Update to oFEC-based single lambda baseline for 10km and40km objectives 800GE(8×100G) 500m/2km高速接口测试 本次测试800GE短距光模块性能整体较为稳定,模块功耗在15w左右和工作温度在50~60℃范围仍有待优化空间;800GE光模块与路由器设备和测试仪适配性能良好,业界支持800GE设备厂家还较为单一 •测试拓扑:可插拔光模块插入测试仪表进行环回测试•测试内容:非成帧误码率、FEC功能、发射机频率偏移、收发传输时延、通道时延偏差、固件功能等光模块性能测试 •测试内容:包括流量转发功能、业务功能等设备能力测试 目录 以太网新调度机制—GSE 以太网新接口速率—B400GE 以太网新安全方案—PHYSec PHYSec:物理层加密,更低时延、更低开销、协议透明 智算中心基础设施承载大量数据传输处理,安全诉求极高;RDMASec、MACSec等安全方案在加解密带宽开销、时延、硬件支持等方面存在性能瓶颈,暴露的帧头部信息仍存在安全漏洞 探索新层次:将传统密码学思想应用到以太网物理层—PHYSec,解决现有技术方案的安全漏洞与性能瓶颈,具有极低开销、时延以及低功耗和成本等优势 L1.5层PHYSec:基于“64B/66B码块”的PHY芯片实现 L1层PHYSec:基于“比特流”的光模块实现 ü安全功能可插拔、硬化,高吞量ü无需升级设备硬件,即可具备安全加密能力ü安全加密能力不占用主设备资源,安全能力卸载ü实现端口-端口的链路级数据加解密 总结与展望 •AI/ML带来海量算力需求持续增长,新型智算中心网络涉及技术领域多,国内外尚处在技术研究阶段,创新机遇大,不确定性也大 •GSE最大限度兼容以太网生态,凝聚产业力量,形成自主可控、标准开放的技术体系,成为产业共识 •B400G高速接口标准和商用化进程相对稳定,须重点关注B400G相干技术实现复杂度,谨慎评估功耗成本等因素 •以太网物理层高安全能力有待进一步增强,PHYSec将成为新的安全解决方案 •业界共同推动B400G以太网技术成熟和商用,助力智算中心快速发展 谢谢聆听! 中国移动研究院公众号二维码 中移智库公众号二维码