AI智能总结
段晓东中国移动 通信网络正加速向新型信息通信网络演变 新型信息通信网络 通信网络 网络为核心的信息交换 提供语音、短信、移动宽带等通信服务 架构范式 中国移动算力网络发展历程 中国移动深刻把握算力时代发展脉搏,发挥运营商网络领先优势,以网强算提出“算力网络”全新理念。两年来,继往开来、开拓创新,全力推进算力网络发展 算力网络是以算为中心、网为根基,网、云、数、智 、 安 、 边 、 端 、 链(ABCDNETS)等深度融合、提供一体化服务的新型信息基础设施。 ——中国移动《算力网络白皮书》 算力与网络跨学科交叉融合创新 算为核心,网为根基,算力与网络的融合体现在“以算促网”和“以网强算”两个方面,二者“双向驱动”,算网交叉融合创新成为发展新范式 算力发展需求 网络演进需求 Ø从通信服务向新型信息通信服务转变 Ø摩尔定律下单点算力面临性能瓶颈 Ø性能代际提升对算力提出更高要求 Ø多样性算力需要异构融通、互补协同 Ø单一速率范式制约网络规模发展 Ø泛在算力闲散分布,需要高效集约利用 研判:算和网已经呈现双向驱动趋势,为了进一步呈现整体的能效、性能和利用率优势, 需要算网一体化的系统思维和多学科交叉创新 算网一体=F(Computing,Network)必要条件:Network, Computing互相影响充分条件:F(Computing,Network) >=F(Computing)+F(Network)限制条件:有限的Computing资源,和有限的Network资源优化目标:=G(能效、性能、利用率) 算网一体是算力网络的发展目标 走过算力网络“泛在协同”的重要阶段,迈入“融合统一”的发展新阶段 算网一体主要特征 算网一体原创技术深度赋能算网基础设施、编排管理、运营服务多层次一体化发展 设备一体 服务一体 协议一体 架构一体 网络和计算服务统一入口,通过能力的相互补充和调用,面向用户提供无感知的网络和计算服务 构建统一编程范式和异构算力抽象机制,形成一体编译链接、跨架构动态运行的基础软件架构,实现应用跨架构无感迁移 支持算力、网络、应用等多维资源感知和调度的新协议,可通过网络协议扩展并携带计算信息,或者定义新型协议 以外挂或内嵌/内生的方式,形成“算力感知”、“网络感知”或“转发即计算”的计算形态,构建异构融合的设备硬件 算网一体发展需要原创技术创新 算力网络是算网交叉学科创新的重大契机。为构筑算力网络发展源动力,开创算网一体原创技术体系,已形成一批标志性的原创技术 算网一体“5颗珍珠”:算力原生、全调度以太、算力路由、在网计算、数据快递 算网一体需要解决的核心技术问题 面向网络和计算的联合优化问题基于互联网协议体系,在路由中引入算力因子,开创算力路由协 1 议,实现距离向量和计算向量在路由技术的叠加,满足新型业务网络和计算的时延需求。 构筑新型智算中心的问题 2 传统无损以太存在性能天花板,网络技术成为AI算力瓶颈,通过创新以太网转发机制,以网强算构建无阻塞、高带宽、低时延的新型智算中心网络。 大规模数据广域高效传输的问题 3 针对传统协议吞吐随着传输距离、丢包率增加而急剧下降问题,设计新型可靠传输协议,实现长肥网络下超高吞吐数据传输。 1、算力路由CATS(1/3) 算力路由将算力因子引入路由域,实现网络和计算的联合优化,克服面向边缘计算的“性能反转”问题,满足时延和计算敏感新型业务需求 典型场景1:Computing-Aware AR/VR AR/VR时延需要低于20ms保障用户体验,包括: •传感器采样延迟:<1.5ms(客户端)•显示刷新延迟:≈7.9ms(客户端)•GPU的帧渲染计算延迟≈5.5ms(服务器)•网络延迟(预算)=20-1.5-7.9-5.5=5.1ms(网络) •通过算力路由在本地优先处理低时延业务(如辅助驾驶业务),保证其用户体验和可用性•将时延不敏感业务(如车载娱乐业务)从本地调度到远端 1、算力路由CATS(2/3) 算力路由需要解决算力扩展、算力信息通告、多因子路由求解等多方面的问题,实现基于网络因子和计算因子的联合路由 技术方向:简单高效的算力信息封装 问题1:算力度量问题 统一量纲,使用与网络和业务相同的度量维度信息,应用于路由调度,例如通过BGP Path Attribution扩展封装计算时延信息 算力信息维度较多,需要定义面向路由调度的高可用性计算信息,兼顾报文封装成本以及可用性 技术方向:自适应的算力通告 问题2:合理的算力信息通告问题 提出分域通告、分类通告,约束算力信息更新的范围,减少算力信息的无效通告。通过仿真建模量化分析算力信息通告信令开销的影响 通告频率越高,算力信息越实时,但开销越大,如何找到通告信令开销与信息实时性的平衡点 技术方向:新型算网多因子算路算法 问题3:路由求解,多维因子路由优化问题 构建算力路由信息表(CA-RIB),考虑距离因子、算力因子以及权重,生成算网cost=w1*网络cost+w2*算力cost 在距离矢量上叠加算力向量,改变选路方法,影响路由决策。简单叠加将导致路由不收敛 1、算力路由CATS(3/3) 历经4年,中国移动在IETF发起成立算力路由工作组(CATS, Computing-Aware Traffic Steering),中国移动担任主席,是IETF路由域近20年由中国高校/公司牵头成立的两个工作组之一 2023年3月CATS WG成立暨首次会议,是路由域最受欢迎的工作组之一 2019~2022年5次研讨会 完成场景和需求立项 完成实验系统,验证全局时延优化上约30%的性能提升 推动面向AI大模型的算力路由场景写入CATS WG标准 基于CATS+AI的内容获取 基于CATS的分布式推理 AI-based Media Distributionand Traffic Steering 合力攻关算力路由技术,围绕IETF CATS构建标准体系,推动产业生态加速构筑领先优势 2、全调度以太GSE(1/3) AI大模型以GPU集群分布式训练为基础,带来大量节点间通信消耗,网络成为AI算力“瓶颈”智算中心建设进入快车道,网络技术发展已滞后于AI模型演进,新型AI网络方案成为业界创新焦点 集群有效算力∝{GPU单卡算力*总卡数*线性加速比*有效运行时} 2%的丢包就会使RDMA吞吐率下降为0 2、全调度以太GSE(2/3) 中国移动提出全调度以太网(GSE)技术架构,最大限度兼容以太网生态,创新基于报文容器(PKTC)的转发及调度机制,构建无阻塞、高带宽、低时延的新型智算中心网络,形成标准开放的技术体系,助力AI产业发展 创新以太网转发机制,实现三大核心机制转变 从盲发+被动控制到感知+主动控制 从“局部”决策到“全局”调度 从“流”分发到“报文”分发 从被动拥塞控制,到基于“授权请求和响应机制”的主动流控,最大限度避免网络拥塞产生 将业务流拆分到不同“报文容器”转发,提供逐“报文容器”负载均衡机制,提升带宽利用率 全局视野的转发调度机制,实现集中式管理运维、分布式控制转发,提高网络可用性 未来:逐报文容器转发,链路负载均衡,全局调度,避免拥塞 当前:逐流负载,链路利用率低、发生拥塞被动降速 2、全调度以太GSE(3/3) 中国移动携手中国信通院,联合国内外三十余家主流互联网,设备商、芯片商、高校院所联合发起GSE推进计划,推动智算中心网络技术创新、标准完善和产业应用,打造高速无损、开放兼容的新型智算中心网络技术体系 云网智联大会发布 全调度以太网(GSE)特设组研究范畴 全调度以太网(GSE)合作伙伴 中国移动,中国信息通信研究院,中国广电、华为、盛科、中兴、锐捷、新华三、浪潮信息、Intel、Broadcom、清华大学、上海交通大学、鹏城实验室、紫金山实验室、北京邮电大学、中科院计算机网络信息中心、中信科、Spirent、是德科技、云合智网、楠菲微电子、燧原科技、昆仑芯、迈普,星云智联、云脉芯联、中科驭数、云豹智能、大禹智芯、中盈优创等四十余家产学研机构及厂商 3、数据快递GSN(1/2) 算力分布的不均衡以及智算、超算业务的蓬勃发展对广域数据传输提出更高要求,中国移动提出“数据快递”技术体系,充分利用高带宽网络实现高吞吐数据传输 数据量大 传输距离远 网络复杂多样 单次传输在TB级别天文观测:几十TB/次基因测序:TB~100TB/次影视渲染:10TB~100TB/节目 设备异构、拓扑复杂,难以无损链路层误码率不可避免大象流负载不均,存在拥塞丢包多流竞争,存在微突发丢包 属于长肥网络(LFN)带宽时延积(BDP)大网络传输带宽:>10Gbps传输时延:20ms~50ms 传统TCP协议在数据快递中吞吐受限,有效吞吐与链路时延、丢包率成反比 TCP网络吞吐= ——————1.22*MSSRTT*Sqrt(L)单流传输时,时延由1ms增加到10ms时,吞吐下降约10倍 使用多流传输会使单流吞吐下降,且受主机CPU性能限制,同样存在吞吐瓶颈 RFC 3649:HighSpeed TCP for Large Congestion Windows 8条流并发传输,单流吞吐下降7% 3、数据快递GSN(2/2) 基于新型传输协议,构建“数据快递”技术体系,实现超长距广域网环境下的超高吞吐数据传输 测试结果:新型传输协议是传统TCP协议吞吐的18倍(单流吞吐:7.94Gbps vs 424Mbps) ①新型传输协议设计,消除端侧吞吐瓶颈②新型拥塞控制算法,提升网络有效利用率③丢包快速恢复算法,降低数据传输尾时延④丢包精确重传机制,降低丢包对吞吐影响⑤端到端多路径传输,实现带宽聚合与均衡 •第二届中国算力大会发布技术白皮书•CCSA TC3推动关键技术行标立项 多举措推动算网一体技术和产业发展 打造算力网络试验示范网(CFITI) 构建算力网络产业链合作机制 打造多节点互联、双平面互促的算力网络试验示范网(CFITI),并与“中国算力网”、“信息高铁”等互联,面向基础学科和前沿技术创新形成技术支撑平台 以“补强建延”为指导思想,构建产业支撑平台,成立多种攻关战队开展协同攻关,提升产业链韧性和竞争力,推动算力网络产业繁荣发展 编队作战,协同创新 “A-B”双平面协同互促 以网强算,算网一体,以学科交叉融合范式创新,领航智算产业未来新发展