您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国移动研究院]:中国移动算网一体技术创新与实践 - 发现报告
当前位置:首页/行业研究/报告详情/

中国移动算网一体技术创新与实践

2023-08-15陆璐中国移动研究院J***
中国移动算网一体技术创新与实践

中国移动算网一体技术创新与实践陆璐中国移动研究院2023年8月 算力是数字经济核心生产力生产哦i你是算力是数字经济核心生产力”算②算力直接带动数字产业化发展③AIGC使公众对算力的认知不断提升100年前电力现在点亮算力催生算力规模平均每增长一个百分点,带动数字经济增长0.4个百分点、GDP增长0.2个百分点ChatGPT等大模型的火爆,让算力越来越受关注,“海量数据+大算力+大模型”成为未来人工智能发展标配①算力成为数字经济核心生产要素网水电00.511.52环境和公共设施管理文教卫生与社会服务住宿餐饮业科研和技术服务能源供应金融业互联网、软件和信息服务批发零售业其他制造业计算机等设备制造直接带动产出间接带动产出算力已成为数字经济核心驱动,直接影响数字经济发展的速度,决定社会智能的发展高度2 中国移动提出“算力网络”新理念中国移动充分把握算力时代发展脉络,以网强算提出“算力网络”全新理念,两年多来持续开拓创新,全力推进算力网络发展,在业界取得了广泛共识,引起了巨大反响 推动算力网络体系化发展4中国移动从算网基础设施构建、业务融合创新、创新技术引领等多方面系统化推进算力网络建设和发展主线三面向创新技术引领主线一面向算网基础设施构建主线二面向业务融合创新物理空间、逻辑空间、异构空间、多主体算力融通“4+N+31+X”布局,1000边缘节点打造20ms、5ms、1ms三级时延圈SRv6/G-SRv6打造统一算网底座实现算网高效协同,支持CHBN业务融合发展,打造算网全新生态产品算力化和算力产品化发布算网服务1.0构筑算网大脑实现创新技术引领,打造原创技术策源地三横两纵体系架构三十二个核心技术形成技术体系构建试验网CFITI,打造科学装置 “算网一体”是中国移动算力网络发展的深化5算力网络的发展经过三个阶段的发展,逐渐深化2021-2023 2024-20252025~ 十四五阶段 十五五阶段及更长期起步阶段:泛在协同发展阶段:融合统一跨越阶段:一体内生网随算动智能编排算网一体一站服务:一站开通算网服务协同运营:云网运营双入口拉通融合服务:产品融合、确定性服务统一运营:统一入口、统一平台一体服务:多层次智简无感服务模式创新:多方算力可信交易运营服务编排管理基础设施算网融合智慧内生协同编排 算网一体的驱动力以网强算构建算网共生一体化新型信息基础设施,实现融合贯通多要素的一体化服务OTN/OXCOTN/OXC全光底座OTN/OXC统一IP算网底座分布式算力(端)分布式算力(边)分布式算力(网)分布式算力(中心)分布式算力(中心)分布式算力(边)分布式算力(网)分布式算力(端)算网一体化设施新基础科学计算产业数字化智能化升级AI大模型应用算网一体化服务新需求 算网一体化发展新约束 绿色低碳网络极致算力泛在 ——中国移动《《算网一体网络架构与技术体系展望白皮书》算网一体是算力网络发展的目标阶段,是计算和网络两大学科深度融合形成的新型技术簇,是融合贯通多要素的一体化服务,是实现算力网络即取即用社会级服务愿景的重要途径算网一体 算网一体总体设计7极致互联混合控制联合感知算力信息网络信息前提支撑作用ISP1ISP2CSP4CSP3CSP2CSP1拓扑信息拥塞状态SLA指标CPU利用率异构算力算力规模集中式控制分布式控制任务分解与调配节点1节点2消费侧节点3节点4算网一体通过“联合感知”“混合控制”“极致互联”构建面向智能化时代的数字基础设施关键技术2. 在网计算1. 算力路由3. 广域RDMA创新互联网架构协议,基于算网资源联合感知实现动态融合决策选路突破RDMA长距传输瓶颈,实现广域高性能互联•ISP:网络服务提供者; CSP:算力服务提供者4. 算网数字孪生基于网络大模型的算网数字孪生构建可视、可管、可控的算网基础设施网络内生算力,基于集中式控制,实现计算任务跨云、网、边、端分布式协同 1、算力路由(1/4)2018年开始研究算网融合技术,面向云边协同和边边协同的“性能反转”等问题,提出在路由域引入计算信息进行联合调度通过仿真发现在路由中引入算力信息在低、中、重载情况下均有一定的优化效果(1)感知:路由系统感知计算资源(2)路由:综合网络和计算信息寻址选路解决思路在路由中引入计算信息,进行联合调度,边缘节点边缘节点中心云问题本质计算和网络是独立系统,算的负载和网的拥塞信息没有产生关联算: 降低负载、计算资源预留...网: 增加带宽、配置专线... 增加网络建设、运维成本 造成大量计算资源的闲置- 计算负载高及网络队列深的条件下,边缘响应平均时延及尾时延远大于中心云- 算的负载状态以及网的拥塞情况均是问题来源发现问题 云边以及边边调度之间出现“性能反转”形成算力感知网络CAN的核心方向-算力路由批量100个客户端通过 http 连续访问服务端程序 1、算力路由(2/4)历经4年,中国移动在IETF发起成立算力路由工作组(CATS, Computing-Aware Traffic Steering)并担任主席,是IETF 路由域近10年由中国高校/公司牵头成立的两个工作组之一9CATS面向AR/VR、车联网等新型多节点部署服务的场景,考虑网络边缘节点如何引导服务的客户端和提供服务的站点之间的流量的问题,制定算力路由的场景、需求、架构标准范围•基础工作:问题声明、场景、需求、技术分析等•总体架构:定义、组网、功能模块等•其他基础工作:计算指标的分析、控制面和数据面的定义、基于现有协议的实现、潜在新协议需求的分析里程碑/计划•2023年7月,采纳问题声明、场景、需求、技术分析等基础文稿•2024年7月,采纳架构文稿•2025年11月,提交架构文稿至RFC发布序列https://datatracker.ietf.org/wg/cats/about/ 1、算力路由CATS (3/4)CATS已经召开二次会议,目前已经完成场景和需求立项,聚焦在架构、需求、计算指标定义等工作https://datatracker.ietf.org/wg/cats/document/CATS 核心组件Ingress CATS-Router:•CATS Traffic Classifier(C-TC): 区分是否是CATS流量,决定服务节点•CATS Path Selector (C-PS):选择网络转发路径Egress CATS-Router:•CATS Network Metric Agent(C-NMA): 收集和分发网络指标•CATS Service Metric Agent(C-SMA): 收集和分发服务和计算指标CATS-control center:•CATS Computing information Base(C-CIB):维护细粒度的计算信息•CATS Network Metric information Base(C-NIB): 维护细粒度的网络信息•CATS Path Calculation Unit(C-PCE): 计算最合适的网络路径和选择服务节点•CATS-SBI interface: CATS-control center与CATS-Router的接口10CATS 架构 1、算力路由(4/4)算力路由系统根据网络部署情况,支持集中式、分布式、混合式等多种组网方案。从集中式组网方案开始,分阶段逐步开展算力路由实验验证 阶段I集中式方案•开展规模性部署的CATS技术方案验证•开展CA-BGP等新型协议的验证测试• 分布式算力路由样机已进入平台测试阶段•完成算网控制器和算力路由网关原型样机开发, 构建业内首个集中式算力路由验证系统•推进广东珠海现网试点验证,验证业务承载量提升 30%以上,算网综合资源利用率提升32%以上阶段II 端到端算力路由系统验证总体测试方案算网控制器算力路由网关云管理平台算力路由网关算网控制器算力路由网关算力路由网关算力路由网关算力路由网关云资源池RestfulBGP-LSTelemetryBGP SRv6 PolicyBGP-FSNetconf云资源池用户应用APP应用APP5431分布式算力感知2分布式网络感知3集中式算网一体感知4集中式多策略调度5算力路由转发分布式算力路由样机《算网一体技术体系关键技术创新案例》荣获CCSA TC6102022年度“最佳实践案例”《算力感知和算力路由构建算网一体化调度》荣获工信部2022年ICT优秀案例“卓越科技创新奖”《算力感知和路由方案》通信世界全媒体“2023年度算力应用案例十大标杆”CA-BGPCA-BGPCA-BGPCA-BGP算网一体感知协议CA-BGP-LS12分布式:125集中式:53411《面向算网一体的算力路由技术攻关和标准突破》方案成功入选2023届未来网络领先创新科技成果 2、在网计算(1/4)12 12 背景问题•Tensorflow在128张卡下训练InceptionV3模型(参数量2000多万),节点间通信时间已接近系统总处理时间的50%•GPT-3模型已增长至1750亿参数,训练预估需要5000张GPU卡,通信瓶颈问题将被进一步放大通信时间计算时间问题根源及现有方案的不足ClientClientServerServerServerSwitch①②③ECMP等网络侧调度策略无法适应智算网络差异化的流量特性,造成网络链路负载严重不均衡MPI集合通信的实现方式并未和物理网络联动设计,网络中存在大量冗余信息接收100%0%接收发送发送通信开销已成为分布式AI模型训练的性能瓶颈,严重制约系统规模扩展现有的网络侧及端侧解决方案仍面临负载不均衡、难以动态调度等问题在网计算主要优势流量压缩网内处理,实现Sub-RTT通信交换机Tbps处理能力在网聚合,数据消冗与求和缩短传输路径MPI_Broadcast()组播以在网计算实现MPI接口广播及规约操作为例,说明在网计算对AI模型训练系统性能提升MPI_Reduce()规约通信复杂度:大模型训练的模型同步与数据同步算法大模型训练常用的梯度聚合算法通信复杂度:线速处理模型参数总量 2、在网计算(2/4)在网计算在学术和产业上已经有一定的研究基础,仍然面临竖井式、封闭化、开发不友好等挑战面向AI训练场景,多级交换机参与PS参数向量聚合,基于IP协议设计 ATP Header在网聚合学术研究产业实践ATPSHARPIB based MPI-Bcast基于IB智能网卡和IB交换机,实现在网聚合基于IB交换机的硬件组播能力,实现MPI_Bcast在网组播在网聚合NSDI ’21IPDPS’04COMHPC’16基于NP交换机实现PS参数聚合,基于UDP协议设计Trio-ML HeaderTrio基于FPGA和商用交换机实现传输层透明的参数在网聚合NetReduceASPLOS ’23SIGCOMM ’22挑战封闭化基于InfiniBand网络协议栈及专用网络硬件实现在网计算,成本昂贵开发不友好应用程序开发模式和网络开发模式不匹配,开发者学习门槛高竖井式现有在网计算设计面向单一场景,在协议设计、硬件实现等方面不通用 2、在网计算(3/4)中国移动提出在网计算NACA架构(Network Assisted Computing Acceleration),通过重塑应用处理和开发模式,实现系统加速,提升算网资源利用率异构网元在网计算通信库分布式应用AI训练/推理大数据HPC高性能互联DC交换机端侧适配器边缘汇聚交换机园区网关INC可靠传输InfinibandOmni-PathSlingshotINC标识转发INC拓扑感知RoCE同步/异步控制多对一通信一对多通信多对多通信统一通用的在网计算通信库、实现分布式应用逻辑与物理通信高效映射,重构应用计算、开发模式NACA架构发布在网计算(NACA)技术白皮书 2、在网计算(4/4)以分布式机器学习模型训练为典型应用场景,中国移动推进在网计算的验证和标准训练提速:相比参数服务器架构BytePS,通信密集型任务

你可能感兴趣

hot

段晓东:算网一体定义算力网络未来

信息技术
中国移动研究院2023-12-28
hot

中国移动智算中心网络技术实践与思考

开放数据中心委员会2023-09-15
hot

通信行业:算网一体技术研究及发展探讨

信息技术
中国移动研究院2023-07-31
hot

打造算网一体创新高地,推动算力网络纵深发展

信息技术
中国移动研究院2023-06-29