您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国移动]:打造算网一体创新高地,推动算力网络纵深发展 - 发现报告
当前位置:首页/行业研究/报告详情/

打造算网一体创新高地,推动算力网络纵深发展

2023-06-07-中国移动枕***
打造算网一体创新高地,推动算力网络纵深发展

打造算网一体创新高地推动算力网络纵深发展1中国移动 段晓东2023年5月 算力网络的发展回顾2 2021-2023 2024-20252025~ 十四五阶段 十五五阶段及更长期起步阶段:泛在协同发展阶段:融合统一跨越阶段:一体内生网随算动智能编排算网一体一站服务:一站开通算网服务协同运营:云网运营双入口拉通融合服务:产品融合、确定性服务统一运营:统一入口、统一平台一体服务:多层次智简无感服务模式创新:多方算力可信交易运营服务编排管理基础设施算网融合智慧内生协同编排算力网络发展路径3 中国移动从算网基础设施构建、业务融合创新、创新技术引领等多方面系统化推进算力网络建设和发展主线三面向创新技术引领主线一面向算网基础设施构建主线二面向业务融合创新物理空间、逻辑空间、异构空间、多主体算力融通“4+N+31+X”布局,1000边缘节点打造20ms、5ms、1ms三级时延圈SRv6/G-SRv6打造统一算网底座实现算网高效协同,支持CHBN业务融合发展,打造算网全新生态产品算力化和算力产品化发布算网服务1.0构筑算网大脑实现创新技术引领,打造原创技术策源地三横两纵体系架构提出十大技术发展方向三十二个核心技术体系4推动算力网络体系化发展 算力网络的发展是一个既往开来的重大工程,要持续提升发展的高度、广度和深度打造新型智算中心创新广域算网一体开创多形态服务提升高度拓展广度挖掘深度新型智算为重点,构筑“通智超”多维、云边端多级、社会多元的泛在化算力多样化接入网络和算网联合优化调度,使算力服务触手可及推动技术要素、能力要素和资源要素从孤立向融合一体化发展5推动算网一体原创技术 攻关算网一体原创技术,推动实现算力无所不在,网络无所不达,智能无所不及存算一体算力原生全以太调度打造新型智算中心高任务式服务数据快递算力并网开创多形态服务数字孪生网络深在网计算算力路由400G/800G创新广域算网一体广广域RDMA6算网一体主要创新技术 传统云数据中心新型智算中心算:GPU集群算力存:多元融合存储网:高速无损网络管:异构算力池化效:高效节能控制智能算力将成为未来算力主流,中国移动加快发展智能算力,以新型智算中心为发力点,打造算力高峰,推动算力网络实现智能跃迁 新型智算中心NICC(一、打造新型智算中心,发展算力新高峰7以GPU、AI加速卡等智能集群算力为核心集约化建设的E级超大规模新型算力基础设施,软硬件全栈环境,支撑AI大模型的高效训练,支撑行业数智化转型升级 传统云数据中心算力以CPU为主,单机双路GPU为主,单机8卡,扣卡互联,最高带宽600G冷板或浸没液冷,单机柜40KW普通以太网络, 10G/25GNFS、Posix、S3多协议融合,海量非结构化数据RoCE高速无损网络,200G/400GGPU池化,算力原生跨架构迁移单一存储协议,结构化数据为主CPU虚拟化、容器化传统风冷,单机柜7KW新型智算中心算存网管效面向大模型孵化,五大核心技术全面升级,构建标准统一、技术领先、兼容开放的智算底座1、新型智算中心五大核心技术升级8 9中国移动原创提出算力原生技术,着力打造“芯合”算力原生跨架构平台,目标打破“框架+工具链+硬件”紧耦合的智算生态,屏蔽底层硬件差异,实现智算应用的跨架构迁移部署。繁冗开发、复杂适配、各自为栈一次开发、一次封装、跨芯迁移①发布《面向智算的算力原生白皮书》 原创提出 “两层架构”和“三大核心技术”② OIF成立开源工作组,牵头国内外多项标准立项③ 打造“芯合”算力原生原型平台beta版,进行技术理念验证实现视频分析、图像识别两类智算应用在GPU T4 、MLU 370间的跨架构部署迁移牵头在OIF成立算力原生子工作组牵头在ITU、CCSA进行标准立项三阶段发展路径:异构算力资源池化- 应用跨架构迁移-全局泛在融通硬件层应用层oneAPICUDANeuWareROCm......PytorchCANN无法互识跨架构流转框架层工具链......XXXX算力原生层跨架构流转的原生程序原生运行时 编程模型转换、编译、优化程序加载动态链接oneAPICUDANeuWareROCm......CANN硬件层应用层框架层工具链Pytorch......•统一编程模型及源源转换 基于SYCL的单源编程模型范式•跨架构综合编译机制 多级IR互转,图算数融合编译优化•原生程序格式规范Host侧、Device侧指令元语及执行策略的一体承载•原生运行时算力抽象跨厂商运行时接口/指令集的可变粒度映射机制2、算力原生 冯·诺依曼架构传统冯·诺依曼架构存算分离,存在 “存储墙”瓶颈,存算一体将存算单元深度融合,为计算架构提供更高能效,极具潜力广义存算一体近存计算PNM(Processing Near Memory)存内处理PIM(Processing In Memory)存内计算CIM(Computing In Memory)存算存算存&算存&算存&算存&算发布业界首个《存算一体白皮书》,开展计算电路、芯片架构、软件工具、算法/模型等关键技术攻关存算一体生态构建①行业呼吁:白皮书②产业合作计算电路关键技术攻关芯片架构软件工具算法/模型联合产学研3、存算一体10 全调度以太网突破智算中心网络性能瓶颈,打造无阻塞、高带宽及超低时延的新型智算中心网络,构建标准开放技术体系,助力产业发展发布业界首个《全调度以太网技术架构白皮书》,展开芯片、协议、设备、管控及架构等关键技术攻关与传统以太网相比,全调度以太网主要有分发粒度、发流模式及管控模式三大机制变化,实现高效、精确和可靠的网络 从“推”流到“拉”流• VOQ调度,最大限度避免拥塞•精细反压机制,避免HOL等问题 从分布式管控到集中式管理•集中式全局网络信息维护及调度•分布式管理面、控制面及数据面 从“流”分发到“容器”分发• 基于虚拟容器的逻辑转发单元•逐“容器”的动态负载均衡机制中国移动携手中国信通院、腾讯、鹏城实验室、清华大学、华为、中兴、锐捷、新华三、中信科、思博伦、Intel、Marvell、盛科等十余家合作伙伴,联合发布《全调度以太网技术架构白皮书》4、全调度以太网11 算力多地域联动、多主体供给需要网络高效协同,面向东数西算、智算互联等关键场景极致互联需求,构建算网一体高性能互联底座,实现算网资源联合感知与融合调度二、创新广域算网一体,开拓发展新广度极致互联融合选路联合感知算力负载网络状态前提支撑作用QPSK新调制新型拥塞控制调度成本、从单技术域向算网双域相互感知信息从单一目标选路向多目标综合求解优化资源利用率...系统能效从尽力而为向低时延无损、高通量可靠演进数据加密简化网络转发,以光纤为基础构成大吞吐通信网络在网计算打破算网边界,网络内生算力,计算任务跨网络节点分布式协同算力路由全光网络广域RDMA突破广域传输性能瓶颈,实现RDMA高效传输拉远突破互联网架构协议,距离向量叠加算力向量,整体优化算网资源12 创新提出算力路由体系,将算力信息引入路由域,通过统一控制和调度实现算网资源的全局优化,提供极致体验②CA-BGP-LS: 出口节点向算力控制节点通告算力状态信息①CA-BGP:采集算力信息,通过扩展BGP协议进行通告③CA-OSPF:在域内泛洪算力信息为路由提供参考⑤CA-Restful/json:通过restful协议接口收集Json消息算力信息④CA-Netconf/yang:通过Netconf协议下发Yang模型算力配置算力路由协议簇算力路由组网架构历时4年推动IETF成立算力路由工作组CATS,中国移动担任主席2019~2022年5次研讨会2023年3月 CATS WG成立暨首次会议,是路由域最受欢迎的工作组之一算力路由的提出①发现问题云边以及边边调度之间出现“性能反转”②问题本质计算和网络是独立系统算的负载和网的拥塞信息没有产生关联③解决思路在路由中引入计算信息,进行联合调度工作组范畴和计划1、算力路由(CATS)13 全新记录面向“东数西算”,发布世界最长距离无电中继400G光传输现网技术试验网络,实现跨浙、赣、湘、黔四省的骨干网400G QPSK信号5616km实时现网传输,为构建算力网络的大带宽、低时延全光底座打下坚实基础1明确了400G QPSK是长距离骨干技术方案2采用C6T﹢L6T波段实现80波大容量系统3沿用现有光层基础设施满足长距离传输需求5616km宁波-贵安-宁波现网试点拓扑结构ü2021:当时单载波800G实时传输距离世界纪录(1122km,ECOC 2021, We3C1.5)ü2022:多子载波800G实时传输距离世界纪录(2018km,ECOC 2022,Tu1A.1,Top-scored)ü2023:400G QPSK实时现网传输距离世界纪录(5616km)ü2023:400G QPSK C6T+L6T 满波加载传输距离世界纪录(7000km,投稿ECOC 2023) 新调制新器件新波段器件带宽提升近3倍OSNR容限劣化6dB波段范围增加200%全新挑战2、400G/800G14 提出广域RDMA技术(WTSN),面向东数西算、数据异地上云等海量数据广域高质量传输需求,实现高吞吐、高可靠、低时延、低算力损耗2高2低特性的算网高性能互联网络3、广域RDMA(WTSN)15广域网TCP传输吞吐受限①新型拥塞控制算法,提升吞吐,降低丢包②丢包快速恢复算法,减少重传,降低时延③丢包精确重传机制,实现RDMA有损部署④数据安全加密协议,实现数据高安全传输标准引领 牵头CCSA TC3行标《承载RMDA的广域网技术要求》原型验证 基于中国移动算力网络试验网开展WTSN-Beta 版原型验证产学研协同合作原生RDMA丢包敏感,难以直接用于广域网时延由1ms增加到10ms时,吞吐下降10倍丢包率达到0.5%时,吞吐下降为0Ethernet LinkInternet ProtocolApplicationRoCE Transport ProtocolWAN Congest ControlPacket Precise RetransmitSecure Data TransmissionUser Datagram ProtocolRDMA API (Verbs)HardwareSoftwareLoss Packet RecoverTCP/IP StackIBTA Stack4个关键技术,实现长距高吞吐传输广域RDMA技术(WTSN) 三、开创多形态服务,探索要素融合新深度16数智化转型需要丰富多样、多元灵活、智慧高效的计算服务,中国移动从服务模式、服务业态、服务中枢三个方面持续探索要素融合新深度,推动算力“即取即用”目标愿景达成算网数字孪生:构建算网孪生体,实现虚实映射,全生命周期调配优化算力并网:汇聚超算、智算、三方公有云,小型三方算力,社会闲散算力任务式服务(TaaS):业务需求自动解析,多要素融合一体化供给 好以智能极简任务式服务实现数据快递,使能海量数据长距传输即送即达,满足数据高效低成本搬运和安全迁移的需求小时达当日达次日达超高带宽实时传输数十TB/小时聚合空闲带宽实时传输数百G~数TB/小时夜间空闲带宽错峰传输数十TB/小时广域互联云PE云PE 智算/超算中心数据源(存储卡/磁盘)数据快递站(机房/营业厅)数据源(私有云/公有云)运营平台算网大脑任务下发资源自动分配弹性带宽负载均衡安全加密 普算中心 多快省数据量大TB~PB/次专线传输小时达数据可靠安全加密综合成本低一站式服务1、任务式服务(TaaS)17 模式1:转售模式3:管理编排层对接模式4:云原生算力纳管•业务引流实现最佳匹配•弱管理,适用于智算/超算中心等并网•能力编排实现产品重塑•强管理,适用于三方公有云、小型三方算力•深度管控赋能闲置算力•增强管理,适用于小型三方算力、社会闲散服务器等运营层平台对接调用第三方运营系统运营平台嵌入第三方公有云链接实现服务转售管理编排层(大脑)对接第三方云管系统云原生方案向算力集群植入插件或代理•

你可能感兴趣

hot

打造算网一体创新高地,推动算力网络纵深发展

信息技术
中国移动研究院2023-06-29
hot

存算一体助力算力网络创新发展

中国移动研究院2023-08-15
hot

段晓东:算网一体定义算力网络未来

信息技术
中国移动研究院2023-12-28