您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国移动研究院]:打造算网一体创新高地,推动算力网络纵深发展 - 发现报告
当前位置:首页/行业研究/报告详情/

打造算网一体创新高地,推动算力网络纵深发展

打造算网一体创新高地,推动算力网络纵深发展

算网产业专标准协同发展C'NET联第二届粤港澳大湾区(广东)算力产业大会暨首届中国算力网大会打造算网一体创新高地推动算力网络纵深发展中国移动段晓东2023年5月 算力网络的发展回顾C'NET中国移动充分发把握算力时代发展脉络,以网强算提出“算力网络”全新理念,一年多来持续开拓创新全力推进算力网络发展,在业界取得了广泛共识,引起了巨大反响算力网络是以算为中心、网为根迈向新征程开创新方向融入新战略基,网、云、数、智、安、边、发布《算力网络创新成果》发布新理念发布《算力网络技术提出新概念成为“5G+算力网络+CFITI试验网与中国算力网、端、链(ABCDNETS)等深度发布中国移动《算白皮书》,提出十大能力中台”新型信息基信息高铁三方互联,打造科融合、提供一体化服务的新型信杨杰董事长提出力网络白皮书》和技术方向“算力网络”概础设施的关键一环学装置息基础设施。发展倡议念与愿景2022.62022.12中国移动《算力网络白皮书》2021.112022.12021.8 算力网络发展路径'NET算力网络的发展过程既有固网强基、从云向算的继往开来,也有技术创新的科学高峰,是工程+技术的有机结合跨越阶段:一体内生起步阶段:泛在协同发展阶段:融合统-一站服务:一站开通算网服务运营服务融合服务:产品融合、确定性服务体服务:多层次智简无感服务协同运营:云网运营双入口拉通统一运营:统一入口、统一平台模式创新:多方算力可信交易编排管理协同编排智能编排智慧内生基础设施网随算动算网融合算网一体2021-20232024-20252025十四五阶段十五五阶段及更长期 推动算力网络体系化发展C'NET中国移动从算网基础设施构建、业务融合创新、创新技术引领等多方面系统化推进算力网络建设和发展主线一主线二主线三面向算网基础设施构建面向业务融合创新面向创新技术引领物理空间、逻辑空间、异构空间、多主实现算网高效协同,支持CHBN业实现创新技术引领,打造原创体算力融通务融合发展,打造算网全新生态技术策源地"4+N+31+X"布局,1000边缘节点产品算力化和算力产品化三横两纵体系架构打造20ms、5ms、1ms三级时延圈发布算网服务1.0提出十大技术发展方向SRv6/G-SRv6打造统一算网底座构筑算网大脑三十二个核心技术体系 推动算网一体原创技术C'NET算力网络的发展是一个既往开来的重大工程,要持续提升发展的高度、广度和深度提升高度拓展广度挖掘深度打造新型智算中心创新广域算网一体开创多形态服务新型智算为重点,构筑“通智超”多维多样化接入网络和算网联合优化调度推动技术要素、能力要素和资源要素从云边端多级、社会多元的泛在化算力使算力服务触手可及孤立向融合一体化发展 算网一体主要创新技术C'NET攻关算网一体原创技术,推动实现算力无所不在,网络无所不达,智能无所不及开创多形态服务任务式服务数据快递算力并网数字李生网络打造新型智算中心创新广域算网一体算力路由算力原生400G/800G全以太调度广域RDMA存算一体在网计算 、打造新型智算中心,发展算力新高峰C'NET智能算力将成为未来算力主流,中国移动加快发展智能算力,以新型智算中心为发力点,打造算力高峰,推动算力网络实现智能跃迁新型智算中心NICC效:高效节能控制(New Intelligent Computing Center)管:异构算力池化网:高速无损网络以GPU、AI加速卡等智能集群算力为核心存:多元融合存储GPU集群算力集约化建设的E级超大规模新型算力基础设施软硬件全栈环境,支撑AI大模型的高效训练新型智算中心支撑行业数智化转型升级传统云数据中心 1、新型智算中心五大核心技术升级'NET面向大模型孵化,五大核心技术全面升级,构建标准统一、技术领先、兼容开放的智算底座新型智算中心传统云数据中心GPU为主,单机8卡,扣卡互联,最高带宽600G算力以CPU为主,单机双路NFS、Posix、S3多协议融合,海量非结构化数据单一存储协议,结构化数据为主RoCE高速无损网络,200G/400G普通以太网络,10G/25GGPU池化,算力原生跨架构迁移CPU虚拟化、容器化冷板或浸没液冷,单机柜40KW传统风冷,单机柜7KW 2、算力原生C'NET中国移动原创提出算力原生技术,着力打造“芯合”算力原生跨架构平台,目标打破“框架+工具链+硬件”"紧耦合的智算生态,屏蔽底层硬件差异,实现智算应用的跨架构迁移部署·统一编程模型及源源转换应用层一智慧政务二智慧医疗智慧交通智慧能源应用层智慧交通手智慧能源基于SYCL的单源编程模型范式飞浆框架层1F TensorFlowPytorch框架层飞浆1F TensorFlow Pytorch·跨架构综合编译机制编程模型转换、编译、优化算多级IR互转,图算数融合编译优化工具链力原生层跨架构流转的原生程序原生运行时程序加载原生程序格式规范无法互识动态链接Host侧、Device侧指令元语及执跨架构流转工具链行策略的一体承载intel@nVIDIA HYGONCambriconHUAWEIintelCambricon·原生运行时算力抽象硬件层硬件层CANNoneAPICUDAROCmCANNoneAPICUDAROCmNeuWare跨厂商运行时接口/指令集的可变NeuWare粒度映射机制繁几开发。复杂适配、各自为栈次开发跨芯迁移①发布《面向智算的算力原生白皮书》②OIF成立开源工作组,牵头国内外③打造“芯合”算力原生原型平原创提出“两层架构”和“三大核心技术”Open Infrastructure多项标准立项台beta版,进行技术理念验证牵头在OIF成立算力原生子工作组三阶段发展路径:异构算力资源池化应用跨实现视频分析、图像识别两类智算应牵头在ITU、CCSA进行标准立项架构迁移-全局泛在融通CCSA用在GPU T4、MLU 370间的跨架构9部署迁移 3、存算一体'NET传统架构AI芯片在高算力场景下能耗问题日益严峻,存算一体新范式突破访存瓶颈,实现计算能效10~100倍提升,为新型智算中心提供高能效智能算力。中国移动攻关存算技术,构建存算一体产业生态传统冯·诺依曼架构存算分离,存在“存储墙”瓶颈,发布业界首个《存算一体白皮书》,开展计算电路、芯片架构、软件工存算一体将存算单元深度融合,为计算架构提供更高能效,极具潜力具、算法/模型等关键技术攻关控制单元冯·诺依存算一体计算单元生态构建曼架构输入设备广功耗墙设备存储单元行业呼:白皮书②产业合作关键技术攻关广义存算一体白皮书存&算存&算存算一体存存&算存&算计算电路芯片架构软件工具算法/模型算近存计算PNM联合产学研ZTE中兴Witmem存内处理PIM存内计算CIM(Processing Near Memory)(Processing InMemory)(Computing InMemory)10 4、全调度以太网'NET全调度以太网突破智算中心网络性能瓶颈,打造无阻塞、高带宽及超低时延的新型智算中心网络构建标准开放技术体系,助力产业发展与传统以太网相比,全调度以太网主要有分发粒度、发流模式及管控模式三大机制变化,实现高效、精确和可靠的网络分发发流管控粒度模式机制从“流”分发到“容器”分发从“推流到“拉”流从分布式管控到集中式管理基于虚拟容器的逻辑转发单元,VOQ调度,最大限度避免拥塞集中式全局网络信息维护及调度·逐“容器”的动态负载均衡机制精细反压机制,避免HOL等问题分布式管理面、控制面及数据面发布业界首个《全调度以太网技术架构自皮书》,展开芯片、协议、设备、管控及架构等关键技术攻关中国移动携手中国信通院、腾讯、鹏城实验室、清华大学、华为、中兴、锐捷、新华三、中信科、思博伦、Intel、Marvell、盛科等十余家合作伙伴,联合发布《全调度以太网技术架构白皮书)11 创新广域算网一体,开拓发展新广度'NET算力多地域联动、多主体供给需要网络高效协同,面向东数西算、智算互联等关键场景极致互联需求构建算网一体高性能互联底座,实现算网资源联合感知与融合调度联合感知融合选路算力路由突破互联网架构协议,距离向量叠加算力向量,整体优化算网资源算力前提网络调度成本、系统能效状态负载资源利用率..全光网络简化网络转发,以光纤为基础构成大吞从单技术域向算网双域相吐通信网络从单一目标选路向多目标互感知信息综合求解优化支撑作用突破广域传输性能瓶颈广域RDMA实现RDMA高效传输拉远极致互联QPSK新调制新型拥塞控制数据加密打破算网边界,网络内生算力在网计算从尽力而为向低时延无损、高通量可靠演进计算任务跨网络节点分布式协同12 、算力路由(CATS)NET创新提出算力路由体系,将算力信息引入路由域,通过统一控制和调度实现算网资源的全局优化,提供极致体验算力路由的提出算力路由组网架构算力路由协议簇①发现问题控制器①CA-BGP:采集算力信息,通过扩展BGP协议进行通告云边以及边边调度之间出现“性能反转'④算力信息通告②CA-BGP-LS:出口节点向算力控制节点通告算力状态信息②问题本质功路由出口节点算力节点?③CA-OSPF:在域内泛洪算力信息为路由提供参考计算和网络是独立系统AS域算力路由入口节点算的负载和网的拥塞信息没有产生关联2@CA-Netconf/yang:通过Netconf协议下发Yang模型算力配置③解决思路算力信息通告婴婴③CA-Restful/json:通过restful协议接口收集Json消息算力信息在路由中引入计算信息,进行联合调度算力路由出口节点算力节点历时4年推动IETF成立算力路由工作组CATS,中国移动担任主席2019~2022年5次研讨会2023年3月CATSWG成立暨首次会议工作组范畴和计划是路由域最受欢迎的工作组之一13 2、400G/800GNE面向“东数西算”,发布世界最长距离无电中继400G光传输现网技术试验网络,实现跨浙、赣、湘、黔四省的骨干网400GQPSK信号5616km实时现网传输,为构建算力网络的大带宽、低时延全光底座打下坚实基础新调制新波段新器件全新挑战从QPSK向16QAM、16QAM-从C波段向C+L波段扩展,光从34G向130G波特率调制器PCS、QPSK等多种码型竞争层系统需支持新波段等高性能器件OSNR容限劣化6dB波段范围增加200%器件带宽提升近3倍全新记录V2021:当时单载波800G实时传输距离世界纪录(1122km,ECOC2021,We3C1.5)V2022:多子载波800G实时传输距离世界纪录(2018km,ECOC2022,Tu1A.1,Top-scored)V2023:400GQPSK实时现网传输距离世界纪录(5616km)V2023:400GQPSKC6T+L6T满波加载传输距离世界纪录(7000km,投稿ECOC2023)明确了400GQPSK是采用C6T+L6T波段实沿用现有光层基础设施满长距离骨干技术方案现80波大容量系统足长距离传输需求14 3、广域RDMA(WTSN)'NET提出广域RDMA技术(WTSN),面向东数西算、数据异地上云等海量数据广域高质量传输需求,实现高吞吐高可靠、低时延、低算力损耗2高2低特性的算网高性能互联网络域网TCP传输春吐受限广域RDMA技术(WTSN)4个关键技术,实现长距高吞吐传输时延由1ms增加到WAN CongestContrc10ms时,吞吐下①新型拥塞控制算法,提升吞吐,降低丢包降10倍Protoco②丢包快速恢复算法,减少重传,降低时延User Data gram Protocol③丢包精确重传机制,实现RDMA有损部署Internet Proto col原生RDMA丢包敏感难以直接④数据安全加密协议,实现数据高安全传输Ethernet Link用于广域网产学研协同合作丢包率达到0.5%标准引领牵头CCSATC3行标《承载RMDA的广域网技术要求》时,吞吐下降为0原型验证基于中国移动算力网络试验网开展WTSN-Beta版原型验证15 CNET三、开创多形态服务,探索要素融合新深度数智化转型需要丰富多样、多元灵活、智慧高效的计