您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国移动研究院]:刘景磊:打造创新技术策源高地,推动算力网络纵深发展 - 发现报告
当前位置:首页/行业研究/报告详情/

刘景磊:打造创新技术策源高地,推动算力网络纵深发展

刘景磊:打造创新技术策源高地,推动算力网络纵深发展

打造创新技术策源高地推动算力网络纵深发展中国移动 刘景磊2023.09 2算力是数字经济的核心生产力网算水电① 事关核心生产要素升级过去十年,数据中心用电量以每年超10%速度递增,2020年约占全社会用电量的2.71%1.47%1.76%1.86%1.96%2.16%2.42%2.71%0.00%0.50%1.00%1.50%2.00%2.50%3.00%010000200003000040000500006000070000800002014201520162017201820192020数据中心耗电量全社会用电量数据中心耗电量占比我国算力规模平均每增长一个百分点,带动数字经济和GDP将分别增长1.6‰和0.8‰00.511.52环境和公共设施管理文教卫生与社会服务住宿餐饮业科研和技术服务能源供应金融业互联网、软件和信息服务批发零售业其他制造业计算机等设备制造直接带动产出间接带动产出② 事关数字经济增速③ 事关双碳目标实现资料来源: 国家统计局中国信息通信研究院中国数据中心耗电量及占全社会电量比 算力网络发展回顾3 算力网络体系架构4算网一体的基础设施融数注智的算网大脑融合统一的运营服务算网基础设施层OTN/OXCOTN/OXCOTN/OXC编排管理层运营服务层绿色算网运营算网大脑算网底座TaaS算力并网MaaS统一运营意图感知能力开放感知接入 能力接入 智能 设计编排调度统一IP算网底座全光底座通用计算(通)超级计算(超)智能计算(智)分布式算力(中心)分布式算力(边)分布式算力(端)安全 算力网络发展路径52021-2023 2024-20252025~十四五阶段 十五五阶段及更长期起步阶段:泛在协同发展阶段:融合统一跨越阶段:一体内生智能编排算网融合智慧内生算网一体协同编排网随算动算+网 协同(算网协同的资源式服务)大脑对算网等能力编排调度(多要素融合的任务式服务)算网从协议和系统层面开始融合(极致体验的智能化服务) 算力网络发展主线6中国移动从算网基础设施构建、业务融合创新、创新技术引领等多方面系统化推进算力网络建设和发展主线三面向创新技术引领主线一面向算网基础设施构建主线二面向业务融合创新物理空间、逻辑空间、异构空间、多主体算力融通“4+N+31+X”布局,1000边缘节点构建E级超大规模单体智算中心打造20ms、5ms、1ms三级时延圈实现算网高效协同,支持CHBN业务融合发展,打造算网全新生态产品算力化和算力产品化创新服务体系,发布算网服务1.0构筑融数注智算网大脑实现创新技术引领,打造算力网络原创技术策源地三横两域体系架构创新提出十大技术发展方向布局攻关三十二大核心技术 主线一:面向算网基础设施——完善算网基础设施布局7面向“东数西算”要求,中国移动紧密围绕“四个融通”,深入推进算网建设布局,提升算网服务能力算 · 融入东数西算战略布局网 · 构筑无所不达新型网络完善“4+N+31+X”数据中心布局构建E级超大规模单体智算中心打造中心节点间全光高速直连链路打通东数西算主动脉省级节点超300个,CDN节点超过1500个,边缘计算节点1100余个DCI云专网覆盖300余个地市做强边缘算力微循环打造骨干20ms、省域/区域5ms、城市1ms三级时延圈网络枢纽节点间带宽向400G演进向算而生构建网络新架构SRv6/G-SRv6打造统一算网底座网络切片提供满足确定性连接服务新一代SD-WAN高效分发算力服务技术创新打造网络新能力 主线二:面向业务融合创新——构建算力网络产品体系8以产品算力化和算力产品化为主线,打造更可靠、更高效、更智能、更便捷的算网服务体系,以“算龙头”作为运营服务门户,为千行百业用户提供算网能力服务入口打造算力产品云XR云游戏云魔百和...升级云网融合产品云专线云互联5G云梯探索新业态新模式自动驾驶元宇宙算力并网任务式服务拓展新方案新服务东视西渲中训边推数据快递东数西训运营服务门户 (算龙头)用户管理产品管理订单管理营销管理计费与结算云电脑...云手机云空间边缘智能云CDN云无线大云云盒云组网PoP连接网云端口 主线二:面向业务融合创新——构筑融数注智算网大脑9中国移动积极构建融数注智算网运营体系,建设业界首个算网大脑,向下拉通全域资源与能力,向上支撑全业务运营,实现算网资源与业务需求的最佳匹配不同类型客户的服务需求极高性能要求不惜成本,需要快速处理反馈便捷操作要求便捷的寻找到成本和时效的综合方案最低成本要求对时延不敏感,可通过时间换成本中国移动算网大脑ABCDNETS原子能力 (实现3000余种原子能力接入)基础算力、智算算力社会算力统一编排全局调度智能优化推荐最优执行方案价格、时长、SLA调度任务分解算网资源及能力协同调度智能分析智能预测智能决策智能调整...安全可靠要求算网环境稳定可靠,数据多地备份算网调度能力达万次/分钟任务输入方案执行资源调整任务交付 10主线三:面向创新技术引领——构建核心技术体系,打造技术策源高地提出十大技术发展方向和三十二大核心技术算力网络核心技术体系加强关键核心技术攻关和原创技术突破算力网络创新技术突破运营服务层编排管理层算网基础设施层算力交易数据流通方向七:可信共享算网服务 方向一:泛在智能新型算力泛在调度算网原生编排智能网络调度算网数据感知多要素融合编排算网智能化方向六:融数注智算网大脑方向三:光电联动全光网算力原生算力卸载存算一体智能算力算力度量云原生空天地一体在网计算算力路由PON超宽全光接入400G/800G全光高速互联OTN光电联动算网SPN切片承载SRv6/G- SRv6确定性网络应用感知新一代SD-WAN绿色安全芯片节能服务器节能数据中心节能低碳能源全程可信安全编排隐私计算 方向八:端到端绿色低碳 方向九:能力内生新安全方向四:确定性IP网络方向五:算网深度融合方向二:多样性计算架构方向十:空天地星云算网2022年6月发布中国移动持续推动算力网络技术的创新突破,构建算力网络核心技术体系,打造原创技术策源高地在网计算打破算网边界全调度以太突破无损以太性能瓶颈总线互联卡间高速通信新型智算NICC新型智算中心架构算力路由突破互联网架构协议算力卸载多算力形态统一底座存算一体突破冯氏架构一体化全程可信构建算力网络安全体系400G/800G全光高速互联超高速大容量全光网络算力原生实现应用跨架构迁移 智算设施智算原生ROCmCUDACANNTesnsorFlowPyTorchPaddlePaddleDeepspeed九天文件对象块多元融合存储GPU集群算力CPUGPU高速无损网络高性能全以太RoCE液冷整机柜高效供电智算基建冷却水系统智算框架AI 应用使能......跨架构编译器算力抽象运行时“芯合”算力原生智算运营编排调度计量计费算力交易能力开放算力管理存储管理网络管理FCAPS管理日志管理资产管理裸金属实例虚拟机实例容器实例异构算力池化算存网管效制定扣卡服务器的统一技术和评测标准,构建多样性算力格局,丰富产业生态创新提出多元融合存储技术方案,实现块、文件和对象三种存储方式统一,降低成本,提升存储效率原创提出全调度以太网GSE技术,打造开放解耦、高性能的数据中心无损网络创新基于API转发的GPU池化方案,实现资源的细粒度分配和跨资源池一体调度,提升智算资源分配灵活性和利用率1、新型智算:构建新型智算中心技术体系,打造算力高峰面向基础通用大模型孵化,中国移动构建NICC新型智算中心技术体系,围绕存、算、网、管、效五大核心技术特征全面推进,打造标准统一、技术领先、兼容开放的新型智算底座引入服务器冷板式液冷方案,推进服务器和机柜的解耦,有效降低数据中心PUENICC新型智算中心技术体系重点工作算存网管效11 2、算力原生:智算应用跨架构迁移部署12中国移动原创提出算力原生技术,打造“芯合”算力原生跨架构平台,目标打破“框架+工具链+硬件”紧耦合的智算生态,屏蔽底层硬件差异,实现智算应用的跨架构迁移部署。繁冗开发、复杂适配、各自为栈一次开发、一次封装、跨芯迁移①发布《面向智算的算力原生白皮书》 原创提出 “两层架构”和“四大核心技术”② OIF成立开源工作组,牵头国内外多项标准立项③ 打造“芯合”算力原生原型平台beta版,进行技术理念验证实现视频分析、图像识别两类智算应用在GPU T4 、MLU 370间的跨架构部署迁移牵头在OIF成立算力原生子工作组牵头在ITU、CCSA进行标准立项三阶段发展路径:异构算力资源池化- 应用跨架构迁移-全局泛在融通硬件层应用层oneAPICUDANeuWareROCm......PytorchCANN无法互识跨架构流转框架层工具链......XXXX算力原生层跨架构流转的原生程序原生运行时 编程模型转换、编译、优化程序加载动态链接oneAPICUDANeuWareROCm......CANN硬件层应用层框架层工具链Pytorch......•统一编程模型及源源转换 基于SYCL的单源编程模型范式•跨架构综合编译机制 多级IR互转,图算数融合编译优化•原生程序格式规范Host侧、Device侧指令元语及执行策略的一体承载•原生运行时算力抽象跨厂商运行时接口/指令集的可变粒度映射机制 3、算力路由:推动算网一体创新发展13中国移动创新提出算力路由体系,将算力信息引入路由域,通过统一控制和调度进行算网资源全局优化,实现用户体验、资源利用率和网络效率的最优组合②CA-BGP-LS: 出口节点向算力控制节点通告算力状态信息①CA-BGP:采集算力信息,通过扩展BGP协议进行通告③CA-OSPF:在域内泛洪算力信息为路由提供参考⑤CA-Restful/json:通过restful协议接口收集Json消息算力信息④CA-Netconf/yang:通过Netconf协议下发Yang模型算力配置算力路由协议簇算力路由组网架构历时4年推动IETF成立算力路由工作组CATS,中国移动担任主席2019~2022年5次研讨会2023年3月 CATS WG成立暨首次会议,是路由域最受欢迎的工作组之一算力路由的提出①发现问题云边以及边边调度之间出现“性能反转”②问题本质计算和网络是独立系统算的负载和网的拥塞信息没有产生关联③解决思路在路由中引入计算信息,进行联合调度工作组范畴和计划 4、总线互联:从直连向交换拓扑演进,打造高效集群能力14 千亿模型:高通信需求(张量并行)集中8卡之间万亿模型:高通信需求(MoE并行)集中在百卡之间012345670123456701234567...Sever NSever 2Sever 1...0123456701234567Super Sever(S2)架构01234567基于高速计算总线的S²的架构模型参数从千亿迈向万亿,互联高需求从8卡扩展到百卡间012345...N一组有N张GPU/AI卡012345...N一组有N张GPU/AI卡计算总线总线 Switch总线 Switch总线Switch总线 Switch总线 Switch总线 Switch总线 Switch更低延迟的内部通信更高效的数据读写更灵活的拓扑连接高速卡间互联需求从8卡扩展到百卡,智算设备形态将从S(Server 服务器)演变为 S²(Super Server,超级服务器),带来智算中心底层互联技术的全新变革。中国移动希望联合业界制定统一的高速互联计算总线标准,打破国内GPU卡间互联的性能瓶颈。 5、全调度以太:打造无阻塞的新型智算中心网络全调度以太网突破智算中心网络性能瓶颈,打造无阻塞、高带宽及超低时延的新型智算中心网络,构建标准开放技术体系,助力产业发展15专用网络、超高性能、成本昂贵•InfiniBand生态开放、性能有限、性价比高•传统无损以太传统:网络性能和成本无法兼得以开放破垄断以创新提性能未来:突破以太技术、升级高速互联流级ECMP被动拥塞控制独立转发决策基础转发机制导致AI场景性能受限创新全调度以太网(GSE),革新以太网底层转发机制,增强物理层、链路层、网络层、传输层协议能力,