
中国移动研究院段晓东 2023.08 目录 01中国移动算力网络总体进展 02围绕GPU,打造NICC新型智算中心 03围绕DPU,构建开放解耦产业生态 中国移动算力网络的发展历程 中国移动充分发把握算力时代发展脉络,以网强算提出“算力网络”全新理念,两年来持续开拓创新,全力推进算力网络发展,在业界取得了广泛共识,引起了巨大反响。 算力网络是以算为中心、网为根基,网、云、数、智 、 安 、 边 、 端 、 链(ABCDNETS)等深度融合、提供一体化服务的新型信息基础设施。 ——中国移动《算力网络白皮书》 体系化推动算力网络发展 中国移动从算网基础设施构建、业务融合创新、创新技术引领三条主线体系化推进算力网络建设和发展,取得了一系列重大成果 主线三面向创新技术引领 主线二面向业务融合创新 主线一 面向算网基础设施构建 “4+N+31+X”布局,1000余边缘节点构建E级超大规模单体智算中心打造20ms、5ms、1ms三级时延圈 三横两纵总体架构创新提出十大技术发展方向布局攻关三十二大核心技术 产品算力化和算力产品化创新服务体系,发布算网服务1.0融数注智构筑算网大脑1.0 构建核心技术体系,打造技术策源高地 中国移动持续推动算力网络技术的创新突破,构建算力网络核心技术体系,打造原创技术策源高地。 算力网络创新技术突破 算力网络核心技术体系 OIF牵头成立全球首个CFN开源社区,IETF主导成立算力路由工作组并担任主席 算力网络发展推动新型算力不断演进 数据体量激增、结构多样,对计算效率提出了更高要求,以数据为中心的多样化新型计算架构迅速兴起,中国移动围绕CPU+GPU+DPU三大芯片全面发力,推动多样性算力发展成熟 数据中心计算架构由CPU向CPU+XPU异构化演进 “3U”一体推动多样性算力发展 CPU 面向x86、ARM、RISC-V三大CPU架构,系统性打造“芯巢”算力孵化平台,从标准制定、芯片评估、行业赋能等多种途径,促进多样性算力成熟 GPU 围绕GPU性能的极致利用,以新型智算为核心,打造智能算力高峰。构建新型智算技术体系,打造E级超大规模单体智算中心,支撑通用AI大模型的训练与孵化 DPU 行业数字化转型带来多样化的海量数据处理需求,传统以CPU为中心的计算架构面临瓶颈,以数据为中心的新型计算架构迅速兴起,GPU、DPU相继成为数据中心第二、第三颗大芯片 通过DPU实现极致性能极低损耗,构建业内首套DPU软硬解耦系列标准,形成“1+5+4”标准化体系,成立“DPU创新开放实验室”,推动DPU技术成熟和产业繁荣发展 目录 01中国移动算力网络总体进展 02围绕GPU,打造NICC新型智算中心 03围绕DPU,构建开放解耦产业生态 打造新型智算中心,发展算力高峰 智能算力将成为未来算力主流,中国移动加快发展智能算力,以新型智算中心为发力点,打造算力高峰,推动算力网络实现智能跃迁 新型智算中心NICC (New Intelligent Computing Center) 以GPU、AI加速卡等智能集群算力为核心集约化建设的E级超大规模新型算力基础设施,软硬件全栈环境,支撑AI大模型的高效训练,支撑行业数智化转型升级 近中期:五大核心技术特征全面升级 面向大模型孵化,实现“算、存、网、管、效”五大核心技术全面升级,构建标准统一、技术领先、兼容开放的智算底座 新型智算中心 中远期:跨学科技术融合创新引领突破 面向中远期,中国移动提出具有中国特色的三大原创技术,推动新型智算中心在算、存、网、管、效五个方面融合创新,引领技术突破 算网效 算管效 算力路由 算力原生 全调度以太网 打破异构算力技术生态竖井,实现应用跨架构迁移 新一代全调度以太网技术生态,形成端网协同新型智算中心网络 改变互联网基础架构,协议上实现算力与距离向量叠加融合 算力原生:智算应用跨架构迁移部署 中国移动原创提出算力原生技术,着力打造“芯合”算力原生跨架构平台,目标打破“框架+工具链+硬件”紧耦合的智算生态,屏蔽底层硬件差异,实现智算应用的跨架构迁移部署 原生运行时算力抽象 跨厂商运行时接口/指令集的可变力度映射机制 一次开发、一次封装、跨芯迁移 繁冗开发、复杂适配、各自为栈 ②OIF成立开源工作组,牵头国内外多项标准立项 ③进行算力原生技术理念原型验证 ①发布《面向智算的算力原生白皮书》提出“两层架构”和“三大核心技术” •三大核心技术:算力抽象、跨架构编译优化、原生运行时•三阶段发展路径:异构算力资源池化、应用跨架构迁移、全局泛在融通 12•探索“芯合”beta平台,实现视频分析、图像识别两类智算应用在GPU T4、MLU 370间的跨架构部署迁移 •牵头在OIF成立算力原生子工作组•牵头在ITU、CCSA进行标准立项 全调度以太GSE:突破无损以太性能瓶颈 全调度以太网突破智算中心网络性能瓶颈,打造无阻塞、高带宽及超低时延的新型智算中心网络,构建标准开放技术体系,助力产业发展 与传统以太网相比,全调度以太网主要有分发粒度、发流模式及管控模式三大机制变化,实现高效、精确和可靠的网络 算力路由:推动算网一体创新发展 创新提出算力路由体系,将算力信息引入路由域,通过统一控制和调度进行算网资源全局优化,实现用户体验、资源利用率和网络效率的最优组合 历时4年推动IETF成立算力路由工作组CATS,中国移动担任主席 目录 01中国移动算力网络总体进展 02围绕GPU,打造NICC新型智算中心 03围绕DPU,构建开放解耦产业生态 DPU是算力网络算力基础设施坚实底座 DPU以数据为中心构建敏捷、灵活、高效的算力基础设施底座,实现低损耗、高性能、高灵活、强安全,支撑算力网络多样化业务需求 低损耗 技术体系不完善、产业生态不健全是DPU行业面临的核心挑战 当前各自为营、定向适配的集成模式不利于DPU产业的健康发展,亟需完善技术体系,构建统一软硬件标准,加强产业合作,推动DPU产业生态繁荣 技术体系 产业生态 云计算的需求决定DPU技术体系,云计算新技术、新场景迭代频繁,使得DPU的“易用性”成为落地关键 DPU与云平台、服务器三位一体共同构成端到端解决方案,任一环节的缺失均会影响产业落地 Ø技术架构不独立:DPU本质是云化、虚拟化技术从纯软件实现向软硬结合发展的结果,技术架构与云计算关系密切,耦合度高 DPU落地商用需要云平台、DPU、服务器三方定向适配,导致适配时间长、成本高 云平台 Ø技术路线不明晰:DPU在实现某一功能时,存在多种技术路线,无法收敛 DPU 服务器 Ø技术标准不成熟:DPU功能与接口缺乏标准,硬件及服务器多为定制化实现,国内外相关标准组织刚刚起步 中国移动DPU标准和生态推进 为应对DPU产业发展难题,基于中国移动三云DPU引入需求,中国移动持续推动DPU软硬解耦标准体系和开源生态构建,发布《DPU技术白皮书》,在业内首次提出DPU“1+5+4”标准化体系 中国移动DPU标准开源进展 在OIF CFN社区成立算力卸载工作组 一套总体架构、五大软件模块、四大硬件系统 基于DPU的一套算力基础设施总体架构 DPU算力基础设施由服务器硬件层、DPU软硬融合层、平台应用层三层组成,包含管理、网络、存储、计算、安全五大软件模块和供电系统、散热系统、带外管理、运维策略四大硬件系统,可支持弹性裸金属、无损网络、高性能存储等功能,支持虚机、容器、裸金属的统一承载和管理 DPU软件“五大模块”标准化 面向DPU与云平台软件定向开发适配成本高的问题,围绕管理、网络、存储、计算、安全“五大模块”定义功能要求和交互接口,形成DPU软件标准化体系 •弹性裸金属管理功能•虚拟机、容器、裸金属统一管理运维方案 管理模块 •vSwitch,RDMA•控制面与转发面解耦接口•vDPA接口、RDMA兼容性编程接口 •存储网络协议iSCSI、NVMe-oF•存储接口virtio-blk/NVMe DPU硬件“四大系统”标准化 DPU对当前服务器硬件定制要求高,产业存在异厂家DPU卡与服务器设备不能适配的问题。针对DPU引入,以四大硬件系统统一为方向推进服务器硬件标准化,突破新技术规模应用瓶颈 统一整机结构及供电最大能力 约束整机可支持卡的最大结构规格及最大功耗门限约束整机可支持卡在整机Standby状态启动 统一散热能力 约束整机支持Standby状态对卡进行散热及调速处理策略 统一硬件边带信号定义及带外管理功能边界 约束整机能够提供给DPU的边带信号。逐步收敛带外管理设备的交互框架,最终做到边界清晰 统一运维策略 定义裸金属场景上下电、复位、固件升级、异常下电、故障处理等情景的开关机流程及软件 构建创新开放实验室,推动DPU生态成熟 中国移动于2022年11月成立DPU创新开放实验室,希望以业务需求为引导,凝聚产业合力、完善技术方案、制定行业标准,锚定业务场景孵化器、技术方案实验床、产业聚合平台三大定位,推进DPU产业稳步健康发展 构建DPU创新开放实验室 构建创新试验网CFITI,打造科学装置 构建“1+9+9”节点布局、AB双平面引擎的算力网络试验示范网(CFITI),并与“中国算力网”、“信息高铁”等互联,同步建设智算科学装置,面向新型智算、DPU等基础学科和前沿技术创新形成稳定实验床 打造算力网络科学装置 “1+9+9”节点布局 1个中枢节点 启动科学装置建设:2022年中国移动携手鹏城实验室、中国科学院计算技术研究所共同启动“大规模科技研发基础设施——算力网络科学装置合作”,以构筑公共基础实验平台类国家重大科技基础设施为目标,为算网基础科学研究及应用提供关键实验平台和测试支撑 北方国际信息港 9个集团级节点 9个省级节点 形成覆盖广泛、融通东西、多节点互联的创新试验科学装置 打造新型算力创新高地推动算力网络纵深发展