AI智能总结
发展新型智算中心打造智能算力网络 中国移动研究院 中国移动算力网络发展历程回顾 算力网络发展主线 中国移动从算网基础设施构建、业务融合创新、创新技术引领等多方面系统化推进算力网络建设和发展 主线一面向算网基础设施构建 主线二面向业务融合创新 主线三 物理空间、逻辑空间、异构空间、多主体算力融通 实现创新技术引领,打造原创技术策源地 实现算网高效协同,支持CHBN业务融合发展,打造算网全新生态 “4+N+31+X”布局,1100边缘节点打造20ms、5ms、1ms三级时延圈SRv6/G-SRv6打造统一算网底座 产品算力化和算力产品化发布算网服务1.0构筑算网大脑 三横两域体系架构提出十大技术发展方向三十二大核心技术 继往开来,成功迈入算力网络新阶段 构筑算力网络发展源动力,开创算网一体原创技术体系 算力网络是算网交叉学科创新的重大契机,目标远大必付之全力。为构筑算力网络发展源动力,实现算网新服务的目标愿景,中国移动开创算网一体原创技术体系,联合产业一道形成一批我国原创技术 原创技术“5颗珍珠”:算力原生、算力路由、全调度以太、在网计算、G-SRv6 算力路由(CATS) 目前已经完成工作组首个立项:CATS问题分析、场景及需求 聚力“高、广、深”,实现新发展 推动算力成为与水电一样,“一点接入、即取即用”社会级服务最终实现“网络无所不达、算力无所不在、智能无所不及”的愿景 提升高度 拓展广度 挖掘深度 网为根基②实现深度融合统一 新型智算中心 以高性能GPU、AI加速卡为中心,以高速互联智算集群为目标,形成集约化建设的E级超大规模算力基础设施,具备软硬件AI全栈环境,支撑AI大模型的高效训练和推理 1、新型智算中心是对传统云数据中心的飞跃 在新互联、新算效、新存储、新平台、新节能等五大方面进行系统性重构,推动 传统云数据中心 PCIe25G传统以太 独立存储 风冷 裸机/虚机/容器 2、NICC新型智算中心的架构 强化互联技术、深化算力协同、定义新型存储、新增算力原生、升级绿色节能构建标准统一、技术领先、软硬协同、兼容开放的NICC新型智算中心技术体系 3-1、NICC新互联——高速互联计算总线 模型从千亿到万亿,高速卡间互联需求从8卡扩展到百卡,智算设备形态将从S(Server服务器)演变为 S²(Super Server,超级服务器),带来智算中心底层互联技术的全新变革 3-1、NICC新互联——高性能新以太互联网络 大模型以分布式训练为基础,通信开销导致GPU集群有效算力难以线性提升,网络成为AI算力“瓶颈”, 亟需构建以新型以太网技术为基础,开放兼容、超高性能的新型智算中心网络技术体系 未来:突破以太技术、升级高速互联 传统:网络性能和成本无法兼得 创新全调度以太网(GSE),革新以太网底层转发机制,增强物理层、链路层、网络层、传输层协议能力,全面提升网络性能 专用网络、超高性能、成本昂贵•InfiniBand•传统无损以太 基础转发机制导致AI场景性能受限 3-2、NICC新存储——内存池化 传统CPU和GPU分立的存储架构,导致数据大量搬移,影响模型训练效率 需要构建CPU和GPU间的统一内存池,减少数据搬运,简化编程开发,使模型训练更加高效 未来:HBM和DDR池化 传统:HBM和DDR分立 •数据多次复制,延迟高,影响模型训练效率•AI模型开发复杂,需要手动管理数据搬移 3-3、NICC新算效——升级计算架构 随着NICC向超级池化阶段发展,解决海量数据处理要求,需要聚焦GPU升级,突破性能瓶颈, 加强CPU、GPU、DPU三大芯片协同。未来,探索存算一体新型计算范式,达到能效比数量级提升 GPU、CPU、DPU三大芯片协同三大芯片协同提升算效迎接更加爆炸式的数据处理需求 存算一体,突破传统计算范式 下一代GPU芯片设计 突破冯·诺依曼架构达到能效比数量级提升 性能瓶颈显存带宽和容量的制约数据搬移的功耗激增 演进路线 ①存储一体化设计②稀疏化设计③算法和芯片协同设计④低时延推理架构设计 •GPU+DPU,参数面网卡升级,进一步满足可编程拥塞控制及大QP数量等前沿需求•GPU+DPU+CPU,智算资源并池,大幅优化智算集群管理效率,实现文件存储卸载,加速训推过程 面向大模型推理场景基于SRAM,中大算力,100Tops+无限擦写,数模混合,精度拼接 3-4、NICC新平台——引入算力原生 智算应用难以在多样竖井化智算生态间迁移部署,制约系统整体运用效能。中国移动原创提出算力原生技术,打造“芯合”算力原生跨架构平台,打破“框架+工具链+硬件”紧耦合生态锁定,屏蔽底层硬件差异,繁荣全“芯”生态 •跨架构综合编译器实现图算融合的跨架构综合编译、多级IR互转优化,生成中间元语格式的算力原生程序•原生程序格式规范全 系 统 共 识 的“中 间 元 语”。H o s t侧 、Device侧指令元语及执行策略的一体承载•原生运行时实现“中间元语”跨厂商的再装配,智算应用跨架构、可变粒度映射执行 3-5、NICC新节能——标准化大规模液冷技术 智算中心走向超大规模,面对不断攀升的能耗需求,液冷是必经之路但液冷产业生态不完善,设备标准化程度低,需要通过“五大统一”实现三“极”目标 极高密度 单机柜功耗>40kW ③液冷工质要求 极简运维 ④供电系统标准 ⑤监控管理要求 共筑大模型发展智能底座