您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国移动]:算力网络原创技术与NICC新型智算中心技术体系 - 发现报告

算力网络原创技术与NICC新型智算中心技术体系

信息技术2023-09-26段晓东中国移动土***
算力网络原创技术与NICC新型智算中心技术体系

算力网络原创技术与NICC新型智算中心技术体系 中国移动算力网络发展历程回顾 算力网络发展主线 主线一面向算网基础设施构建 主线二面向业务融合创新 主线三面向创新技术引领 物理空间、逻辑空间、异构空间、多主体算力融通“4+N+31+X”布局,1100边缘节点打造20ms、5ms、1ms三级时延圈SRv6/G-SRv6打造统一算网底座 实现算网高效协同,支持CHBN业务融合发展,打造算网全新生态产品算力化和算力产品化发布算网服务1.0构筑算网大脑 继往开来,成功迈入算力网络新阶段 构筑算力网络发展源动力,开创算网一体原创技术体系 原创技术“5颗珍珠”:算力原生、算力路由、全调度以太、在网计算、G-SRv6 聚力“高、广、深”,实现新发展 挖掘深度 提升高度 拓展广度 多要素融合③开创一体化服务④模式 以算为中心①、网为根基②,网、云、数、智、安、边、端、链等深度融合③、提供一体化服务④的新型信息基础设施 打造智能算力新高峰——NICC新型智算中心 新 型 智 算 中 心 以高性能GPU、AI加速卡为中心,以高速互联智算集群为目标,形成集约化建设的E级超大规模算力基础设施,具备软硬件AI全栈环境,支撑AI大模型的高效训练和推理 1、新型智算中心是对传统云数据中心的飞跃 2、NICC新型智算中心的架构 3-1、NICC新互联——高速互联计算总线 模型参数从千亿迈向万亿,互联高需求从8卡扩展到百卡间 千亿模型:高通信需求(张量并行)集中8卡之间 3-1、NICC新互联——高性能新以太互联网络 未来:突破以太技术、升级高速互联 传统:网络性能和成本无法兼得 创新全调度以太网(GSE),革新以太网底层转发机制,增强物理层、链路层、网络层、传输层协议能力,全面提升网络性能 3-1、全调度以太网组网场景 GSE协议可根据网络设备和网卡能力,将方案各组件功能在网络组件中重新分工,支持多种组网场景,为后续网络建设和设备选型提供灵活的选择方案 Ø源GSP、GSF由网络设备担任,执行GSE头解封装、多路径分发等功能Ø网卡承担部分GSP角色,负责授权应答及报文排序 •GSP和GSF角色均由网络设备担任,执行GSE头解封装、多路径分发、端到端授权应答及报文排序•传统RoCE网卡,对网卡无额外要求 3-1、GSE原型机系统特性 产品规格: •当前32*100G(业务口+互联口),盒式设备、1U•采用P4+FPGA芯片实现•可同时兼做GSP和GSF硬件设备,软件灵活切换 功能特性: •支持基于报文容器的全路径“喷洒”•支持端到端DGSQ请求及授权•支持报文乱序重排•报文容器长度支持16KB 性能特性: •相较于RoCE网络,AllReduce及alltoall场景JCT时间可缩短2-3倍 3-1、全调度以太网(GSE)工作进展及计划 期待更多产学研合作伙伴加入GSE推进计划,携手共建新型智算中心网络产业生态! 3-2、NICC新存储——内存池化 传统:HBM和DDR分立 未来:HBM和DDR池化 •数据无需多次搬运,GPU可快速访问巨量共享内存•提供统一寻址空间,AI软件模型开发简化 •数据多次复制,延迟高,影响模型训练效率•AI模型开发复杂,需要手动管理数据搬移 3-3、NICC新算效——升级计算架构 性能瓶颈显存带宽和容量的制约数据搬移的功耗激增 演进路线 ①存储一体化设计②稀疏化设计③算法和芯片协同设计④低时延推理架构设计 •GPU+DPU,参数面网卡升级,进一步满足可编程拥塞控制及大QP数量等前沿需求•GPU+DPU+CPU,智算资源并池,大幅优化智算集群管理效率,实现文件存储卸载,加速训推过程 面向大模型推理场景基于SRAM,中大算力,100Tops+无限擦写,数模混合,精度拼接 3-4、NICC新平台——引入算力原生 实现图算融合的跨架构综合编译、多级IR互转优化,生成中间元语格式的算力原生程序 •原生程序格式规范 全系统共识的“中间元语”。Host侧、Device侧指令元语及执行策略的一体承载 •原生运行时 实现“中间元语”跨厂商的再装配,智算应用跨架构、可变粒度映射执行 3-5、NICC新节能——标准化大规模液冷技术 五大统一 ②液冷接口标准 ③液冷工质要求 ④供电系统标准 产业倡议 科学装置 技术标准 依托科学装置进行大模型培育,带动国产化成熟,开展科研类验证,打造标杆应用 明确智算技术架构,完善计算、存储、网络、平台关键技术方案,形成开放统一的技术标准体系 创新试验 编队作战 发挥产业链链长作用,依托协同创新基地,联动产业成立智算编队,建立研采投等产业协同机制 依托算力网络试验网CFITI,打造新型智算样板间,验证新型智算技术,推动技术成熟与规模建设 谢谢莅临!