您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国移动研究院]:段晓东:构筑NICC新型智算中心加速大模型发展 - 发现报告
当前位置:首页/行业研究/报告详情/

段晓东:构筑NICC新型智算中心加速大模型发展

段晓东:构筑NICC新型智算中心加速大模型发展

构筑NICC新型智算中心加速大模型发展中国移动 段晓东2023.9 大模型带来通用人工智能的曙光,催生新的范式2人类社会正在步入通用人工智能新时代,科学技术体系、产业布局及社会治理模式都将被深刻改变世界发展迎来全新范式生产力发展1760s1970s农业时代工业时代信息时代2020s数字经济时代蒸汽时代电气时代消费互联网时代通用人工智能时代 从“X+AI”到“AI+X”3充分发挥人工智能从“X+AI”到“AI+X”的变革性作用,重塑业务流程、形态、服务模式、价值呈现“融智”,将AI融入各行各业以智能化技术提升业务成效“赋能”,以大模型为基础构筑全新业务形态与服务模式AI+客服AI+产品AI内生...AI+OAØAI内生6G网络Ø大模型Ø新型智算中心AI+网络I2aaSMaaS/A2aaSSaaS “AI赋能网络”+“网络使能AI”= AI内生6G网络4面向设计目标,AI赋能网络的设计重点在于数据和模型、网络使能AI的设计重点在于计算和平台AI赋能网络使能场景网络与AI融合统一架构数据模型赋能场景网络使能AI计算+能力平台为实现AI赋能网络设计目标,需重点关注网络内生数据和模型的构建问题为实现网络使能AI设计目标,需重点解决网络边缘算力资源共享、端边协同的平台化服务网络驱动构建支撑调用构建服务无线网核心网MECDUCUAAU用户云网络第三方为实现AI内生网络的整体性能最优设计,需重点解决AI赋能网络和网络使能AI在资源、功能和服务层的耦合关系,实现至简灵活的架构 研发九天人工智能大模型5•基础大模型:加快构建适用于泛场景的自主可控通用基础大模型,打造国家级通用智能底座•行业大模型:聚焦供给侧,加快构建行业大模型,加速各行业各领域智能化转型升级,促进我国整体生产力跃升支 撑L1行业大模型............衍 生L0基础大模型 打造智能算力新高峰——NICC新型智算中心6以高性能GPU、AI加速卡为中心,以高速互联智算集群为目标,形成集约化建设的E级超大规模算力基础设施,具备软硬件AI全栈环境,支撑AI大模型的高效训练和推理 新型智算中心新算效新互联新存储新平台新节能 1、新型智算中心是对传统云数据中心的飞跃7在新互联、新算效、新存储、新平台、新节能等五大方面进行系统性重构,推动异构时期(~2021)PCIe 扣卡模组单机柜40KW,冷板式液冷25G传统以太海量非结构化数据,融合存储单机8卡高速互联算力池化,分布式训练独立存储裸机/虚机/容器风冷集群时期(~2025)存算一体冷板/浸没式液冷内存池化百卡高速总线互联算力原生超级池化时期(2025~)中小模型中大模型(百亿-千亿)大模型(千亿-万亿) DPU高性能无损网络NICC新型智算中心传统云数据中心GSE平台存储节能算效互联 2、NICC新型智算中心的架构8基础设施智算平台ROCmCUDACANNTesnsorFlowPyTorchPaddlePaddleDeepSpeed文件对象块存储计算CPUGPU液冷高效供电机房配套冷却水系统应用使能......跨架构编译器算力抽象运行时算力原生智算运维裸金属实例虚拟机实例容器实例DPU 高速互联计算总线内存池融合存储全局统一存储Hypervisor +AI开发框架智算运营跨节点分布式训练调度编排调度计量计费算力交易用户界面运营管理模块开发管理交付管理运维管理模块虚机容器IaaS管理模块裸机存储网络强化互联技术、深化算力协同、定义新型存储、新增算力原生、升级绿色节能构建标准统一、技术领先、软硬协同、兼容开放的NICC新型智算中心技术体系网络RoCEGSE平台存储互联节能算效CIM 3-1、NICC新互联——高速互联计算总线9 千亿模型:高通信需求(张量并行)集中8卡之间万亿模型:高通信需求(MoE并行)集中在百卡之间012345670123456701234567...Sever NSever 2Sever 1...0123456701234567Super Sever(S2)架构01234567基于高速计算总线的S²的架构模型参数从千亿迈向万亿,互联高需求从8卡扩展到百卡间012345...N一组有N张GPU/AI卡012345...N一组有N张GPU/AI卡计算总线总线 Switch总线 Switch总线Switch总线 Switch总线 Switch总线 Switch总线 Switch更低延迟的内部通信更高效的数据读写更灵活的拓扑连接模型从千亿到万亿,高速卡间互联需求从8卡扩展到百卡,智算设备形态将从S(Server 服务器)演变为S²(Super Server,超级服务器),带来智算中心底层互联技术的全新变革 3-1、NICC新互联——高性能新以太互联网络10大模型以分布式训练为基础,通信开销导致GPU集群有效算力难以线性提升,网络成为AI算力“瓶颈”,亟需构建以新型以太网技术为基础,开放兼容、超高性能的新型智算中心网络技术体系专用网络、超高性能、成本昂贵•InfiniBand生态开放、性能有限、性价比高•传统无损以太传统:网络性能和成本无法兼得以开放破垄断以创新提性能未来:突破以太技术、升级高速互联流级ECMP被动拥塞控制独立转发决策基础转发机制导致AI场景性能受限创新全调度以太网(GSE),革新以太网底层转发机制,增强物理层、链路层、网络层、传输层协议能力,全面提升网络性能盲发+被动拥塞控制“局部”决策转发逐流分发感知+主动流量控制“全局”最优调度逐“报文容器”分发分发粒度发流模式转发策略AS-ISTO-BE 3-2、NICC新存储——内存池化传统CPU和GPU分立的存储架构,导致数据大量搬移,影响模型训练效率需要构建CPU和GPU间的统一内存池,减少数据搬运,简化编程开发,使模型训练更加高效传统:HBM和DDR分立未来:HBM和DDR池化•数据多次复制,延迟高,影响模型训练效率•AI模型开发复杂,需要手动管理数据搬移CPUGPUDDRHBMCPUGPU统一内存池CPUGPUGPUGPUGPUGPUDDRHBMDDRHBM•数据无需多次搬运,GPU可快速访问巨量共享内存•提供统一寻址空间,AI软件模型开发简化11 3-3、NICC新算效——升级计算架构随着NICC向超级池化阶段发展,解决海量数据处理要求,需要聚焦GPU升级,突破性能瓶颈,加强CPU、GPU、DPU三大芯片协同。未来,探索存算一体新型计算范式,达到能效比数量级提升GPU、CPU、DPU三大芯片协同下一代GPU芯片设计性能瓶颈显存带宽和容量的制约数据搬移的功耗激增演进路线①存储一体化设计②稀疏化设计③算法和芯片协同设计④低时延推理架构设计三大芯片协同提升算效迎接更加爆炸式的数据处理需求存算一体,突破传统计算范式突破冯·诺依曼架构达到能效比数量级提升•面向大模型推理场景•基于SRAM,中大算力,100Tops+•无限擦写,数模混合,精度拼接•GPU+DPU,参数面网卡升级,进一步满足可编程拥塞控制及大QP数量等前沿需求•GPU+DPU+CPU,智算资源并池,大幅优化智算集群管理效率,实现文件存储卸载,加速训推过程CPUGPUDPU12 3-4、NICC新平台 —— 引入算力原生智算应用难以在多样竖井化智算生态间迁移部署,制约系统整体运用效能。中国移动原创提出算力原生技术,打造“芯合”算力原生跨架构平台,打破“框架+工具链+硬件”紧耦合生态锁定,屏蔽底层硬件差异,繁荣全“芯”生态•跨架构综合编译器实现图算融合的跨架构综合编译、多级IR互转优化,生成中间元语格式的算力原生程序•原生程序格式规范全系统共识的“中间元语”。Host侧、Device侧指令元语及执行策略的一体承载•原生运行时实现“中间元语”跨厂商的再装配,智算应用跨架构、可变粒度映射执行一次开发、一次封装、跨芯迁移算力原生层跨架构流转的原生程序原生运行时 编程模型转换、编译、优化程序加载动态链接oneAPICUDANeuWareROCm......CANN硬件层应用层框架层工具链Pytorch......√ √ √ 13 3-5、NICC新节能——标准化大规模液冷技术智算中心走向超大规模,面对不断攀升的能耗需求,液冷是必经之路但液冷产业生态不完善,设备标准化程度低,需要通过“五大统一”实现三“极”目标TDP(W)2016~20192020~20212022~CPUGPU150-250250-300300-400250400500挑战1:单一AI服务器功耗超过10kW700300W挑战2:单机柜功耗超过40kW通用服务器AI服务器5-10kW/架30-60kW/架kW/架15kw/架单机架功率举措:制定五大统一标准,实现三“极”目标液冷机柜冷却塔冷水机组CDU二次侧供水二次侧回水一次侧回水一次侧供水①机柜尺寸标准②液冷接口标准③液冷工质要求④供电系统标准⑤监控管理要求五大统一•极致能效 PUE≤1.15•极高密度 单机柜功耗>40kW•极简运维 兼容传统机房三“极”目标1235414 共筑大模型发展智能底座开放协作普惠共赢