您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国移动研究院]:陈佳媛:中国移动NICC新型智算中心技术体系解读 - 发现报告
当前位置:首页/行业研究/报告详情/

陈佳媛:中国移动NICC新型智算中心技术体系解读

陈佳媛:中国移动NICC新型智算中心技术体系解读

中国移动NICC新型智算中心技术体系解读中国移动 陈佳媛2023.9 2智算成为未来主流算力是大势所趋AIGC时代,智能化场景在行业纵深发展,智算规模持续扩大,增速远超摩尔定律据《中国综合算力指数(2023年)》预测,算力结构会在未来几年发生根本性变化,智算成为主流算力2018年AI算力需求2030年AI算力需求41 EFLOPS16206 EFLOPS约390倍来源:罗兰贝格全球:AI催生巨大智能算力需求20232025国内:智能算力占比快速提升来源:中国信通院16206 EFLOPS41 EFLOPS25.4%85% 3早期建设的智算中心面临多项挑战•主要承载中小模型•PCIe设备为主,25G传统以太•风冷散热,能效水平较低•建设方案与厂家深度绑定•标准化程度低•客户学习和使用成本高昂•英伟达先入为主,主导生态发展•国产AI从细分场景切入•跨架构迁移和适配难度大•主要面向区域内客户提供服务•缺乏全局、跨区域算力调度能力•缺乏异构算力调度能力技术:与大模型匹配度较低标准:缺乏行业统一标准生态:竖井式发展运营:缺乏全局协同2020年前后国内开始建设智算中心,早期建设的智算中心主要承载中小模型面向大模型应用场景,在技术、标准、生态和运营等方面存在挑战 打造智能算力新高峰——NICC新型智算中心4以高性能GPU、AI加速卡为中心,以高速互联智算集群为目标,形成集约化建设的E级超大规模算力基础设施,具备软硬件AI全栈环境,支撑AI大模型的高效训练和推理 新型智算中心新算效新互联新存储新平台新节能 新型智算中心是对传统云数据中心的飞跃5在新互联、新算效、新存储、新平台、新节能等五大方面进行系统性重构,推动异构时期(~2021)PCIe 扣卡模组单机柜40KW,冷板式液冷25G传统以太海量非结构化数据,融合存储单机8卡高速互联算力池化,分布式训练独立存储裸机/虚机/容器风冷集群时期(~2025)存算一体冷板/浸没式液冷内存池化百卡高速总线互联算力原生超级池化时期(2025~)中小模型中大模型(百亿-千亿)大模型(千亿-万亿) DPU高性能无损网络NICC新型智算中心传统云数据中心GSE平台存储节能算效互联 NICC新型智算中心的架构6基础设施智算平台ROCmCUDACANNTesnsorFlowPyTorchPaddlePaddleDeepSpeed文件对象块存储计算CPUGPU液冷高效供电机房配套冷却水系统应用使能......跨架构编译器算力抽象运行时算力原生智算运维裸金属实例虚拟机实例容器实例DPU 高速互联计算总线内存池融合存储全局统一存储Hypervisor +AI开发框架智算运营跨节点分布式训练调度编排调度计量计费算力交易用户界面运营管理模块开发管理交付管理运维管理模块虚机容器IaaS管理模块裸机存储网络强化互联技术、深化算力协同、定义新型存储、新增算力原生、升级绿色节能构建标准统一、技术领先、软硬协同、兼容开放的NICC新型智算中心技术体系网络RoCEGSE平台存储互联节能算效CIM 7新互联—— 节点化向集群化演进,服务器不再是算网的分界点•大模型遵循Scaling Law,迈进万亿规模,在原有Transformer结构基础上,引入了MoE(专家系统)算法以及并行策略,具有单次通信数据量小,但通信频繁,且对时延要求高的特点•千亿模型的通信高要求只存在8卡之间,但万亿模型的高带宽低时延要求扩展到了百卡级别,节点的概念将从以服务器为单位扩展成以百卡集群为单位,智算设施应以实现百卡级别高速互联为新的设计思路Scaling law是大模型演进的“摩尔定律”,万亿大模型是必然服务器即节点百卡集群即节点万亿大模型趋势下,互联高要求从8卡间扩展到百卡间最高通信需求集中8卡之间,即服务器内部千亿参数模型万亿参数模型最高通信需求集中在百卡之间,即集群内部~400GB 百ns级GPT-2GPT-3ChatGPTGPT-4参数:15亿数据:40GB参数:1750亿数据:45TB参数:1750亿数据:45TB+X参数:~1万亿数据:20万亿Tokens参数量提升100倍数据量提升1000倍012345670123456701234567...Sever NSever 2Sever 1...0123456701234567Super Sever(S2)架构01234567 新互联—— 卡间互联从直连向交换拓扑演进,打造高效集群能力8•百卡间的通信能力的提升应从互联拓扑、通信协议方面优化。目前,卡间互联的最优解是交换拓扑(Switch):•大规模连接:因芯片功耗限制和通信设计,直连拓扑难以应用于大规模连接。32卡全互联场景,以16nm的56Gbps(PAM4) SerDes的功耗为例,AI芯片用于卡间互联的功耗达80W,物理上难以实现此芯片设计•从单芯片最大吞吐到点对点带宽:受限于芯片法案,单芯片的最大吞吐量止于600GB/s,因此通过交换拓扑,提升点对点(P2P)带宽能力,有助于整体芯片能力提升•大模型推理应用:业界正在通过量化、蒸馏、剪枝等手段使大模型小型化,加快其应用落地。在推理场景下,模型部署在2卡或4卡,原8卡全互联拓扑难以发挥带宽优势,交换拓扑带来的P2P带宽优势将显著提升推理效率直连拓扑交换拓扑桥接Cube Mesh类全互联(FC)千亿模型十亿级或中等模型万亿模型模型趋势•Up to 4卡互联•单卡最大吞吐3个port互联拓扑•8卡全互联•单卡最大吞吐7个port•8卡通过Switch全互联•P2P带宽达百GB级别•通信需求从4卡扩展到8卡•单卡最大吞吐4/5/6个port国内量产以及规划产品均处于此阶段英伟达从V100开始牵引的趋势0312031247560312475603471256SwitchSwitchSwitchSwitchSwitchSwitch 新互联——联合制定高速互联计算总线标准9 千亿模型:高通信需求(张量并行)集中8卡之间万亿模型:高通信需求(MoE并行)集中在百卡之间012345670123456701234567...Sever NSever 2Sever 1...0123456701234567Super Sever(S2)架构01234567基于高速计算总线的S²的架构模型参数从千亿迈向万亿,互联高需求从8卡扩展到百卡间012345...N一组有N张GPU/AI卡012345...N一组有N张GPU/AI卡计算总线总线 Switch总线 Switch总线Switch总线 Switch总线 Switch总线 Switch总线 Switch更低延迟的内部通信更高效的数据读写更灵活的拓扑连接•高速卡间互联需求从8卡扩展到百卡,智算设备形态将从S(Server 服务器)演变为 S²(Super Server,超级服务器),带来智算中心底层互联技术的全新变革•国内AI生态多而不强,大多AI芯片企业没有交换芯片设计能力,且互联协议各家自研,需要与交换芯片厂家深度合作定制•中国移动希望联合业界制定统一的高速互联计算总线标准,打破国内GPU卡间互联的性能瓶颈 新互联——高性能新以太互联网络10大模型以分布式训练为基础,要求网络能力:零丢包、大带宽、低时延、高可靠,为避免通信开销制约GPU集群有效算力提升,亟需构建开放兼容、超高性能的新型智算中心网络技术体系专用网络、超高性能、成本昂贵•InfiniBand生态开放、性能有限、性价比高•传统无损以太传统:网络性能和成本无法兼得以开放破垄断以创新提性能未来:突破以太技术、升级高速互联流级ECMP被动拥塞控制独立转发决策基础转发机制导致AI场景性能受限创新全调度以太网(GSE),革新以太网底层转发机制,增强物理层、链路层、网络层、传输层协议能力,全面提升网络性能盲发+被动拥塞控制“局部”决策转发逐流分发感知+主动流量控制“全局”最优调度逐“报文容器”分发分发粒度发流模式转发策略AS-ISTO-BE 11云网智联大会发布《全调度以太网技术架构》白皮书中国算力大会正式启动全调度以太网(GSE)推进计划中国网络大会发布业界首款GSE原型系统CCSA成功立项《全调度以太网总体技术要求》2023.62023.82023.92023.5期待更多产学研合作伙伴加入GSE推进计划,共建新型智算中心网络产业生态!Ø全调度以太网(GSE)推进计划研究范畴:• 物理层:低时延Phy、B400G高速光接口、光交换等• 链路层:基于报文分发和重组机制、调度技术、链路级安全及容错等• 网络层:新型组网拓扑、新型组播/任播协议等;• 传输层:改进的RDMA、新型拥塞控制等• 应用层:在网计算、存储加速、开放API框架等• 管理和运维体系:网络可视化、可调试能力、多维自动化能力新互联——全调度以太网(GSE)进展 新存储——内存池化CPUGPUDDRHBMCPUGPU统一内存池CPUGPUGPUGPUGPUGPUDDRHBMDDRHBM•传统的存储层级架构在大模型的训练场景下,存在两大痛点:•HBM成本高,容量低,GPU要将数据从内存Load到HBM之后再进行计算,由此引起的数据传输延迟影响模型训练的效率•缺乏统一寻址,程序员需要根据底层存储系统的规划来进行海量数据的排布,并手动完成数据的搬移,以及时保证数据的一致性,大大提高了用户编程的门槛•内存池化使得整个系统的内存在逻辑上实现统一,提供一致性的内存语义和空间寻址能力,供多个GPU同时访问,这种一致性的模式,一方面解决了单个GPU显存容量限制的问题,另一方面使得多个GPU/CPU之间实现高效协同12 新算效——升级计算架构随着NICC向超级池化阶段发展,解决海量数据处理要求,需要聚焦GPU升级,突破性能瓶颈,加强CPU、GPU、DPU三大芯片协同。未来,探索存算一体新型计算范式,达到能效比数量级提升GPU、CPU、DPU三大芯片协同下一代GPU芯片设计性能瓶颈显存带宽和容量的制约数据搬移的功耗激增演进路线①存储一体化设计②稀疏化设计③算法和芯片协同设计④低时延推理架构设计三大芯片协同提升算效迎接更加爆炸式的数据处理需求存算一体,突破传统计算范式突破冯诺依曼架构达到能效比数量级提升•面向大模型推理场景•基于SRAM,中大算力,100T++•无限擦写,数模混合,精度拼接CPUGPUDPU场景1:统一云化管理场景2:高性能存储加速场景3:RDMA网络协同优化13 新算效——升级计算架构(DPU)中大规模深度学习模型训练和推理任务对AI集群资源管理效率、网络和存储性能提出了更极致的需求,DPU可在智算领域三大应用场景与计算、网络、存储深度协同,助力算效提升GPUCPUPCIeSwitchGPUCPUSSD.........模式2:替代GPU域网卡模式1:替代CPU域网卡DPUDPUDPU统一云化管理•裸金属、容器、 虚机统一管理,交付效率提高10倍•多租户存储隔离,存储灵活分配,大幅缩减容灾迁移时间高性能存储加速•文件系统卸载,无缝对接多种存储厂家,训练数据格式统一化•NVMe-OF存储协议栈硬件加速,提供高性能云盘RDMA网络协同优化•端网协同,满足可编程拥塞控制、超大QP数量等RDMA标卡无法解决的高级需求•1套DPU技术架构•5大软件功能接口定义•硬件4个维度统一三大应用场景,两种部署模式深化标准体系,普惠DPU能力面向多层解耦已形成“1+5+4”技术标准体系文件存储GPU整机及DPU卡智算场景重点围绕三大方向试验试点•验证GPU裸金属方案•深化文件存储加速应用•优化RDMA网络性能•GPU整机及DPU卡硬件标准化RDMA网络14 新平台 —— 引入算力原生中国移动原创提出算力原生技术,打造“芯合”算力原生跨架构平台,目标打破“框架+工具链+硬件”紧耦合的智算生态,屏蔽底层硬件差异,实现智算应用的跨架构迁移部署。繁冗开发、复杂适配、各自为栈一次开发、一次封装、跨芯迁移硬件层应用层oneAPICUDANeuWareROCm......PytorchCANN无法互识跨架构流转框架层工具链......XXXX算力原生层跨架构流转的原生程序

你可能感兴趣

hot

2023年NICC新型智算中心技术体系白皮书

信息技术
中国移动2023-09-03
hot

段晓东:构筑NICC新型智算中心加速大模型发展

信息技术
中国移动研究院2023-09-04
hot

2023新型智算中心算力池化技术白皮书

信息技术
中移智库2023-09-12