您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国移动研究院]:陈佳媛:中国移动NICC新型智算中心技术体系解读 - 发现报告

陈佳媛:中国移动NICC新型智算中心技术体系解读

AI智能总结
查看更多
陈佳媛:中国移动NICC新型智算中心技术体系解读

智算成为未来主流算力是大势所趋 AIGC时代,智能化场景在行业纵深发展,智算规模持续扩大,增速远超摩尔定律 据《中国综合算力指数(2023年)》预测,算力结构会在未来几年发生根本性变化,智算成为主流算力 早期建设的智算中心面临多项挑战 2020年前后国内开始建设智算中心,早期建设的智算中心主要承载中小模型面向大模型应用场景,在技术、标准、生态和运营等方面存在挑战 技术:与大模型匹配度较低 标准:缺乏行业统一标准 建设方案与厂家深度绑定标准化程度低客户学习和使用成本高昂 主要承载中小模型PCIe设备为主,25G传统以太风冷散热,能效水平较低 生态:竖井式发展 运营:缺乏全局协同 主要面向区域内客户提供服务缺乏全局、跨区域算力调度能力缺乏异构算力调度能力 英伟达先入为主,主导生态发展国产AI从细分场景切入跨架构迁移和适配难度大 打造智能算力新高峰——NICC新型智算中心 新型智算中心 以高性能GPU、AI加速卡为中心,以高速互联智算集群为目标,形成集约化建设的E级超大规模算力基础设施,具备软硬件AI全栈环境,支撑AI大模型的高效训练和推理 新型智算中心是对传统云数据中心的飞跃 在新互联、新算效、新存储、新平台、新节能等五大方面进行系统性重构,推动 传统云数据中心 百卡高速总线互联 存算一体 内存池化 冷板/浸没式液冷 独立存储 风冷 裸机/虚机/容器 NICC新型智算中心的架构 强化互联技术、深化算力协同、定义新型存储、新增算力原生、升级绿色节能构建标准统一、技术领先、软硬协同、兼容开放的NICC新型智算中心技术体系 新互联——节点化向集群化演进,服务器不再是算网的分界点 •大模型遵循Scaling Law,迈进万亿规模,在原有Transformer结构基础上,引入了MoE(专家系统)算法以及并行策略,具有单次通信数据量小,但通信频繁,且对时延要求高的特点•千亿模型的通信高要求只存在8卡之间,但万亿模型的高带宽低时延要求扩展到了百卡级别,节点的概念将从以服务器为单位扩展成以百卡集群为单位,智算设施应以实现百卡级别高速互联为新的设计思路 新互联——卡间互联从直连向交换拓扑演进,打造高效集群能力 •百卡间的通信能力的提升应从互联拓扑、通信协议方面优化。目前,卡间互联的最优解是交换拓扑(Switch): •大规模连接:因芯片功耗限制和通信设计,直连拓扑难以应用于大规模连接。32卡全互联场景,以16nm的56Gbps(PAM4)SerDes的功耗为例,AI芯片用于卡间互联的功耗达80W,物理上难以实现此芯片设计•从单芯片最大吞吐到点对点带宽:受限于芯片法案,单芯片的最大吞吐量止于600GB/s,因此通过交换拓扑,提升点对点(P2P)带宽能力,有助于整体芯片能力提升•大模型推理应用:业界正在通过量化、蒸馏、剪枝等手段使大模型小型化,加快其应用落地。在推理场景下,模型部署在2卡或4卡,原8卡全互联拓扑难以发挥带宽优势,交换拓扑带来的P2P带宽优势将显著提升推理效率 新互联——联合制定高速互联计算总线标准 •高速卡间互联需求从8卡扩展到百卡,智算设备形态将从S(Server服务器)演变为S²(Super Server,超级服务器),带来智算中心底层互联技术的全新变革•国内AI生态多而不强,大多AI芯片企业没有交换芯片设计能力,且互联协议各家自研,需要与交换芯片厂家深度合作定制•中国移动希望联合业界制定统一的高速互联计算总线标准,打破国内GPU卡间互联的性能瓶颈 万亿模型:高通信需求(MoE并行)集中在百卡之间 新互联——高性能新以太互联网络 大模型以分布式训练为基础,要求网络能力:零丢包、大带宽、低时延、高可靠,为避免通信开销制约GPU集群有效算力提升,亟需构建开放兼容、超高性能的新型智算中心网络技术体系 未来:突破以太技术、升级高速互联 新互联——全调度以太网(GSE)进展 期待更多产学研合作伙伴加入GSE推进计划,共建新型智算中心网络产业生态! Ø全调度以太网(GSE)推进计划研究范畴: •物理层:低时延Phy、B400G高速光接口、光交换等•链路层:基于报文分发和重组机制、调度技术、链路级安全及容错等•网络层:新型组网拓扑、新型组播/任播协议等;•传输层:改进的RDMA、新型拥塞控制等•应用层:在网计算、存储加速、开放API框架等•管理和运维体系:网络可视化、可调试能力、多维自动化能力 新存储——内存池化 •传统的存储层级架构在大模型的训练场景下,存在两大痛点: •HBM成本高,容量低,GPU要将数据从内存Load到HBM之后再进行计算,由此引起的数据传输延迟影响模型训练的效率•缺乏统一寻址,程序员需要根据底层存储系统的规划来进行海量数据的排布,并手动完成数据的搬移,以及时保证数据的一致性,大大提高了用户编程的门槛 •内存池化使得整个系统的内存在逻辑上实现统一,提供一致性的内存语义和空间寻址能力,供多个GPU同时访问,这种一致性的模式,一方面解决了单个GPU显存容量限制的问题,另一方面使得多个GPU/CPU之间实现高效协同 新算效——升级计算架构 随着NICC向超级池化阶段发展,解决海量数据处理要求,需要聚焦GPU升级,突破性能瓶颈,加强CPU、GPU、DPU三大芯片协同。未来,探索存算一体新型计算范式,达到能效比数量级提升 存算一体,突破传统计算范式 下一代GPU芯片设计 三大芯片协同提升算效迎接更加爆炸式的数据处理需求 突破冯诺依曼架构达到能效比数量级提升 性能瓶颈显存带宽和容量的制约数据搬移的功耗激增 演进路线 ①存储一体化设计②稀疏化设计③算法和芯片协同设计④低时延推理架构设计 场景1:统一云化管理场景2:高性能存储加速场景3:RDMA网络协同优化 •面向大模型推理场景•基于SRAM,中大算力,100T++•无限擦写,数模混合,精度拼接 新算效——升级计算架构(DPU) 中大规模深度学习模型训练和推理任务对AI集群资源管理效率、网络和存储性能提出了更极致的需求,DPU可在智算领域三大应用场景与计算、网络、存储深度协同,助力算效提升 统一云化管理 •裸金属、容器、虚机统一管理,交付效率提高10倍•多租户存储隔离,存储灵活分配,大幅缩减容灾迁移时间 •1套DPU技术架构•5大软件功能接口定义•硬件4个维度统一 •验证GPU裸金属方案•深化文件存储加速应用•优化RDMA网络性能•GPU整机及DPU卡硬件标准化 新平台——引入算力原生 中国移动原创提出算力原生技术,打造“芯合”算力原生跨架构平台,目标打破“框架+工具链+硬件”紧耦合的智算生态,屏蔽底层硬件差异,实现智算应用的跨架构迁移部署。 •统一编程模型及转换器 是系统与开发者的接口,基于SYCL的统一编程模型,实现CUDA等现有范式中指令、内核等机制与SYCL的转译 •跨架构综合编译机制 CPU侧和GPU侧指令元语及执行策略的一体承载,并生成中间元语格式的算力原生程序 •原生程序格式规范 实现异厂家共识的“中间元语”,标准化制定程序格式及指针、区块、标识符等参数,是编译器和运行时组件研发的规约 实现“中间元语”的再装配,完成原生程序的加载、解析和动态库的交叉链接,保障计算任务与异构算力的即时互映射和池化执行 成环境等关键产品组件,现已实现视频分析、图像识别典型智算应用在英伟达GPU、华为NPU、瀚博DLA 3类异构系统上跨架构迁移部署能力 15 新节能——标准化大规模液冷技术 智算中心走向超大规模,面对不断攀升的能耗需求,液冷是必经之路但液冷产业生态不完善,设备标准化程度低,需要通过“五大统一”实现三“极”目标 五大统一 ②液冷接口标准 ③液冷工质要求 极简运维兼容传统机房 ④供电系统标准 ⑤监控管理要求 产业倡议 科学装置 技术标准 依托科学装置进行大模型培育,带动国产化成熟,开展科研类验证,打造标杆应用 明确智算技术架构,完善计算、存储、网络、平台关键技术方案,形成开放统一的技术标准体系 创新试验 编队作战 发挥产业链链长作用,依托协同创新基地,联动产业成立智算编队,建立研采投等产业协同机制 依托算力网络试验网CFITI,打造新型智算样板间,验证新型智算技术,推动技术成熟与规模建设 感谢聆听!