您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [中国移动]:2023年NICC新型智算中心技术体系白皮书 - 发现报告

2023年NICC新型智算中心技术体系白皮书

信息技术 2023-09-03 中国移动 陈曦
报告封面

前 言 ChatGPT 系 列 大 模 型 的 发 布, 不 仅 引 爆 全 球 科 技 圈, 更 加 夯 实 了 人 工 智 能(ArtificialIntelligence, AI)在未来改变人类生产生活方式、引发社会文明和竞争力代际跃迁的战略性地位。 当前各国政府已全面布局 AI,作为 AI 技术发展的关键底座,智算中心的建设和部署在全球范围内提速。然而,早期建设的智算中心,以承载中小模型、赋能企业数智化转型为主要目的,在技术标准、生态构建、业务发展和全局运营等各方面仍有待提升。当追逐大模型成为行业标准动作,面向大模型的新型智算中心(New Intelligent Computing Center,NICC)成为新时期关注的焦点。 新型智算中心的建设是一个系统工程,需要“算存网管效”多个维度的协同设计。中国移动从自身战略转型出发,为构建智能服务的核心和基础,定义新型智算中心技术体系架构,并面向未来大模型孵化,从新互联、新算效、新存储、新平台和新节能等五个领域提出下一代技术演进建议,希望本白皮书能够为合作伙伴在新型智算中心的硬件设备选型、算力集群设计、机房散热规划、软硬工程调优、全局运营调度等多个方面的技术路线选型提供帮助。 本白皮书在中国移动集团有限公司技术部和计划建设部指导下,由研究院牵头编写,期间得到了来自华为、浪潮信息、新华三、曙光、超聚变、中兴、寒武纪、燧原、壁仞、趋动科技、星网锐捷、昆仑芯、天数智芯、盛科、云合智网、云豹智能、云脉芯联、星云智联等多家企业的大力支持。 新型智算中心技术体系的构建与成熟需要产业链各方凝聚共识,明确行业应用和服务的共性要求,中国移动希望同行业一道,共同推动智算关键技术成熟,共同繁荣国内 AI 生态发展。 目录 contents 第一章 智算中心行业发展现状 / 04 1.1 智能算力跃升为全球第一大算力,智算中心建设如火如荼 / 041.2 早期智算中心在技术、标准、生态、运营等方面仍面临挑战 / 07 第二章 NICC 新型智算中心技术体系架构和发展路径 / 08 2.1 NICC 新型智算中心技术体系架构 / 082.2 NICC 新型智算中心技术发展路径 / 09 第三章 新互联——打破算力瓶颈 / 11 3.1 集群内的高速卡间互联 / 11 3.1.1 大模型分布式训练需要高速卡间互联 / 113.1.2“七国八制”的卡间高速互联技术现状 / 143.1.3 未来万亿级模型的卡间高速互联演进建议 / 16 3.2 集群间的高速无损网络 / 17 3.2.1 InfiniBand 与 RoCE 是当前主流方案 / 173.2.2 全调度以太网突破无损以太性能瓶颈 / 193.2.3 智算中心网络关键技术演进 / 23 第四章 新算效——重塑计算架构 / 25 4.1 下一代 AI 芯片设计思路 / 254.2 存算一体构建新型计算范式 / 264.3 DPU 实现计算、存储和网络的深度协同 / 28 第五章 新存储——挖掘数据价值 / 31 5.1 计算与存储的交互过程 / 315.2 智算场景存储面临的三大挑战 / 335.3 多协议融合存储贯通异构数据 / 335.4 全局统一存储打破单体局限 / 345.5 基于计算总线构建统一内存池 / 35 第六章 新平台——融通无限生态 / 37 6.1 池化技术优化资源使用效率 / 376.2 算力原生融通多样算力生态 / 406.3 分布式训练提升模型训练效率 / 416.4 跨域分布式调度促进广域资源利用 / 43 第七章 新节能——实现可持续发展 / 45 第八章 总结和倡议 / 48 缩略语列表 / 50 参考文献 / 52 智算中心行业发展现状 1.1 智能算力跃升为全球第一大算力,智算中心建设如火如荼 1956 年第一次 AI 发展浪潮信息伊始,60 多年来,从理论探索到大数据驱动,从深度学习到大模型智能涌现,AI 正在成为一项新兴的通用型技术,向多场景、规模化、AIGC(AIGenerated Content)等方向快速演进。智能算力作为 AI 的底座型技术迎来需求井喷。据统计,到 2030 年,全球智能算力需求增长约 390 倍,增速远超摩尔定律。据《中国算力发展指数白皮书(2022)》指出,我国智能算力也在近几年保持快速增长态势。2021 年我国智算规模已达到 104E FLOPS,占比超过总算力的 50%,预计到 2030 年将升至 70%,成为算力的主要增长极。智算成为全球第一大算力已是大势所趋。 随着 AI 在赋能产业发展、促进数实融合方面发挥出愈加显著的作用,各国政府纷纷发布政策引导其发展。美国为加强其在 AI 领域研发和部署的领导地位,于 2019 年签署《美国人工 智能倡议》(American AI Initiative)[1],旨在从国家战略层面重新分配资源,用于 AI 研发,以应对来自“战略竞争者和外国对手”的挑战。之后,在 2021 年颁布《美国创新与竞争法案》[2],高度关注 AI 与机器学习、高性能计算、半导体等十大关键技术领域。欧盟在 2021年发布《2030 数字指南针:欧洲数字十年之路》[3],要求到 2030 年 75% 的欧盟企业使用云计算、大数据和 AI 技术。我国也高度重视 AI 技术发展,自 2017 年以来国家各部委和地方政府相继出台政策,指导 AI 产业发展规划,鼓励企业加大人才引进和研发力度,并明确指出要积极推动智算中心有序发展。至此,智算中心作为一种新型算力基础设施为大家所熟悉。不同于传统的云数据中心和超算中心,智算中心是以 GPU、AI 加速卡等智能算力为核心、集约化建设的新型数据中心,为人工智能应用提供所需的算力服务、数据服务和算法服务,使能各行各业数智化转型升级。 智算中心的战略地位不断提升,为构造未来竞争发展优势,很多国家都在积极开发和部署智算中心。其中,美国能源部及国家科学基金会主导,将智算中心和超算中心结合,建设超大规模智能超算中心,为科学研究提供高性能计算资源(如图 1-1),例如,橡树岭国家实验室的 Summit(3.4E)[4],阿贡国家实验室的 Polaris 和 Aurora(约 10E)[5],劳伦斯伯克利实验室的 Perlmutter(3.8E)等,这些智能超算中心往往具有单体算力大、技术领先等特点。美国科技巨头也是智算中心的主要建设者,包括谷歌的开放机器学习中心(9E),特斯拉 Dojo 集群(据称 2024 年末规模达到 100E),Meta AI 超级计算机(9.9E)等。 国内智算中心建设热潮始于 2020 年,目前已有 40+ 城市建成或正在建设智算中心(如图1-2),包括武汉人工智算计算中心(200P)、南京智能计算中心(800P)、合肥先进计算中心(12P)、鹏城云脑 II(1E)等,其中 12 个位于“东数西算”八大枢纽,这些智算中心主要由地方政府与企业合建,总体投资规模超千亿,旨在带动当地产业智能化升级。国内互联网和 AI 企业自建的智算中心是国内智能算力的重要组成,如阿里在张北和乌兰察布建设的总规模达 15E 的智算中心,旨在结合智能驾驶、智慧城市等业务,探索云服务后的智算服务新业态;百度在山西阳泉建设规模 4E 的智算中心,孵化国内首个正式发布的大模型“文心一言”;商汤作为国内头部 AI 企业,投资 56 亿在上海临港建设人工智能计算中心,规模超 4E,主要面向智慧商业、智慧城市、智慧生活和智能汽车四大板块,发展 AIaaS(AI as aService)服务。 1.2 早期智算中心在技术、标准、生态、运营等方面仍面临挑战 当前智算中心主要以单供应方全栈体系构建为主,尚未形成业界统一的设计方案,因此各地智算中心在技术、标准、生态、运营等方面仍面临挑战。 在技术方面 早期建设的智算中心以承载中小模型为主,AI 服务器大多是 PCIe 机型,配备独立的文件存储,互联方式则以节点内 PCIe 通信与节点间传统以太网为主。随着通用大模型的普及,智算中心的设计思路需要从原先以单芯片、单服务器粒度提供算力服务的模式,转变为支持巨量并行计算,提供高吞吐、高能效的集群算力。 在标准方面 由于各地智算中心大都是当地政府与 AI 芯片、整机厂家合作建设为主,技术方案深度绑定,容易形成多种派系。亟需通过制定行业标准,一方面降低客户学习和使用的时间成本,另一方面加强产业链上下游企业的协同,促进智算产业的高质量发展。 在生态方面 因为 AI 是软硬深度耦合的技术栈,国外主流产品“先入为主”,主导生态发展,相比之下国内 AI 起步较晚,在芯片算力和软件栈适配方面均存在差距。在智算生态竖井式发展的当下,需要加强引导,为后续 AI 应用的适配和跨架构迁移奠定基础。 在运营方面 各地智算中心的服务对象多为区域内的行业客户、科研院所和高校,较少考虑全局协同,随着东数西算、东数西渲等应用需求不断丰富,需要提前布局跨区域的全局算力调度,提升算力高质量供给和数据高效率流通。 由此可见,未来智算中心亟需朝着技术先进、标准统一、软硬协同、兼容开放的方向发展。 NICC 新型智算中心技术体系架构和发展路径 2.1 NICC 新型智算中心技术体系架构 结合大模型技术的发展趋势以及对智算中心建设和使用现状的分析,我们认为 ChatGPT 等预训练大模型的出现,必将带来 AI 基础设施的变革,传统的算力堆叠方式已然失效,智算中心需要在互联、算效、存储、平台、节能五大领域进行系统化的重构,才能支撑起大模型对千行百业的革新与改造。为此,中国移动结合自身转型战略和一线客户需求,提出 NICC新型智算中心(New Intelligent Computing Center)。 区别于早期建设的智算中心,NICC 新型智算中心是以高性能GPU、AI加速卡等集群算力为核心,集约化建设的 E 级超大规模算力基础设施,具备从硬件设施到软件服务的端到端 AI 全栈环境,支撑超大规模、超高复杂度的模型训练和推理业务,最终赋能行业数智化转型升级。 NICC 技术体系由“三层两域”构成(如图 2-1),分别是基础设施层、智算平台层、应用使能层、智算运维域和智算运营域。其中基础设施层提供计算、存储、网络等硬件资源;智算平台层作为资源管理的核心,提供裸金属、虚机和容器等多样化实例以及细粒度的资源池化能力,在此之上搭建算力原生平台提供应用跨架构迁移能力;应用使能层集成行业主流 AI 开发框架以供应用开发调用。智算运维域主要负责对底层 IaaS(Infrastructure as a Service)资源进行管理维护,确保系统的稳定运行;智算运营域对接外部客户,提供计量计费、访问、交易等界面,对内根据上层任务进行资源编排调度。 2.2 NICC 新型智算中心技术发展路径 为释放智能算力极致性能,NICC 的设计方案既要考虑计算、存储、网络三大维度的横向协同,也要兼顾软件平台与硬件资源的纵向协同,同时锚定技术先进、标准统一、软硬协同、兼容开放的目标,广泛且高效地支撑智能化应用场景。我们认为 NICC 的发展将分为两个时期: 1) 集群时期:这个时期最显著的特征是数据及模型出现巨量化趋势,千亿级的模型已经出现,对智算底座的算力能力和扩展性均提出高要求。在设备形态方面,GPU、AI 芯片以扣卡模 组为主,服务器形态多为单机 8 卡,DPU 按需引入解决裸金属管理、存储加速等业务痛点;硬件资源开始按照集群的方式部署,相比提升单芯片算力,芯片间的高速互联方案落地更为关键。互联方案以服务器节点为界限,节点内外高速互联技术各自发展,节点内采用高速计算总线,节点间采用 100G/200G 高速无损网络;在存储方面,原先独立部署的文件、对象存储逐渐向融合存储演进,提升数据交互效率;平台应具备池化算力分配能力,实现底层智算资源的细粒度分配、动态调度和一体管理。分布式并行训练框架需要引入提升模型训练效率。为