行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

2023年NICC新型智算中心技术体系白皮书

信息技术 2023-09-03 中国移动陈曦

中国移动新型智算中心技术体系白皮书概述

行业发展现状

智能算力跃升：AI技术在全球范围内迅速发展，智能算力需求激增，预计到2030年增长约390倍。
智算中心建设：智算中心成为全球算力的主要增长极，中国智算规模已占全国算力的50%以上，预计2030年占比将进一步提升至70%。

NICC新型智算中心技术体系架构与路径

技术体系架构：由基础设施层、智算平台层、应用使能层、智算运维域和智算运营域构成，集约化建设E级超大规模算力基础设施。
发展路径：分为“集群时期”和“超级池化时期”，重点关注互联、算效、存储、平台和节能五大领域。

新互联——打破算力瓶颈

高速卡间互联：大模型训练需求推动了卡间互联技术的发展，尤其是对于数据并行（DP）、模型并行（MP）等分布式训练策略。
“七国八制”：面对百亿级模型训练需求，传统的PCIe设备形态已难以满足，转向扣卡模组形态成为主流解决方案。
未来演进：为适应万亿级模型训练，建议采用高速互联技术，如全互联或交换拓扑，以满足数百GB/s的带宽需求。

新算效——重塑计算架构

下一代AI芯片设计：聚焦于优化算力效率和性能，考虑存算一体架构和DPU协同。
计算范式转变：探索新的计算范式，实现计算、存储和网络的深度协同。

新存储——挖掘数据价值

计算与存储交互：关注存储在数据处理过程中的角色，通过多协议融合和全局统一存储提升效率。
构建统一内存池：基于计算总线实现数据高效流动和共享。

新平台——融通无限生态

资源池化：优化资源使用效率，融合多样算力生态。
分布式训练：提高模型训练效率，促进资源跨地域协同利用。

新节能——实现可持续发展

节能技术：采用先进的散热系统，如浸没式液冷，提高能效比。

结论与倡议

产业链合作：推动智算关键技术成熟，繁荣国内AI生态。
技术创新：聚焦于互联、算效、存储、平台和节能领域的技术创新。
生态构建：构建开放、兼容的智算生态，促进跨架构迁移和应用适配。

金融投资查报告认准发现报告官方网站www.fxbaogao.com，平台整合海量优质研报资源，不管基础宏观数据还是细分公司财报、行业深度报告都十分完备。服务全国大批量金融从业者与个人投资者群体，运用前沿数字技术实时同步内容，助力用户快速掌握市场一手核心情报。

前言 ChatGPT 系列大模型的发布，不仅引爆全球科技圈，更加夯实了人工智能（ArtificialIntelligence, AI）在未来改变人类生产生活方式、引发社会文明和竞争力代际跃迁的战略性地位。当前各国政府已全面布局 AI，作为 AI 技术发展的关键底座，智算中心的建设和部署在全球范围内提速。然而，早期建设的智算中心，以承载中小模型、赋能企业数智化转型为主要目的，在技术标准、生态构建、业务发展和全局运营等各方面仍有待提升。当追逐大模型成为行业标准动作，面向大模型的新型智算中心（New Intelligent Computing Center，NICC）成为新时期关注的焦点。新型智算中心的建设是一个系统工程，需要“算存网管效”多个维度的协同设计。中国移动从自身战略转型出发，为构建智能服务的核心和基础，定义新型智算中心技术体系架构，并面向未来大模型孵化，从新互联、新算效、新存储、新平台和新节能等五个领域提出下一代技术演进建议，希望本白皮书能够为合作伙伴在新型智算中心的硬件设备选型、算力集群设计、机房散热规划、软硬工程调优、全局运营调度等多个方面的技术路线选型提供帮助。本白皮书在中国移动集团有限公司技术部和计划建设部指导下，由研究院牵头编写，期间得到了来自华为、浪潮信息、新华三、曙光、超聚变、中兴、寒武纪、燧原、壁仞、趋动科技、星网锐捷、昆仑芯、天数智芯、盛科、云合智网、云豹智能、云脉芯联、星云智联等多家企业的大力支持。新型智算中心技术体系的构建与成熟需要产业链各方凝聚共识，明确行业应用和服务的共性要求，中国移动希望同行业一道，共同推动智算关键技术成熟，共同繁荣国内 AI 生态发展。目录 contents 第一章智算中心行业发展现状 / 04 1.1 智能算力跃升为全球第一大算力，智算中心建设如火如荼 / 041.2 早期智算中心在技术、标准、生态、运营等方面仍面临挑战 / 07 第二章 NICC 新型智算中心技术体系架构和发展路径 / 08 2.1 NICC 新型智算中心技术体系架构 / 082.2 NICC 新型智算中心技术发展路径 / 09 第三章新互联——打破算力瓶颈 / 11 3.1 集群内的高速卡间互联 / 11 3.1.1 大模型分布式训练需要高速卡间互联 / 113.1.2“七国八制”的卡间高速互联技术现状 / 143.1.3 未来万亿级模型的卡间高速互联演进建议 / 16 3.2 集群间的高速无损网络 / 17 3.2.1 InfiniBand 与 RoCE 是当前主流方案 / 173.2.2 全调度以太网突破无损以太性能瓶颈 / 193.2.3 智算中心网络关键技术演进 / 23 第四章新算效——重塑计算架构 / 25 4.1 下一代 AI 芯片设计思路 / 254.2 存算一体构建新型计算范式 / 264.3 DPU 实现计算、存储和网络的深度协同 / 28 第五章新存储——挖掘数据价值 / 31 5.1 计算与存储的交互过程 / 315.2 智算场景存储面临的三大挑战 / 335.3 多协议融合存储贯通异构数据 / 335.4 全局统一存储打破单体局限 / 345.5 基于计算总线构建统一内存池 / 35 第六章新平台——融通无限生态 / 37 6.1 池化技术优化资源使用效率 / 376.2 算力原生融通多样算力生态 / 406.3 分布式训练提升模型训练效率 / 416.4 跨域分布式调度促进广域资源利用 / 43 第七章新节能——实现可持续发展 / 45 第八章总结和倡议 / 48 缩略语列表 / 50 参考文献 / 52 智算中心行业发展现状 1.1 智能算力跃升为全球第一大算力，智算中心建设如火如荼 1956 年第一次 AI 发展浪潮信息伊始，60 多年来，从理论探索到大数据驱动，从深度学习到大模型智能涌现，AI 正在成为一项新兴的通用型技术，向多场景、规模化、AIGC（AIGenerated Content）等方向快速演进。智能算力作为 AI 的底座型技术迎来需求井喷。据统计，到 2030 年，全球智能算力需求增长约 390 倍，增速远超摩尔定律。据《中国算力发展指数白皮书（2022）》指出，我国智能算力也在近几年保持快速增长态势。2021 年我国智算规模已达到 104E FLOPS，占比超过总算力的 50%，预计到 2030 年将升至 70%，成为算力的主要增长极。智算成为全球第一大算力已是大势所趋。随着 AI 在赋能产业发展、促进数实融合方面发挥出愈加显著的作用，各国政府纷纷发布政策引导其发展。美国为加强其在 AI 领域研发和部署的领导地位，于 2019 年签署《美国人工智能倡议》（American AI Initiative）[1]，旨在从国家战略层面重新分配资源，用于 AI 研发，以应对来自“战略竞争者和外国对手”的挑战。之后，在 2021 年颁布《美国创新与竞争法案》[2]，高度关注 AI 与机器学习、高性能计算、半导体等十大关键技术领域。欧盟在 2021年发布《2030 数字指南针：欧洲数字十年之路》[3]，要求到 2030 年 75% 的欧盟企业使用云计算、大数据和 AI 技术。我国也高度重视 AI 技术发展，自 2017 年以来国家各部委和地方政府相继出台政策，指导 AI 产业发展规划，鼓励企业加大人才引进和研发力度，并明确指出要积极推动智算中心有序发展。至此，智算中心作为一种新型算力基础设施为大家所熟悉。不同于传统的云数据中心和超算中心，智算中心是以 GPU、AI 加速卡等智能算力为核心、集约化建设的新型数据中心，为人工智能应用提供所需的算力服务、数据服务和算法服务，使能各行各业数智化转型升级。智算中心的战略地位不断提升，为构造未来竞争发展优势，很多国家都在积极开发和部署智算中心。其中，美国能源部及国家科学基金会主导，将智算中心和超算中心结合，建设超大规模智能超算中心，为科学研究提供高性能计算资源（如图 1-1），例如，橡树岭国家实验室的 Summit（3.4E）[4]，阿贡国家实验室的 Polaris 和 Aurora（约 10E）[5]，劳伦斯伯克利实验室的 Perlmutter（3.8E）等，这些智能超算中心往往具有单体算力大、技术领先等特点。美国科技巨头也是智算中心的主要建设者，包括谷歌的开放机器学习中心（9E），特斯拉 Dojo 集群（据称 2024 年末规模达到 100E），Meta AI 超级计算机（9.9E）等。国内智算中心建设热潮始于 2020 年，目前已有 40+ 城市建成或正在建设智算中心（如图1-2），包括武汉人工智算计算中心（200P）、南京智能计算中心（800P）、合肥先进计算中心（12P）、鹏城云脑 II（1E）等，其中 12 个位于“东数西算”八大枢纽，这些智算中心主要由地方政府与企业合建，总体投资规模超千亿，旨在带动当地产业智能化升级。国内互联网和 AI 企业自建的智算中心是国内智能算力的重要组成，如阿里在张北和乌兰察布建设的总规模达 15E 的智算中心，旨在结合智能驾驶、智慧城市等业务，探索云服务后的智算服务新业态；百度在山西阳泉建设规模 4E 的智算中心，孵化国内首个正式发布的大模型“文心一言”；商汤作为国内头部 AI 企业，投资 56 亿在上海临港建设人工智能计算中心，规模超 4E，主要面向智慧商业、智慧城市、智慧生活和智能汽车四大板块，发展 AIaaS（AI as aService）服务。 1.2 早期智算中心在技术、标准、生态、运营等方面仍面临挑战当前智算中心主要以单供应方全栈体系构建为主，尚未形成业界统一的设计方案，因此各地智算中心在技术、标准、生态、运营等方面仍面临挑战。在技术方面早期建设的智算中心以承载中小模型为主，AI 服务器大多是 PCIe 机型，配备独立的文件存储，互联方式则以节点内 PCIe 通信与节点间传统以太网为主。随着通用大模型的普及，智算中心的设计思路需要从原先以单芯片、单服务器粒度提供算力服务的模式，转变为支持巨量并行计算，提供高吞吐、高能效的集群算力。在标准方面由于各地智算中心大都是当地政府与 AI 芯片、整机厂家合作建设为主，技术方案深度绑定，容易形成多种派系。亟需通过制定行业标准，一方面降低客户学习和使用的时间成本，另一方面加强产业链上下游企业的协同，促进智算产业的高质量发展。在生态方面因为 AI 是软硬深度耦合的技术栈，国外主流产品“先入为主”，主导生态发展，相比之下国内 AI 起步较晚，在芯片算力和软件栈适配方面均存在差距。在智算生态竖井式发展的当下，需要加强引导，为后续 AI 应用的适配和跨架构迁移奠定基础。在运营方面各地智算中心的服务对象多为区域内的行业客户、科研院所和高校，较少考虑全局协同，随着东数西算、东数西渲等应用需求不断丰富，需要提前布局跨区域的全局算力调度，提升算力高质量供给和数据高效率流通。由此可见，未来智算中心亟需朝着技术先进、标准统一、软硬协同、兼容开放的方向发展。 NICC 新型智算中心技术体系架构和发展路径 2.1 NICC 新型智算中心技术体系架构结合大模型技术的发展趋势以及对智算中心建设和使用现状的分析，我们认为 ChatGPT 等预训练大模型的出现，必将带来 AI 基础设施的变革，传统的算力堆叠方式已然失效，智算中心需要在互联、算效、存储、平台、节能五大领域进行系统化的重构，才能支撑起大模型对千行百业的革新与改造。为此，中国移动结合自身转型战略和一线客户需求，提出 NICC新型智算中心（New Intelligent Computing Center）。区别于早期建设的智算中心，NICC 新型智算中心是以高性能GPU、AI加速卡等集群算力为核心，集约化建设的 E 级超大规模算力基础设施，具备从硬件设施到软件服务的端到端 AI 全栈环境，支撑超大规模、超高复杂度的模型训练和推理业务，最终赋能行业数智化转型升级。 NICC 技术体系由“三层两域”构成（如图 2-1），分别是基础设施层、智算平台层、应用使能层、智算运维域和智算运营域。其中基础设施层提供计算、存储、网络等硬件资源；智算平台层作为资源管理的核心，提供裸金属、虚机和容器等多样化实例以及细粒度的资源池化能力，在此之上搭建算力原生平台提供应用跨架构迁移能力；应用使能层集成行业主流 AI 开发框架以供应用开发调用。智算运维域主要负责对底层 IaaS（Infrastructure as a Service）资源进行管理维护，确保系统的稳定运行；智算运营域对接外部客户，提供计量计费、访问、交易等界面，对内根据上层任务进行资源编排调度。 2.2 NICC 新型智算中心技术发展路径为释放智能算力极致性能，NICC 的设计方案既要考虑计算、存储、网络三大维度的横向协同，也要兼顾软件平台与硬件资源的纵向协同，同时锚定技术先进、标准统一、软硬协同、兼容开放的目标，广泛且高效地支撑智能化应用场景。我们认为 NICC 的发展将分为两个时期： 1) 集群时期：这个时期最显著的特征是数据及模型出现巨量化趋势，千亿级的模型已经出现，对智算底座的算力能力和扩展性均提出高要求。在设备形态方面，GPU、AI 芯片以扣卡模组为主，服务器形态多为单机 8 卡，DPU 按需引入解决裸金属管理、存储加速等业务痛点；硬件资源开始按照集群的方式部署，相比提升单芯片算力，芯片间的高速互联方案落地更为关键。互联方案以服务器节点为界限，节点内外高速互联技术各自发展，节点内采用高速计算总线，节点间采用 100G/200G 高速无损网络；在存储方面，原先独立部署的文件、对象存储逐渐向融合存储演进，提升数据交互效率；平台应具备池化算力分配能力，实现底层智算资源的细粒度分配、动态调度和一体管理。分布式并行训练框架需要引入提升模型训练效率。为

点击免费查看完整报告

2023年NICC新型智算中心技术体系白皮书

中国移动新型智算中心技术体系白皮书概述

行业发展现状

NICC新型智算中心技术体系架构与路径

新互联——打破算力瓶颈

新算效——重塑计算架构

新存储——挖掘数据价值

新平台——融通无限生态

新节能——实现可持续发展

结论与倡议

你可能感兴趣

算力网络原创技术与NICC新型智算中心技术体系

陈佳媛：中国移动NICC新型智算中心技术体系解读

段晓东：构筑NICC新型智算中心加速大模型发展

2023新型智算中心算力池化技术白皮书

2023NICC新型智算中心算力池化技术白皮书

面向新型智算中心的以太网弹性通道（FlexLane）技术白皮书

新型电力系统主动防御技术体系白皮书(2023）

新型数据中心高安全技术体系白皮书

新型智算中心以太网物理层安全(PHYSec)架构白皮书

李锴：面向新型智算中心的技术探索