您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国移动]:2023年NICC新型智算中心技术体系白皮书 - 发现报告
当前位置:首页/行业研究/报告详情/

2023年NICC新型智算中心技术体系白皮书

信息技术2023-09-03中国移动陈***
2023年NICC新型智算中心技术体系白皮书

01中国移动NICC新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Technology Framework White PaperChatGPT系列大模型的发布,不仅引爆全球科技圈,更加夯实了人工智能(Artificial Intelligence, AI)在未来改变人类生产生活方式、引发社会文明和竞争力代际跃迁的战略性地位。当前各国政府已全面布局 AI,作为 AI 技术发展的关键底座,智算中心的建设和部署在全球范围内提速。然而,早期建设的智算中心,以承载中小模型、赋能企业数智化转型为主要目的,在技术标准、生态构建、业务发展和全局运营等各方面仍有待提升。当追逐大模型成为行业标准动作,面向大模型的新型智算中心(New Intelligent Computing Center,NICC)成为新时期关注的焦点。新型智算中心的建设是一个系统工程,需要“算存网管效”多个维度的协同设计。中国移动从自身战略转型出发,为构建智能服务的核心和基础,定义新型智算中心技术体系架构,并面向未来大模型孵化,从新互联、新算效、新存储、新平台和新节能等五个领域提出下一代技术演进建议,希望本白皮书能够为合作伙伴在新型智算中心的硬件设备选型、算力集群设计、机房散热规划、软硬工程调优、全局运营调度等多个方面的技术路线选型提供帮助。本白皮书在中国移动集团有限公司技术部和计划建设部指导下,由研究院牵头编写,期间得到了来自华为、浪潮信息、新华三、曙光、超聚变、中兴、寒武纪、燧原、壁仞、趋动科技、星网锐捷、昆仑芯、天数智芯、盛科、云合智网、云豹智能、云脉芯联、星云智联等多家企业的大力支持。新型智算中心技术体系的构建与成熟需要产业链各方凝聚共识,明确行业应用和服务的共性要求,中国移动希望同行业一道,共同推动智算关键技术成熟,共同繁荣国内 AI 生态发展。前 言 02中国移动NICC新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Technology Framework White Paper目录 contents第一章 智算中心行业发展现状 / 041.1 智能算力跃升为全球第一大算力,智算中心建设如火如荼 / 041.2 早期智算中心在技术、标准、生态、运营等方面仍面临挑战 / 07第二章 NICC 新型智算中心技术体系架构和发展路径 / 082.1 NICC 新型智算中心技术体系架构 / 082.2 NICC 新型智算中心技术发展路径 / 09第三章 新互联——打破算力瓶颈 / 113.1 集群内的高速卡间互联 / 113.1.1 大模型分布式训练需要高速卡间互联 / 113.1.2“七国八制”的卡间高速互联技术现状 / 143.1.3 未来万亿级模型的卡间高速互联演进建议 / 163.2 集群间的高速无损网络 / 173.2.1 InfiniBand 与 RoCE 是当前主流方案 / 173.2.2 全调度以太网突破无损以太性能瓶颈 / 193.2.3 智算中心网络关键技术演进 / 23第四章 新算效——重塑计算架构 / 254.1 下一代 AI 芯片设计思路 / 254.2 存算一体构建新型计算范式 / 264.3 DPU 实现计算、存储和网络的深度协同 / 28 03中国移动NICC新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Technology Framework White Paper第五章 新存储——挖掘数据价值 / 315.1 计算与存储的交互过程 / 315.2 智算场景存储面临的三大挑战 / 335.3 多协议融合存储贯通异构数据 / 335.4 全局统一存储打破单体局限 / 345.5 基于计算总线构建统一内存池 / 35第六章 新平台——融通无限生态 / 376.1 池化技术优化资源使用效率 / 376.2 算力原生融通多样算力生态 / 406.3 分布式训练提升模型训练效率 / 416.4 跨域分布式调度促进广域资源利用 / 43第七章 新节能——实现可持续发展 / 45第八章 总结和倡议 / 48缩略语列表 / 50参考文献 / 52 04中国移动NICC新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Technology Framework White Paper中国移动NICC新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Technology Framework White Paper1.1 智能算力跃升为全球第一大算力,智算中心建设如火如荼1956 年第一次 AI 发展浪潮信息伊始,60 多年来,从理论探索到大数据驱动,从深度学习到大模型智能涌现,AI 正在成为一项新兴的通用型技术,向多场景、规模化、AIGC(AI Generated Content)等方向快速演进。智能算力作为 AI 的底座型技术迎来需求井喷。据统计,到 2030 年,全球智能算力需求增长约 390 倍,增速远超摩尔定律。据《中国算力发展指数白皮书(2022)》指出,我国智能算力也在近几年保持快速增长态势。2021 年我国智算规模已达到 104E FLOPS,占比超过总算力的 50%,预计到 2030 年将升至 70%,成为算力的主要增长极。智算成为全球第一大算力已是大势所趋。随着 AI 在赋能产业发展、促进数实融合方面发挥出愈加显著的作用,各国政府纷纷发布政策引导其发展。美国为加强其在 AI 领域研发和部署的领导地位,于 2019 年签署《美国人工智算中心行业发展现状11 05中国移动NICC新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Technology Framework White Paper中国移动NICC新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Technology Framework White Paper智能倡议》(American AI Initiative)[1],旨在从国家战略层面重新分配资源,用于 AI 研发,以应对来自“战略竞争者和外国对手”的挑战。之后,在 2021 年颁布《美国创新与竞争法案》[2],高度关注 AI 与机器学习、高性能计算、半导体等十大关键技术领域。欧盟在 2021年发布《2030 数字指南针:欧洲数字十年之路》[3],要求到 2030 年 75% 的欧盟企业使用云计算、大数据和 AI 技术。我国也高度重视 AI 技术发展,自 2017 年以来国家各部委和地方政府相继出台政策,指导 AI 产业发展规划,鼓励企业加大人才引进和研发力度,并明确指出要积极推动智算中心有序发展。至此,智算中心作为一种新型算力基础设施为大家所熟悉。不同于传统的云数据中心和超算中心,智算中心是以GPU、AI加速卡等智能算力为核心、集约化建设的新型数据中心,为人工智能应用提供所需的算力服务、数据服务和算法服务,使能各行各业数智化转型升级。智算中心的战略地位不断提升,为构造未来竞争发展优势,很多国家都在积极开发和部署智算中心。其中,美国能源部及国家科学基金会主导,将智算中心和超算中心结合,建设超大规模智能超算中心,为科学研究提供高性能计算资源(如图 1-1),例如,橡树岭国家实验室的 Summit(3.4E)[4],阿贡国家实验室的 Polaris 和 Aurora(约 10E)[5],劳伦斯伯克利实验室的 Perlmutter(3.8E)等,这些智能超算中心往往具有单体算力大、技术领先等特点。美国科技巨头也是智算中心的主要建设者,包括谷歌的开放机器学习中心(9E),特斯拉 Dojo 集群(据称 2024 年末规模达到 100E),Meta AI 超级计算机(9.9E)等。图 1-1 美国智能超算中心 06中国移动NICC新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Technology Framework White Paper中国移动NICC新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Technology Framework White Paper国内智算中心建设热潮始于 2020 年,目前已有 40+ 城市建成或正在建设智算中心(如图1-2),包括武汉人工智算计算中心(200P)、南京智能计算中心(800P)、合肥先进计算中心(12P)、鹏城云脑 II(1E)等,其中 12 个位于“东数西算”八大枢纽,这些智算中心主要由地方政府与企业合建,总体投资规模超千亿,旨在带动当地产业智能化升级。国内互联网和 AI 企业自建的智算中心是国内智能算力的重要组成,如阿里在张北和乌兰察布建设的总规模达 15E 的智算中心,旨在结合智能驾驶、智慧城市等业务,探索云服务后的智算服务新业态;百度在山西阳泉建设规模4E 的智算中心,孵化国内首个正式发布的大模型“文心一言”;商汤作为国内头部 AI 企业,投资 56 亿在上海临港建设人工智能计算中心,规模超 4E,主要面向智慧商业、智慧城市、智慧生活和智能汽车四大板块,发展 AIaaS(AI as a Service)服务。图 1-2 国内部分智算中心 07中国移动NICC新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Technology Framework White Paper中国移动NICC新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Technology Framework White Paper1.2 早期智算中心在技术、标准、生态、运营等方面仍面临挑战当前智算中心主要以单供应方全栈体系构建为主,尚未形成业界统一的设计方案,因此各地智算中心在技术、标准、生态、运营等方面仍面临挑战。由此可见,未来智算中心亟需朝着技术先进、标准统一、软硬协同、兼容开放的方向发展。在标准方面由于各地智算中心大都是当地政府与 AI 芯片、整机厂家合作建设为主,技术方案深度绑定,容易形成多种派系。亟需通过制定行业标准,一方面降低客户学习和使用的时间成本,另一方面加强产业链上下游企业的协同,促进智算产业的高质量发展。在运营方面各地智算中心的服务对象多为区域内的行业客户、科研院所和高校,较少考虑全局协同,随着东数西算、东数西渲等应用需求不断丰富,需要提前布局跨区域的全局算力调度,提升算力高质量供给和数据高效率流通。在技术方面早期建设的智算中心以承载中小模型为主,AI 服务器大多是 PCIe 机型,配备独立的文件存储,互联方式则以节点内 PCIe 通信与节点间传统以太网为主。随着通用大模型的普及,智算中心的设计思路需要从原先以单芯片、单服务器粒度提供算力服务的模式,转变为支持巨量并行计算,提供高吞吐、高能效的集群算力。在生态方面因为 AI 是软硬深度耦合的技术栈,国外主流产品“先入为主”,主导生态发展,相比之下国内 AI 起步较晚,在芯片算力和软件栈适配方面均存在差距。在智算生态竖井式发展的当下,需要加强引导,为后续 AI 应用的适配和跨架构迁移奠定基础。 08中国移动NICC新型智算中心技术体系白皮书China Mobile New Intelligent Computing Center Technology Framework White Paper中国移动NICC新型智算中心技术体系白皮书China Mobile N

你可能感兴趣

hot

陈佳媛:中国移动NICC新型智算中心技术体系解读

信息技术
中国移动研究院2023-09-15
hot

段晓东:构筑NICC新型智算中心加速大模型发展

信息技术
中国移动研究院2023-09-04
hot

2023新型智算中心算力池化技术白皮书

信息技术
中移智库2023-09-12