您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中移智库]:2023NICC新型智算中心算力池化技术白皮书 - 发现报告
当前位置:首页/其他报告/报告详情/

2023NICC新型智算中心算力池化技术白皮书

2023-08-15-中移智库灰***
2023NICC新型智算中心算力池化技术白皮书

中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)INICC 新型智算中心算力池化技术白皮书(2023 年)中移智库中国移动通信有限公司研究院2023 年 8 月 中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)I前 言当前,数字经济已成为国民经济高质量发展的新动能,随着人工智能在产业数字化进程中从“单点突破”迈向“泛在智能”,一个以数字化、网络化、智能化为特征的智慧社会正加速到来。智能算力作为人工智能的基石,是算力网络构建多要素融合新型信息基础设施的关键领域,已成为数字经济高质量发展的核心引擎,智能算力基础设施建设也迎来了高潮。智算中心作为集约化建设的算力基础设施,它以 GPU、AI 芯片等智能算力为核心,提供软硬件全栈环境,主要承载模型训练、推理、多媒体渲染等业务,支撑千行百业数智化转型升级。然而传统智算中心的智算资源利用率较低,资源分布相对碎片化,不利于整体效能的提升,亟需一个可聚合各类型算力、实现敏捷化资源管理的平台,使能资源可以被极致利用,算力池化技术应运而生。为凝聚产业共识,进一步推动算力池化技术成熟,中国移动发布本白皮书,分析了智能算力发展的趋势及面临的挑战,系统性介绍了算力池化的定义与目标、总体架构、关键技术和当前业界的探索实践,并呼吁业界紧密合作、加快构建算力池化统一的标准体系。本白皮书由中国移动通信有限公司研究院主编,北京趋动科技有限公司、华为技术有限公司、中兴通讯股份有限公司、威睿信息技术(中国)有限公司联合编撰,由中移智库发布。本白皮书的版权归中国移动所有,未经授权,任何单位或个人不得复制或拷贝本白皮书之部分或全部内容。 中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)II目 录前 言.....................................................................................................................................I目 录....................................................................................................................................II1.算力池化技术背景............................................................................................................11.1传统智算中心存在资源效率问题.........................................................................21.1.1GPU资源利用率不足30%............................................................................21.1.2资源碎片化导致分配率低.............................................................................31.2池化技术是提高资源效率的关键.........................................................................42.算力池化定义与目标.........................................................................................................62.1算力池化的定义...................................................................................................62.2算力池化的目标...................................................................................................63.算力池化架构与关键技术.................................................................................................83.1算力池化平台技术架构........................................................................................83.2算力池化技术能力层级......................................................................................103.3算力池化关键技术.............................................................................................123.3.1软件定义的资源分配方式...........................................................................123.3.2算力资源高质量管理技术...........................................................................143.3.3泛在化碎片的池化整合技术........................................................................164.算力池化产业实践..........................................................................................................194.1业界厂商池化技术实践......................................................................................194.2中国移动池化技术实践......................................................................................245.展望与倡议.....................................................................................................................26参考文献..............................................................................................................................27缩略语列表..........................................................................................................................28 中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)11. 算力池化技术背景数字经济时代,随着智慧城市、智慧交通、智慧家庭等智能场景的逐步落地,人工智能正深刻地改变我们的生产、生活方式。同时随着 5G、边缘计算等支撑技术的持续发展,数智业务转型过程中所产生的数据量正在以更加难以计量的速度爆发,据 IDC 公布的《数据时代 2025》显示,从 2016 年到 2025 年全球总数据量将会增长 10 倍,达到 163ZB,其中非结构化数据占 70%以上,计算模式将变得更加复杂,对智能算力的需求也在不断提高,智能计算将成为主流的计算形态。随着智能计算广泛融合到生产、生活的各个方面,以 GPU、AI 芯片为主要算力资源的智算中心正逐步取代通用数据中心成为算力发展的主流形态。在此背景下,各国政府已开始布局 AI 领域全栈能力,并出资引导智能算力基础设施建设;我国也已进入智能化时代,“十四五”期间,相关部委积极推动智算中心建设发展,旨在面向人工智能场景提供公共算力服务。同时,随着 ChatGPT 等基础通用大模型业务引爆了对 GPU 的市场需求,产业各方纷纷加入对基础大模型的训练和培育,导致“一芯难求”,GPU 价格也随之暴涨。以英伟达 A800 为例,据市场数据统计,近半年来的价格增幅高达 30%以上。如何在有限的资源供应内尽可能提高利用率,充分发挥算力效率的同时降低智算中心 TCO,目前已成为智算中心建设待解决的关键命题之一。 中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)21.1 传统智算中心存在资源效率问题1.1.1 GPU 资源利用率不足 30%当前智算中心主要以国家或当地政府总体牵头建设为主,此外,AI 应用服务企业也在布局自有智算基础设施建设。然而,据公开数据统计,传统模式下的智算中心 GPU 利用率较低,平均数值低于 30%:−AWS re:Invent 2018 公布数据:平均 GPU 利用率为 20%−Facebook 2021 年机器学习负载分析报告:平均 GPU 利用率不足 30%−英伟达 GTC2022 公布数据:Google 云平均 GPU 利用率为 25%传统智算中心的 GPU 资源利用率过低,主要来源于以下多个方面的原因:(一)资源分配较为粗放:资源分配以整卡分配为主,辅以一虚多的虚拟化分配方式,颗粒度较粗,无法适配不同 AI 任务对资源的差异化需求,导致部分资源闲置,影响算力资源的利用率;(二)算力没有被充分激活:AI 任务模型设计缺陷、算力优化程度不足、模型框架与底层芯片适配不充分等原因,均可能导致算力资源的性能无法充分发挥,导致额外的资源损耗;(三)网络带宽瓶颈制约:智算中心设备和服务器之间的通信需要消耗网络带宽,网络瓶颈会影响影响整体性能,算力资源空闲度高、利用率低。传统智算中心的 GPU 资源利用率问题是一个综合性的问题,需要 中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)3从资源管理策略、硬件架构设计、应用软件算法优化等多方面共同优化解决,其中尤以资源管理策略方面的优化可控性强、生效快、投入产出比高,是新型智算中心算力池化的重要研究方向之一。1.1.2 资源碎片化导致分配率低资源碎片指体量较小,低于应用的需求而无法被分配出去的闲置资源,通常来说,应用所需资源的规格越高、种类越多,导致资源碎片的概率则越大。近几年来,AI 业务迅速发展,从训练到推动,从小模型到大模型,AI 任务的种类越来越多,对算力的需求越来越高,算力资源碎片化趋势较为明显。碎片化的原因包括任务类型差异、任务规模差异、任务优先级差异以及任务调度能力等多方面因素。(一)任务类型差异:智算中心提供的算力资源可以用于不同种类的任务,包括机器学习、深度学习、图像处理等。也包括大模型、小模型、分布式推理、集中式推动,由于不同类型的任务对硬件配置的要求不同,因此会导致不同类型的任务需要不同的算力资源,难以充分适配;(二)任务规模差异:任务规模不同,所需求的算力资源不同,并且不同任务规模对算力资源的分配也无实际标准,小规模任务可申请大规模的算力,虽然存在资源浪费,但却可加速任务完成,相反,在