研究单位:中国移动研究院、浪潮电子信息产业股份有限公司、新华三技术有限公司完成日期:2023年12月 目录 一、 研究背景 ............................................................................................................................................3二、 异构算力的发展和应用场景需求.............................................................................................. 4(一) 异构算力的发展情况 ............................................................................................................4(二) 异构算力的主要应用场景 ...................................................................................................7三、 分布式异构算力管理和调度的关键技术能力....................................................................... 9(一) 异构算力的虚拟化和池化 ................................................................................................ 10(二) 分布式异构算力的调度能力 ............................................................................................13(三) 分布式异构算力的度量和标识 ....................................................................................... 16四、 当前业界技术实现情况..............................................................................................................17(一)中国移动智算体系实现异构资源池化 ......................................................................... 18(二) 浪潮AIStation平台实现异构资源管理调度 ............................................................19(三) 新华三傲飞平台实现异构资源管理调度 .....................................................................22五、 总结与展望.....................................................................................................................................24参考文档.....................................................................................................................................................26 一、研究背景 随着我国数字经济规模总量的不断攀升,实体经济、数字经济和信息服务的深度融合正加速产业数字化和数字产业化变革。算力作为承载信息数据的重要基础设施,已成为全社会数字化转型的重要基石。根据中国信息通信研究院最新发布的《中国算力发展指数白皮书(2023年)》显示,至2023年我国智能算力规模达到178.5EFlops,增速为72%,在我国算力占比达59%,成为算力快速增长的驱动力;据IDC等机构预测,至2025年,新增数据量180ZB,其中80%的增长来自于文本、图片、语音、视频等非结构化的数据。随着人工智能、元宇宙、高性能计算等领域的发展,激发了更多智能数据处理的需求和场景,对新型智能算力的需求激增。 本研究围绕典型智能计算应用对异构算力的协同及调度需求,研究泛在异构算力参与训练或推理过程的协同需求、调度需求,研究泛在异构算力参与训练或推理过程的协同需求,包括异构算力类型、规模要求、性能要求、网络要求、数据传输要求等,分析异构算力协同 的应用场景等特点,考虑同数据中心、跨数据中心、跨云边端多级、池化和非池化异构算力并存等各种场景下,算力协同的需求及可行性。研究分析异构算力资源分类整合、池化重构和智能分配等技术方案。 研究分布式异构算力资源管理技术方案,包括管理跨数据中心、边缘及端侧的GPU、FPGA等异构算力设备,已虚拟化或池化的异构硬件,研究对异构算力资源进行标识和监控的方案,对算力进行细力度切分供给的技术方案,研究对计算任务进行异构算力匹配和调度的技术方案。包括如何匹配差异化的计算任务到相应的异构算力节点,如何支持异构算力资源高效和细粒度分配,基于应用场景的负载差异性,建立面向多样化异构算力资源和上层多场景需求的多元异构算力统一调度架构,统一资源实时感知,抽象资源响应和应用调度。研究分布式AI框架支持分布式异构算力的管理和调度技术方案。 二、异构算力的发展和应用场景需求 (一)异构算力的发展情况 异构算力通常是指CPU、GPU、FPGA、ASIC等多种不同的算力处理体系,能够满足不同场景中的应用需求,实现计算效力最大化。异构算力通常以AI芯片的形态被集成在计算机中,AI芯片是AI算力的核心基础设施之一。近年来,面向特定领域体系结构的定制化芯片也不断涌现,已成为AI算力发展的主流趋势。 目前异构算力主要有以下类型: 英伟达GPU的发展可以追溯到1999年,当时英伟达发布了第一代GPU架构GeForce 256,标志着GPU时代的开始。随后,英伟达的GPU架构不断升级,从TNT、Rage到Geforce 256,再到Tesla、Fermi、Kepler、Maxwell等。随着GPU技术的不断发展,英伟达的GPU架构也不断升级,以适应日益增长的计算需求,GPU架构也不断推动着图形渲染、人工智能和高性能计算等领域的发展。 近年来,英伟达还发布了多款强大的GPU芯片,如Turing、Ampere等,这些芯片都具有高性能的计算能力,为各种应用提供了强大的计算支持。2022年3月,英伟达推出了HGX H100,拥有最高可达18432个FP32(单精度)和9216个FP64(双精度)的CUDA核心,辅以576个第四代Tensor核心。2023年11月,英伟达再次升级其GPU产品线,发布了HGX H200。这款新的AI计算平台在原有H100的基础上进行了全面升级,主要升级包括提供141GB的下一代HBM3e内存,这使得H200成为了英伟达目前最强的人工智能芯片。 APU: APU(Accelerated Processing Unit)中文名字叫加速处理器,AMD将中央处理器和独显核心做在一个晶片上,它同时具有高性能处理器和最新独立显卡的处理性能,支持DX11游戏和最新应用的“加速运算”,大幅提升了电脑运行效率。 从2010年以来,AMD相继推出GCN架构、RDNA架构、RDNA2架构、RDNA3架构、CDNA架构和CDNA2架构。最新一代面向高性能计算和人工智能CDNA2架构于架构采用增强型Matrix Core技 术,支持更广泛的数据类型和应用,针对高性能计算工作负载带来全速率双精度和全新FP64矩阵运算。基于CDNA2架构的AMD InstinctMI250X GPU FP64双精度运算算力最高可达95.7TFLOPs。 TPU: TPU是由Google推出的人工智能芯片Tensor Processing Unit。之后又陆续推出了TPUv4等若干代TPU和TPU Edge。TPU是计算神经网络专用芯片,是google为了为优化自身的TensorFlow机器学习框架而打造。 FPGA: FPGA作为一种灵活可编程的硬件平台,具备较高的计算性能和可定制性,能够提供对AI算法的加速和优化;在AI应用中,可以用于实现神经网络加速器、高性能计算单元等,为计算密集型的AI任务提供高性能和低延迟的计算能力。 例如,英特尔Stratix 10 NX FPGA就是专门为AI设计的,具有AI张量块,包含密集的低精度乘法器阵列,针对矩阵和向量乘法进行了调整,可执行INT4、INT8、Block FP12或Block FP16操作。此外,这些张量块可以级联在一起,支持大型矩阵。 ASIC: 与更通用的芯片(如CPU和GPU)相比,ASIC芯片的定制化提供了更高的效率。ASIC的兴起引起了NVIDIA、AMD和英特尔等科技巨头的关注。行业可能会采用混合技术来推动创新和进步。例如,NVIDIA一直在开发自己的AI专用芯片,称为Tensor Cores。随着亚 马逊、微软和百度等科技巨头探索定制ASIC,这项新技术显然将在AI处理中发挥重要作用。ASIC领域还持续在可扩展性、可负担性和实施方面开展攻关。 DPU: DPU服务于云计算,主要作用是提升数据中心等算力基础设施的效率,减少能耗浪费,进而降低成本。随着数据中心建设、网络带宽和数据量急剧增长,由于CPU性能增长速度放缓,为了寻求效率更高的计算芯片,DPU由此产生。例如,英伟达将Mellanox的ConnectX系列高速网卡技术与自己的已有技术相结合,于2020年正式推出了两款DPU产品BlueField-2 DPU和BlueField-2X DPU。 (二)异构算力的主要应用场景 异构计算利用不同类型处理器的独特优势,例如GPU的并行计算能力和FPGA的定制化硬件设计能力,从而提高计算性能和功率效率。它在许多领域都有广泛的应用,如人工智能领域的深度神经网络训练,科学计算领域的模拟和数据处理,物理仿真和计算机视觉等。此外,异构计算还可应用于移动设备和嵌入式系统等领域,在这些领域中,功率和性能都是非常重要的因素。异构计算可以让这些设备更加智能化,同时提高它们的性能和功率效率。总结来看,异构算力的主要应用场景包括: 机器学习和深度学习:异构计算可以利用AI算力的并行处理能力,加速机器学习和深度学习的训练和推理过程。例如,使用GPU进行大规模的矩阵运算,可以大幅提高训练速度和模型准确率。 高性能计算(HPC)等科学计算场景:在科学研究、工程仿真等领域,需要处理的数据量巨大,传统的CPU计算已经无法满足需求。异构计算可以利用CPU和GPU联合的方式,实现更高的计算性能和效率。 图形处理渲染和游戏开发:异构计算可以利用AI算力的并行处理能力,实现图像的实时渲染和处理。例如,在游戏开发中,利用GPU卡加速可以实现更加真实的光影效果和更高的帧率。 物联网(IoT):物联网设备数量庞大,需要进行大量的数据处理和管理。通过异构计算,可以实现物联网设备的智能化管理和数据处理,提高物联网应用的效率和可靠性。异构计算可以利用CPU+GPU或者CPU+FPGA+GPU等异构算力联合的方式,实现更高的计算性能和效率。 区块链:区块链技术需要保证交易的安全性和可靠性,同时需要处理大量的交易数据。异构计算可以利用FPGA