行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

2023分布式异构智能算力的管理和调度技术研究报告

信息技术 2024-02-17 中国移动研究院还是郁闷闷啊

分布式异构智能算力的管理和调度技术研究报告总结

主要内容概览

研究背景

随着数字经济的快速发展，算力作为信息数据的基础，成为驱动产业数字化和数字产业化变革的关键要素。

异构算力的发展与应用场景需求

异构算力发展：GPU、APU、TPU、FPGA、ASIC和DPU等构成的异构算力生态，推动计算性能和能效的提升。
应用场景：在人工智能、科学计算、图形处理、物联网和区块链等领域展现出强大潜力。

分布式异构算力管理和调度的关键技术能力

虚拟化与池化：通过软件定义技术整合不同类型的算力资源，实现资源的集中调度和按需分配。
调度能力：支持跨异构节点的统一智算应用调度，克服不同算力节点间的技术栈差异，实现资源的敏捷化管理。
度量与标识：建立一套机制以实时监测和评估算力资源状态，支持精细化管理和高效调度。

当前业界技术实现情况

中国移动智算体系：实现异构资源池化，提供智能算力的管理和调度。
浪潮AIStation平台：集成异构资源管理与调度功能。
新华三傲飞平台：实现异构资源的高效管理和调度。

总结与展望

报告总结了分布式异构智能算力管理和调度的关键技术和当前实现案例，强调了技术创新对推动算力资源高效利用的重要性。
展望未来，关注跨节点乃至广域分布式范围内的异构算力调度技术难题，提出进一步探索和合作的必要性。

研究方法与数据来源

本研究基于中国移动研究院、浪潮电子信息产业股份有限公司、新华三技术有限公司的共同研究成果，综合分析了分布式异构智能算力管理和调度的关键技术及其在实际应用中的表现。

结论与建议

强调了分布式异构算力管理和调度技术在促进算力资源高效利用、支持数字经济和产业数字化转型中的关键作用。
建议加大技术研发投入，探索更高效的跨异构节点调度策略，以及加强产业合作，共同推动算力基础设施的优化和创新。

关键技术要点

虚拟化与池化：通过软件定义技术整合GPU、FPGA、TPU等异构资源，实现资源的集中管理和按需分配。
调度能力：实现跨异构节点的统一智算应用调度，支持不同技术栈的资源整合与调度。
度量与标识：实时监测算力资源状态，确保资源的有效管理和高效利用。

行业趋势与挑战

技术融合：探索CPU、GPU、DPU等异构算力在单一节点内的协同工作，以及在多节点间的高效调度。
资源优化：面对海量数据和复杂计算任务，优化算力资源分配策略，提升资源使用效率。
标准与协作：构建开放兼容的算力管理标准，促进不同平台间的互联互通和资源共享。

结论

本研究报告深入探讨了分布式异构智能算力管理和调度的关键技术及其在实际应用中的实践案例，为推动算力资源的高效利用和产业数字化转型提供了重要参考。随着技术的不断演进和行业需求的深化，预计未来在跨节点乃至广域分布式范围内的异构算力调度技术将面临更多挑战，但同时也蕴含着巨大的创新机遇。

研究单位：中国移动研究院、浪潮电子信息产业股份有限公司、新华三技术有限公司完成日期：2023年12月目录一、研究背景 ............................................................................................................................................3二、异构算力的发展和应用场景需求.............................................................................................. 4（一）异构算力的发展情况 ............................................................................................................4（二）异构算力的主要应用场景 ...................................................................................................7三、分布式异构算力管理和调度的关键技术能力....................................................................... 9（一）异构算力的虚拟化和池化 ................................................................................................ 10（二）分布式异构算力的调度能力 ............................................................................................13（三）分布式异构算力的度量和标识 ....................................................................................... 16四、当前业界技术实现情况..............................................................................................................17（一）中国移动智算体系实现异构资源池化 ......................................................................... 18（二）浪潮AIStation平台实现异构资源管理调度 ............................................................19（三）新华三傲飞平台实现异构资源管理调度 .....................................................................22五、总结与展望.....................................................................................................................................24参考文档.....................................................................................................................................................26 一、研究背景随着我国数字经济规模总量的不断攀升，实体经济、数字经济和信息服务的深度融合正加速产业数字化和数字产业化变革。算力作为承载信息数据的重要基础设施，已成为全社会数字化转型的重要基石。根据中国信息通信研究院最新发布的《中国算力发展指数白皮书（2023年）》显示，至2023年我国智能算力规模达到178.5EFlops，增速为72%，在我国算力占比达59%，成为算力快速增长的驱动力；据IDC等机构预测，至2025年，新增数据量180ZB，其中80%的增长来自于文本、图片、语音、视频等非结构化的数据。随着人工智能、元宇宙、高性能计算等领域的发展，激发了更多智能数据处理的需求和场景，对新型智能算力的需求激增。本研究围绕典型智能计算应用对异构算力的协同及调度需求，研究泛在异构算力参与训练或推理过程的协同需求、调度需求，研究泛在异构算力参与训练或推理过程的协同需求，包括异构算力类型、规模要求、性能要求、网络要求、数据传输要求等，分析异构算力协同的应用场景等特点，考虑同数据中心、跨数据中心、跨云边端多级、池化和非池化异构算力并存等各种场景下，算力协同的需求及可行性。研究分析异构算力资源分类整合、池化重构和智能分配等技术方案。研究分布式异构算力资源管理技术方案，包括管理跨数据中心、边缘及端侧的GPU、FPGA等异构算力设备，已虚拟化或池化的异构硬件，研究对异构算力资源进行标识和监控的方案，对算力进行细力度切分供给的技术方案，研究对计算任务进行异构算力匹配和调度的技术方案。包括如何匹配差异化的计算任务到相应的异构算力节点，如何支持异构算力资源高效和细粒度分配，基于应用场景的负载差异性，建立面向多样化异构算力资源和上层多场景需求的多元异构算力统一调度架构，统一资源实时感知，抽象资源响应和应用调度。研究分布式AI框架支持分布式异构算力的管理和调度技术方案。二、异构算力的发展和应用场景需求（一）异构算力的发展情况异构算力通常是指CPU、GPU、FPGA、ASIC等多种不同的算力处理体系，能够满足不同场景中的应用需求，实现计算效力最大化。异构算力通常以AI芯片的形态被集成在计算机中，AI芯片是AI算力的核心基础设施之一。近年来，面向特定领域体系结构的定制化芯片也不断涌现，已成为AI算力发展的主流趋势。目前异构算力主要有以下类型：英伟达GPU的发展可以追溯到1999年，当时英伟达发布了第一代GPU架构GeForce 256，标志着GPU时代的开始。随后，英伟达的GPU架构不断升级，从TNT、Rage到Geforce 256，再到Tesla、Fermi、Kepler、Maxwell等。随着GPU技术的不断发展，英伟达的GPU架构也不断升级，以适应日益增长的计算需求，GPU架构也不断推动着图形渲染、人工智能和高性能计算等领域的发展。近年来，英伟达还发布了多款强大的GPU芯片，如Turing、Ampere等，这些芯片都具有高性能的计算能力，为各种应用提供了强大的计算支持。2022年3月，英伟达推出了HGX H100，拥有最高可达18432个FP32（单精度）和9216个FP64（双精度）的CUDA核心，辅以576个第四代Tensor核心。2023年11月，英伟达再次升级其GPU产品线，发布了HGX H200。这款新的AI计算平台在原有H100的基础上进行了全面升级，主要升级包括提供141GB的下一代HBM3e内存，这使得H200成为了英伟达目前最强的人工智能芯片。 APU： APU（Accelerated Processing Unit）中文名字叫加速处理器，AMD将中央处理器和独显核心做在一个晶片上，它同时具有高性能处理器和最新独立显卡的处理性能，支持DX11游戏和最新应用的“加速运算”，大幅提升了电脑运行效率。从2010年以来，AMD相继推出GCN架构、RDNA架构、RDNA2架构、RDNA3架构、CDNA架构和CDNA2架构。最新一代面向高性能计算和人工智能CDNA2架构于架构采用增强型Matrix Core技术，支持更广泛的数据类型和应用，针对高性能计算工作负载带来全速率双精度和全新FP64矩阵运算。基于CDNA2架构的AMD InstinctMI250X GPU FP64双精度运算算力最高可达95.7TFLOPs。 TPU： TPU是由Google推出的人工智能芯片Tensor Processing Unit。之后又陆续推出了TPUv4等若干代TPU和TPU Edge。TPU是计算神经网络专用芯片，是google为了为优化自身的TensorFlow机器学习框架而打造。 FPGA： FPGA作为一种灵活可编程的硬件平台，具备较高的计算性能和可定制性，能够提供对AI算法的加速和优化；在AI应用中，可以用于实现神经网络加速器、高性能计算单元等，为计算密集型的AI任务提供高性能和低延迟的计算能力。例如，英特尔Stratix 10 NX FPGA就是专门为AI设计的，具有AI张量块，包含密集的低精度乘法器阵列，针对矩阵和向量乘法进行了调整，可执行INT4、INT8、Block FP12或Block FP16操作。此外，这些张量块可以级联在一起，支持大型矩阵。 ASIC：与更通用的芯片（如CPU和GPU）相比，ASIC芯片的定制化提供了更高的效率。ASIC的兴起引起了NVIDIA、AMD和英特尔等科技巨头的关注。行业可能会采用混合技术来推动创新和进步。例如，NVIDIA一直在开发自己的AI专用芯片，称为Tensor Cores。随着亚马逊、微软和百度等科技巨头探索定制ASIC，这项新技术显然将在AI处理中发挥重要作用。ASIC领域还持续在可扩展性、可负担性和实施方面开展攻关。 DPU： DPU服务于云计算，主要作用是提升数据中心等算力基础设施的效率，减少能耗浪费，进而降低成本。随着数据中心建设、网络带宽和数据量急剧增长，由于CPU性能增长速度放缓，为了寻求效率更高的计算芯片，DPU由此产生。例如，英伟达将Mellanox的ConnectX系列高速网卡技术与自己的已有技术相结合，于2020年正式推出了两款DPU产品BlueField-2 DPU和BlueField-2X DPU。（二）异构算力的主要应用场景异构计算利用不同类型处理器的独特优势，例如GPU的并行计算能力和FPGA的定制化硬件设计能力，从而提高计算性能和功率效率。它在许多领域都有广泛的应用，如人工智能领域的深度神经网络训练，科学计算领域的模拟和数据处理，物理仿真和计算机视觉等。此外，异构计算还可应用于移动设备和嵌入式系统等领域，在这些领域中，功率和性能都是非常重要的因素。异构计算可以让这些设备更加智能化，同时提高它们的性能和功率效率。总结来看，异构算力的主要应用场景包括： 机器学习和深度学习：异构计算可以利用AI算力的并行处理能力，加速机器学习和深度学习的训练和推理过程。例如，使用GPU进行大规模的矩阵运算，可以大幅提高训练速度和模型准确率。 高性能计算（HPC）等科学计算场景：在科学研究、工程仿真等领域，需要处理的数据量巨大，传统的CPU计算已经无法满足需求。异构计算可以利用CPU和GPU联合的方式，实现更高的计算性能和效率。 图形处理渲染和游戏开发：异构计算可以利用AI算力的并行处理能力，实现图像的实时渲染和处理。例如，在游戏开发中，利用GPU卡加速可以实现更加真实的光影效果和更高的帧率。 物联网（IoT）：物联网设备数量庞大，需要进行大量的数据处理和管理。通过异构计算，可以实现物联网设备的智能化管理和数据处理，提高物联网应用的效率和可靠性。异构计算可以利用CPU+GPU或者CPU+FPGA+GPU等异构算力联合的方式，实现更高的计算性能和效率。 区块链：区块链技术需要保证交易的安全性和可靠性，同时需要处理大量的交易数据。异构计算可以利用FPGA

点击免费查看完整报告

2023分布式异构智能算力的管理和调度技术研究报告

分布式异构智能算力的管理和调度技术研究报告总结

主要内容概览

关键技术要点

行业趋势与挑战

结论

你可能感兴趣

分布式算力感知与调度技术白皮书

面向新型配电系统柔性互联和灵活互动的分布式智能电网技术体系

【财联社早知道】我国最大规模科学智能集群接入全国一体化算力网，分析师称AI算力仍将是科技巨头竞相争抢的战略性稀缺资源，这家公司的算力网调度与市场运营平台已实现东数西算枢纽等供给方的标准化接入-20260429

【点金互动易】 AlKimi 这家公司核心产品可对算力调度、调优进行观测分析，在一体化数据模型等积累了大量实践;这家公司一站式AI应用平台支持多种大模型的接入与纳管，AIGC相关技术应用已产生收入

2023分布式超大规模MIMO技术研究报告

国产适配：异构算力管理与成本优化

异网异构边缘算力系统总体架构研究报告

2023基于混合增强智能的电网优化调度决策方法报告

AI大模型与异构算力融合技术白皮书

信息技术区块链和分布式记账技术智能合约实施规范......

2023分布式异构智能算力的管理和调度技术研究报告

你可能感兴趣

分布式算力感知与调度技术白皮书

面向新型配电系统柔性互联和灵活互动的分布式智能电网技术体系

【财联社早知道】我国最大规模科学智能集群接入全国一体化算力网，分析师称AI算力仍将是科技巨头竞相争抢的战略性稀缺资源，这家公司的算力网调度与市场运营平台已实现东数西算枢纽等供给方的标准化接入-20260429

【点金互动易】 AlKimi 这家公司核心产品可对算力调度、调优进行观测分析，在一体化数据模型等积累了大量实践;这家公司一站式AI应用平台支持多种大模型的接入与纳管，AIGC相关技术应用已产生收入

2023分布式超大规模MIMO技术研究报告

国产适配：异构算力管理与成本优化

异网异构边缘算力系统总体架构研究报告

2023基于混合增强智能的电网优化调度决策方法报告

AI大模型与异构算力融合技术白皮书

信息技术 区块链和分布式记账技术 智能合约实施规范......

信息技术区块链和分布式记账技术智能合约实施规范......