优化计算资源,支撑AI应用 概览标签:算力、算力调度 Computing Power Scheduling Platform Industry 計算力スケジューリングプラットフォーム業界 报告提供的任何内容(包括但不限于数据、文本、图表、图像等)均系头豹研究院独有的高度机密性文件(在报告中另行标明出处者除外)。未经头豹研究院事先书面许可,任何人不得以任何方式擅自复制、再造、传播、出版、引用、改编、汇编本报告内容,若有违反上述约定的行为发生,头豹研究院保留采取法律措施、追究相关人员责任的权利。头豹研究院开展的所有商业活动均使用“头豹研究院”或“头豹”的商号、商标,头豹研究院无任何前述名称之外的其他分支机构,也未授权或聘用其他任何第三方代表头豹研究院开展商业活动。 头豹研究院 研究背景 01异构算力调度面临的挑战: 随着人工智能技术的迅猛发展,全球范围内对算力的需求呈现指数级增长,因此需要算力调度来实现跨地域、跨平台的算力资源整合与优化调度。 ◆异构算力调度面临多重核心挑战:资源异构性与软件环境碎片化显著增加调度复杂性;跨架构任务迁移成本高导致效率低下;缺乏统一调度标准引发资源错配与利用率低等。 研究目标 02国内主要的算力调度平台: •了解人形机器人硬件端及软件端的发展情况•了解人形机器人不同类型厂商的发展情况 ◆国家级算力调度平台多由政府主导或运营商/头部企业建设,强调跨区域协同与市场化交易;省级平台覆盖长三角、成渝、京津冀等重点区域,结合本地产业需求;市级平台则聚焦本地AI、智能制造等场景。 本报告的关键问题 •梳理算力调度及异构算力调度的相关技术与联系•梳理国内主要算力调度平台•梳理全球主要的开源算力调度平台 03主流的开源算力调度技术平台: ◆国内算力调度平台或基于开源算力调度技术平台打造,openFuyao作为新兴的多样性算力调度平台,在国产化适配支持上具有优势,而Kubernetes、Slurm等成熟项目则在云原生和HPC领域有深厚积累。 目录 ◆算力调度行业综述 ---------------------------05 •算力网络与算网融合综述---------------------------08 •异构算力的定义与分类---------------------------10 ---------------------------12 •异构算力调度面临的挑战 ---------------------------13 •国内主要算力调度平台---------------------------14 ---------------------------17 ◆方法论与法律声明---------------------------18 名词解释 ◆ASIC(Application-SpecificIntegratedCircuit):专用集成电路,是为特定目的设计制造的集成电路。相比通用处理器,ASIC在执行特定任务时效率更高、速度更快。◆CUDA(ComputeUnifiedDeviceArchitecture):由NVIDIA开发的一种并行计算平台和应用程序接口模型,它允许开发者使用NVIDIA的GPU进行通用计算。◆DPU(DataProcessingUnit):数据处理单元,是一种新型的可编程处理器,主要用于数据中心内的网络、存储和安全等数据处理任务。◆DSA(Domain Specific Architecture):领域特定架构,指专门为某一类应用或算法设计的计算机架构,以提高这些特定应用的性能和效率。◆EFLOPS(ExaFLOPS):每秒百亿亿次浮点运算,是衡量计算机性能的一个单位,表示计算机每秒钟可以完成多少次浮点运算。◆FPGA(Field-ProgrammableGateArray):现场可编程门阵列,是一种硬件可重构的体系结构,用户可以根据需要通过软件定义来配置其逻辑功能。◆GPU(Graphics Processing Unit):图形处理单元,最初设计用于加速图形渲染,现在也广泛应用于科学计算、机器学习等领域。◆Hadoop:一个开源框架,能够对大量数据进行分布式处理。它主要由HDFS(Hadoop Distributed FileSystem)和MapReduce两部分组成。◆Kubernetes:一种自动化部署、扩展和管理容器化应用程序的开源系统,它使得用户能够更方便地管理和调度容器化的应用。◆OpenCL(OpenComputingLanguage):一种开放标准,用于异构计算,支持CPU、GPU及其他类型的处理器在同一平台上协同工作。◆PyTorch:由Facebook开发的深度学习框架,以其灵活性和易用性著称,特别适合研究和快速原型开发。◆TensorFlow:谷歌开源的第二代人工智能学习系统,被广泛用于机器学习和深度学习的应用开发。◆TPU(Tensor Processing Unit):张量处理单元,是Google为加速其TensorFlow机器学习框架而设计的定制ASIC芯片。 Chapter1算力调度行业综述 算力调度行业综述——算力的定义与分类 •算力(ComputingPower)是指计算机设备或数据中心处理信息的能力。根据计算方式、算力核心、应用领域分类,算力可分为通用算力、智能算力和超算算力 算力(ComputingPower)是指计算机设备或数据中心处理信息的能力,是硬件和软件协同执行计算任务的综合性能。狭义上,算力通常用每秒浮点运算次数(FLOPS)衡量,例如TFLOPS(万亿次/秒)、PFLOPS(千万亿次/秒)。广义上,算力还包括数据存储、网络传输、任务调度等能力,是支撑数字经济发展和科技创新的核心生产力。 算力的分类 ◼根据计算方式、算力核心、应用领域,算力可分为:1)基础通用算力:由基于CPU的服务器提供,适用于日常通用计算任务;2)智能算力:基于GPU、FPGA、ASIC等芯片的加速计算平台,专为人工智能任务设计;3)超算算力:由超级计算机或高性能计算集群提供,解决复杂工程问题。 ◼算力作为数字时代的“新型电力”,是推动经济高质量发展和科技创新的核心驱动力,其重要性体现在:1)数字经济基石:算力是数据处理的核心能力,直接影响数字经济效率;2)科技创新驱动力:支撑AI、区块链、基因组学等前沿领域的突破;3)社会基础设施:算力如同电力一样,已成为现代社会运行的底层资源。 算力调度行业综述——算力规模与数据生产总量 •近年来,中国算力规模快速增长,由2020年的135EFLOPS增长至2024年的280EFLOPS,2024年智能算力占比达32%;2024年中国数据生产总量达41.06ZB,同比增长25%,增长主要受到智能应用的推动 ◼近年来,中国算力规模快速增长,算力已发展成为集信息计算力、网络运载力、数据存储力于一体的大规模计算资源。根据工信部数据,截至2024年底,中国算力总规模达到280EFLOPS,其中智能算力占比32%(90EFLOPS)。稳居全球第一梯队。 ◼数据是算力的需求源,算力是数据的价值放大器。二者在政策引导、技术突破和市场需求的共同作用下,正加速构建数字时代的“新生产力”,为人工智能、工业互联网、智慧城市等场景提供核心支撑,推动中国经济向高质量发展转型。2024年,中国数据生产总量达41.06泽字节(ZB),同比增长25%,增速较去年提高2.56个百分点。数据生产总量的快速增长主要受到智能应用的推动,随着人工智能快速发展,用于开发、训练和推理的数据量同比增长40.95%。智能家居、智能网联汽车等智能设备数据增速位居前列,分别为51.43%、29.28%。 行业研究| 2025/06 算力调度行业综述——算力网络与算网融合综述 •算力网络是一种基于现有互联网基础设施的新型信息网络,其核心目标是通过标准化标识、智能调度和弹性网络能力,将不同地域、不同主题的算力资源互联互通,实现按需分配、实时感知、灵活调度 ◼算力网络(Computing Power Network)是一种基于现有互联网基础设施的新型信息网络,其核心目标是通过标准化标识、智能调度和弹性网络能力,将分散在不同地域、不同主体(如企业、数据中心、边缘节点等)的算力资源(如CPU、GPU、FPGA、ASIC等)互联互通,实现算力资源的按需分配、实时感知、灵活调度,最终让用户像使用水电一样便捷地获取算力服务。 ◼算网融合则是计算资源与网络资源在多个层面(硬件、软件、平台、应用等)的深度整合,目标是实现算力的“即插即用”和网络的“按需适配”,最终达成“网络无所不达、算力无所不在、智能无所不及”的愿景。它更强调技术层面的协同优化,而非单纯的基础设施建设。 ◼算力网络是算网融合的基石,算力网络为算网融合提供了底层基础设施(如跨域组网、算力标识),而算网融合是算力网络的高阶目标。此外,算力网络侧重“资源调度”,算网融合则进一步追求“能力共生”,例如通过网络感知算力状态、通过计算优化网络路径。 (接上页——算力网络与算网融合综述) •算网融合则是计算资源与网络资源在多个层面(硬件、软件、平台、应用等)的深度整合,目标是实现算力的“即插即用”和网络的“按需适配”,最终达成“网络无所不达、算力无所不在、智能无所不及”的愿景 ◼中国移动的算网融合架构从逻辑上分为算网基础设施层、编排管理层和运营服务层。其中,1)算网基础设施层:作为算力网络的物理底座,依托全光网络与IP承载技术,构建云-边-端算力的高速互联通道,保障数据的高效、无损流动;2)编排管理层:作为算力调度的核心中枢,融合人工智能、大数据等技术手段,实现对底层算力资源的统一纳管、动态编排与智能优化,从而提升算力网络的整体效能;3)运营服务层:作为面向用户的服务能力平台,通过整合算网资源与场景需求,提供一体化的算力服务供给,使客户可便捷获取一站式服务并享受智能化、无感化的使用体验。 算力调度行业综述——异构算力的定义与分类 •异构算力是指通过结合两种或多种不同类型处理器或控制器架构(如CPU、GPU、FPGA、ASIC等)的计算单元,构建一个协同工作的系统,以发挥不同硬件架构优势,提升整体计算性能、能效比和灵活性 更强的灵活性 更强的性能 ◼异构算力是指通过结合两种或多种不同类型处理器或控制器架构(如CPU、GPU、FPGA、ASIC等)的计算单元,构建一个协同工作的系统,以充分发挥不同硬件架构的优势,提升整体计算性能、能效比和灵活性。其核心目标是通过异构资源的互补性,解决单一架构在性能、灵活性或成本上的局限性。 ◼依据指令的复杂度,处理器引擎分为CPU、GPU、FPGA、DSA和ASIC等,如图,从左向右,单位计算依次复杂,性能逐渐提升,但灵活性不断降低。 ◼狭义的异构计算聚焦于单一计算系统内部(如服务器或终端设备)通过集成多种类型处理器(如CPU、GPU、FPGA等)实现硬件协同和任务分工,以提升性能与能效;而广义的异构计算则突破物理边界,通过跨设备、跨网络的多层级技术整合(包括硬件、软件、编程框架、通信协议等),实现异构资源的高效调度与统一管理,强调对复杂场景下多样化计算需求的全面适配。狭义侧重硬件架构的协同优化,广义则追求跨领域、跨层级的系统级融合与生态化发展。 算力调度行业综述——算力调度平台与异构计算调度系统 •算力调度平台是一种面向多类型计算资源(CPU、GPU、存储、网络等)的统一调度系统,而异构计算调度系统是专门针对异构硬件架构(CPU、GPU、FPGA、ASIC等)的任务调度系统 “算力调度平台”与“异构计算调度系统”的关系 异构计算调度系统 构建于基础能力之上◼报告完整版/高清图表或更多报告:请登录www.leadleo.com 算力调度平台◼如需进行品牌植入、数据商用、报告调研等商务需求,欢迎与我们联系 基础能力首席分析师:oliver.yuan@leadleo.c