您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[浪潮云海]:2025年一云多芯算力调度研究报告 - 发现报告

2025年一云多芯算力调度研究报告

AI智能总结
查看更多
2025年一云多芯算力调度研究报告

Research Report on Computing Power Scheduling inMulti-Arch Cloud Systems 2024年12月 目录CONTENTS 前言04 06 一云多芯的背景和意义 计算场景多样化驱使算力体系架构向异构多元化发展一云多芯成为解决多芯共存问题的必然要求一云多芯内涵深入演进,对算力调度提出了更高的要求算力量化成为重要关注点,是应用跨架构等价运行的基础国家支持云计算产业高质量发展,一云多芯成为业内关注热点0607070708 一云多芯的发展路径和产业现状08 一云多芯的发展路径一云多芯发展面临的挑战0810 一云多芯发展理念11 121313场景驱动、系统设计分层解耦、开放标准迭代创新、持续演进 一云多芯算力调度实践探索13 芯片及整机层15 服务器操作系统层17 云操作系统层20 基础应用层23 业务应用层25 案例实践27 通信云农信云机场云272931 总结与展望33 前言 智慧时代,计算力就是生产力。计算场景多样化驱使算力体系架构向异构多元化方向发展,“一云多芯”成为解决多芯共存问题的必然选择,成为云计算产业的核心关注点。随着近年来信息技术产业发展迈入新阶段,业内对于一云多芯相关技术的研究及实践也在不断深入,用户对于一云多芯的要求也在不断提升。但是,由于异构芯片间指令集千差万别、性能差异显著,异构节点间呈现非对等的特性,其落地挑战巨大。 一云多芯的最终目标是支撑业务应用在不同架构处理器之间低成本、自由切换。在此背景下,本报告基于“场景驱动、系统设计”、“分层解耦、开放标准”以及“迭代创新、持续演进”的发展理念,描绘了三阶段持续演进的一云多芯发展路线。 为实现一云多芯的最终目标,算力作为一项核心资源,其调度能力至关重要。一云多芯算力调度倡导构建分层解耦、开放标准的整体架构,从基础设施到应用层的各层级能够独立运行、独立演化,同时支持开放的协议、标准实现层间高效协同,兼容多样化的硬件平台,从而提升整体系统的灵活性与可扩展性。本报告针对算力调度架构中的各个层级的实践探索进行了分析研究。 最后,本报告对一云多芯的未来进行了展望。一云多芯势在必行、任重道远,不仅需要持续的原创性、引领性技术创新,也需要业内广泛联合和生态共建,形成标准规范,共同推进“一云多芯”向第三阶段迈进。 本报告参与编制单位(排名不分先后) 济南浪潮数据技术有限公司浪潮电子信息产业股份有限公司中国软件评测中心(工业和信息化部软件与集成电路促进中心)腾讯云计算(北京)有限责任公司麒麟软件有限公司飞腾信息技术有限公司浪潮计算机科技有限公司龙芯中科技术有限公司统信软件技术有限公司瀚高基础软件股份有限公司金风慧能科技有限公司江苏博云科技股份有限公司 编写人员(排名不分先后) 张东莫映华亓开元刘健刘俊强徐冠群田峰邱运涛韩君辉顾剑黄爽左德华魏磊高雪玉李志鹏张百林张远斌郭振吕广杰赵志祥郑文帅孙锐克都静妍汤飞胡晓英乔霖甄鹏王伟林培峰焦磊胡海泉潘雅辰 一云多芯的背景和意义 计算场景多样化驱使算力体系架构向异构多元化发展 智慧时代,计算力就是生产力。随着行业“上云用数赋智”进程的不断加速和深化,应用场景呈现多样化趋势,大数据、科学计算、人工智能训练、人工智能推理等新型计算模式不断涌现。数据精度横向扩展、数据量级纵向增长,对计算的实时性要求也不断提升,传统的通用处理器难以满足高精度、高数据量及实时性需求,给计算架构带来了巨大的挑战。 在计算场景多样化的需求驱使下,计算架构朝向多元化方向演化。通用处理器、通用加速处理器、神经拟态芯片、可编程芯片、领域专用加速芯片等多种计算单元不断发展,以满足不同场景下的计算需求。异构多元的算力体系架构不仅能够充分发挥不同计算单元的优势,提升计算效率,也能够构建灵活互补的计算体系,成为越来越多客户的选择。 一云多芯成为解决多芯共存问题的必然要求 中央处理器(CPU)作为应用最广泛的算力器件,多厂商、不同架构叠加组合造成的多元异构现象尤为突出。Intel、AMD 等 X86 架构仍是数据中心的主导力量,但占比逐步缩减;ARM 架构凭借运算核心多、功耗低等优势,发展势头强劲;RISC-V 架构凭借其开源架构及灵活可定制性受到关注。伴随计算场景的多样化,数据中心正从以 CPU 为中心,向 GPU、DPU、XPU 等多种加速计算芯片共存的异构算力体系发展。同时,在全球产业链重构的背景下,我国核心计算器部件也迎来黄金发展期,但因起步较晚、技术路线各异、发展水平不一,多元异构并存的情况将会长期存在。 随着近年来生成式人工智能等技术的爆发式增长,利用云操作系统实现对算力的动态调整和弹性供给、提升资源利用率成为重要趋势。云计算作为一种追求性价比的算力供给模式,在多元异构处理器功能、性能和可靠性存在差异的情况下,为满足高效稳定的技术需求、实现应用跨处理器低成本或自由切换,规避供应风险,保障关键业务长期稳定运行,“一云多芯”成为云计算发展的必然趋势。 一云多芯内涵深入演进,对算力调度提出了更高的要求 随着多元异构算力逐渐向纵深发展,行业客户对一云多芯提出了更高的要求,支撑应用高效适配、无损迁移与性能调优成为重要关注点。行业客户对于一云多芯的需求不再限定于基础的多芯资源的管理和调度,而是衍生了因不同架构之间差异导致的应用性能优化需求、低成本的应用跨架构迁移需求,以及众多金融客户关注的“算力标准化”问题,即希望提供面向应用的资源供给分配标准以及不同技术路线之间的高可用迁移方法,从而降低应用适配改造成本、提升资源弹性供给效率。 算力量化成为重要关注点,是应用跨架构等价运行的基础 应用的跨架构等价运行中的“等价性”主要体现在功能的等价性和性能的等价性,其目的是保障应用的跨架构高效稳定运行,从而实现用户体验的一致性。功能的等价性主要面临的挑战是异构处理器之间指令集的差异,对于操作系统及应用程序的跨架构可运行性提出了更高的要求;性能的等价性主要面临的挑战是异构处理器之间性能的差异,通过建立科学、全面的算力量化评估模型,准确分析不同架构的处理能力、运算速度等方面的特性,为应用在跨架构运行时提供资源分配(例如 CPU、内存、副本数等)的依据,成为保障其在不同架构下性能等价的有效方法。 国家支持云计算产业高质量发展,一云多芯成为业内关注热点 早在 2021 年,工业和信息化部制定的《新型数据中心发展三年行动计划》中就提出,要推动 CPU、GPU 等异构算力提升,逐步提高自主研发算力的部署比例,推进新型数据中心算力供应多元化;2023 年 10 月,工业和信息化部等六部门印发《算力基础设施高质量发展行动计划》,提出要推动算力结构多元配置,推动不同计算架构的智能算力与通用算力协同发展,满足均衡型、计算和存储密集型等各类业务算力需求。中国人民银行印发的《金融科技发展规划(2022-2025)》中提出,要切实保障供应链稳定可靠,不断拓宽和加固多元化供应渠道,避免“单点故障”。《国务院关于加强数字政府建设的指导意见》中提出,要加强自主创新,加快数字政府建设领域关键核心技术攻关,构建智能集约的平台支撑体系。 业内也逐渐对“一云多芯”形成了广泛共识,并成为近年来的热点话题。浪潮云海首席科学家张东强调,“一云多芯”要解决不同类型芯片共存所带来的多云管理问题,真正形成一朵云,成为未来云计算平台的核心能力之一。赛迪顾问发布的《2023 中国私有云市场研究报告》中指出,“一云多芯”成为私有云的主流架构。 一云多芯的发展路径和产业现状 一云多芯的发展路径 一云多芯的最终目标是支撑用户业务在不同架构处理器之间的低成本切换或者自由切换。因此,基于以系统设计为核心的理念,采用以场景驱动的“硬件重构 + 软件定义”的融合架构,是数据中心体系结构的发展方向。一云多芯可以分三个阶段逐步演进,如下图所示。 混合部署、统一管理、统一视图 资源混部,即在同一个云平台中实现不同厂商、不同架构基础设施资源的统一部署,并实现统一池化管理、统一服务目录和统一监控运维,以可管理性为主要目标。 混合部署能够充分利用不同架构芯片的优势,满足不同类型业务对计算能力的差异化需求,为客户提供更加灵活、高效的资源调度策略,实现业务的灵活部署和快速迭代,从而提升资源的整体利用率,降低运营成本,增强市场竞争力。对于一些对信息安全要求较高的行业(例如金融、政务等),多芯策略可以避免单一架构的依赖,多样化的技术路线有助于保障系统安全性、可靠性的底线。 在第一阶段,用户通过离线迁移、手动切换等方式实现应用的跨架构迁移,这需要云厂商、操作系统厂商、应用厂商、数据库 / 中间件厂商的广泛配合。用户通常难以预估应用迁移的效果,用户体验的一致性难以保障,且操作复杂、运维低效,困难重重。 业务牵引、分层解耦、架构升级 在第一阶段的基础上,为进一步满足应用的低成本跨架构切换,第二阶段通过分层解耦和架构升级,实现应用的跨架构迁移、多架构混合部署和流量切分。 在第二阶段中,通过资源层、平台层和应用层的“分层解耦”设计,实现架构升级。在资源层面,通过跨平台的资源封装分发和迁移实现应用跨架构部署和迁移;在平台层面,实现有状态 / 无状态应用的跨架构混合部署;在应用层面,可通过服务网格等技术实现应用的跨架构流量切分。 在该阶段,通过建立面向动态异构特征的算力量化框架,支持规格层、服务级、应用级算力测算,解决跨架构算力表征及等价刻画问题;设计等价切换调度方法,基于同构节点优先及应用副本数 / 规格动态调整策略,保障算力一致;基于优雅退出、探针、重试、预热等技术实现应用跨架构平滑切换及线性弹性伸缩。 系统定义、建立标准、全栈多芯 一云多芯是芯与云的融合,是平台和生态的协同。在第三阶段,通过处理器、整机、云操作系统、数据库、中间件和应用等产业链上下游的共同配合,实现应用与处理器架构的彻底解耦,保障业务长期稳定运行,是一云多芯最终目标。 产业链上下游协同配合是第三阶段的核心驱动力。从上游的芯片及整机制造商,到中游的基础软件提供商,再到下游的各类应用企业及终端用户共同协同。芯片制造商及整机厂商进一步提升性能及 RAS(即可靠性、可用性和可维护性)设计,推动开放标准;基础软件提供商整合硬件资源,优化平台架构,实现对多芯资源的高效管理与调度,支撑应用的跨架构等价运行;下游应用企业及终端用户则从业务需求与使用体验角度出发,作为业务话语权的所有者,推动整个体系的优化。 在算力评估、标准和测评方面,研究多元异构算力量化评估方法,联合专业测评机构及产业链上下游,建立一云多芯行业标准。建立行业大生态,共同探索新的业务模式与应用场景,提升整个云计算产业链的活力。促进一云多芯的泛在落地,为数字经济的蓬勃发展提供坚实支撑。 一云多芯发展面临的挑战 一云多芯产业的发展面临技术、生态、应用等多方面的挑战,具体如下。 异构芯片指令集千差万别,应用适配效率低 不同芯片架构在指令集、寄存器、内存管理等方面存在显著差异,应用适配时,虽然可以通过交叉编译等方式实现面向不同架构的二进制的构建,但程序本身源码中架构相关部分 往往需要依靠专家经验人工识别并修改,导致效率低下。例如,C 语言中未明确规定“char”具体为“signedchar”还是“unsignedchar”,因此不同编译器对于该数据类型具有不同的实现,并且不会产生编译时错误。使用了该数据类型的代码构建的面向 X86 平台的二进制程序在运行时,可能会与 ARM 平台产生截然不同的结果。程序排错依赖于专家经验,导致应用适配效率低、难以推动。 异构芯片性能参差不齐,跨架构切换时性能难以保障 不同架构的芯片不仅在指令集方面存在千差万别,在性能方面也存在巨大差异。一方面,当应用跨架构迁移时,性能可能会出现较大波动,导致服务质量降低,无法达到预期;其次,迁移过程中,在新老副本切换流量过程中可能引发短暂的延迟、中断或错误,造成应用响应异常。因此,建立多层次的算力衡量体系,实现应用性能的精