大模型混合云十大创新技术 华为云计算技术有限公司尚海峰尤鹏胡玉海李金锋徐强杨志勇王飞徐俊曹朝王晨徐礼锋许田立王立王宁韩坤马奇徐田袁军红李品新马红伟罗翕麦宇庭唐盛军孙思东党致远黄立王志宇蒋东生赵培森王兴昊刘静赵军曾祖祥王荣仕毛金哲张煜张秦涛吴信威金钊蒋昱鑫王冰朱艺徐航王瑞主编单位编委顾问编 审 组 成 员参编主要专家责任编辑 (排名不分先后) 目录D I R E C T O R Y AI-Native存储3 创新三层架构,数据快存快恢 05-091 多样性算力调度 全局统筹,提升算力效率 19-234 10-132 云边协同 海量边缘管理,模型边用边学 融合优化,实现高效算子供应5 39-428 精细视觉神经网络 对齐细节,精准识别 629-34 全链路数据工程 8大创新工具,构建高质量数据集 43-469 735-38 统一数据编码 创新多模数据统一编码,预测最优解 47-5410 立体检测,智能拦截 多样性算力调度 全局统筹,提升算力效率 1.1 业界难题 AI资源碎片问题:单个训练/推理作业所需要的AI算力卡数典型值为1、2、4、8、n*8,大于8卡的作业,需运行在完全空闲的节点上。随着多个任务的异步结束,集群中会出现资源碎片,即便整体上存在足够的资源,需要多卡的作业也无法运行,导致资源利用率降低。 在AI场景中,CPU扮演着指挥统筹与核心控制的角色,GPU/NPU负责核心AI大模型的并行高性能训练与推理计算。考虑到算力的供应多样性与长期可获得性,以x86和ARM为代表的通用算力和以GPU和NPU为代表的AI算力,将长期协同发展与配合使用,因此需要考虑异构算力的统一调度问题: 推理算力利用率提升的挑战 AI算力多团队共享问题:集团内部需要考虑不同部门多个彼此隔离的AI小集群可能导致的整体资源利用率较低的问题,资源池化按需调度是提升资源利用率的有效办法。 异构算力管理的挑战 资源管理:集群管理的资源从通常的CPU+内存,变为CPU+内存+AI算力卡等多种异构硬件管理。除了多种型号的AI算力卡、同型号多代AI算力卡、还有整卡与切分卡的统一管理调度。 算力复用:在推理场景,需要实现推理卡的多路任务并行复用,即多个算法共用一张AI卡,以提升算力利用率。 拓扑感知:大模型分布式训练过程中,AI算力卡之间或AI服务器之间的带宽并不完全一致。因此调度时,必须考虑异构资源的拓扑关系,才能获得最佳的训练效率。 分布式训练调度的挑战 资源争夺冲突死锁:传统容器调度逻辑都是按照单个容器依次调度。而分布式AI训练容器必须同时运行以进行集合通信,且只能同时调度成功或调度失败。否则,多个分布式作业在资源调度层面出现争抢并导致死锁,所有训练任务都无法得到有效调度。 1.2 多样性算力调度:全局统筹,提升算力效率 华为云多样性算力调度基于云原生集群管理框架,并融入面向AI场景的Volcano调度框架,实现分布式AI任务调度增强。同时还针对算力资源的利用率提升做了系列创新优化,包括:逻辑子池、队列优先级、拓扑感知、整柜亲和、算力切分等。 多样算力资源池化 传统的K8s集群管理系统在启动容器时,会将负载调度至合适的节点。但其调度的维度仅支持“CPU+内存”,无法识别和调度“GPU/NPU”这种异构算力资源。 分布式AI训练的组调度 在分布式AI训练中,需要通过容器组调度算法,来避免多个分布式任务因争抢资源而导致任务死锁。华为云设计了Volcano调度框架,实现了组调度功能并做了更多能力增强: 统一的作业管理:提供作业的全生命周期管理,支持所有主流的计算框架,如Pytorch、MPI、Horovod、Tensorflow、Spark-op-erator、 Flink-operator等。 丰富的高阶调度策略:公平调度、任务拓扑调度、基于SLA调度、作业抢占、回填、弹性调度、混部等。 因此华为云引入了K8s的Device-plugin调度插件框架,并开发了AI异构算力插件,实时获取和上报各异构资源池中AI算力的状态,辅助完成异构算力的混合调度。如常见的推理任务会包含LB负载均衡(通用算力调度)、AI推理多实例(AI算力调度),两者共同配合完成。 细粒度的资源管理:提供作业队列、队列资源预留、队列容量管理、多租户的动态资源共享。 调度性能优化:结合Kubernetes提供扩展性、大吞吐等多项优化。 算力切分 在部分AI推理场景(如视频推理)中,单NPU卡如果只承载1个AI推理应用,会出现富裕算力的空置浪费。可以将一张NPU卡切分为多张vNPU卡,每个vNPU卡运行单独的AI推理应用,才能最大程度利用AI算力。 在K8s设定的AI资源调度框架中只能为容器绑定整个AI卡资源,无法灵活绑定如1/2、1/4 NPU卡资源。因此,华为云开发了增强调度逻辑,在同一个集群中,实现了对NPU整卡和更小颗粒度的vNPU卡的灵活调度,确保为AI任务匹配颗粒度最合适的NPU资源,大幅提升NPU的算力利用率。 1.3 价值收益 云边协同 海量边缘管理,模型边用边学 2.1 业界难题 随着AI大模型逐步应用到煤矿生产、电力巡检、工业质检等工业场景,边缘实时推理的需求日益凸显。业界也在思考如何解决规模化部署与运维的效率问题,并构建异常样本反馈与模型的快速迭代机制,让模型常用常新。 模型持续迭代:生产工况或者应用现场情况复杂并多变,部分工业生产环境中缺少足量的异常样本进行训练,所以原始模型精度有限,并且随着使用环境的变化,原始模型精度会下降。因此,模型精度需要不断地通过异常现场数据来进行迭代训练,不断地升级模型,实现精准推理。 海量边缘管理:面向工业场景的海量边缘推理部署需求,传统人工部署管理的方案,工作量大且上线慢。缺乏自动化、可视化的管理技术,将导致每一次后续模型迭代都需要重复操作,管理效率极低。 综上,需要创新模型训练、推理部署、长期迭代的办法,才能帮助政企行业真正实现AI智能化的规模化应用。 2.2 云边协同:海量边缘管理,模型边用边学 华为混合云推出云边协同方案,支持中心训练、边缘推理以及模型边学边用、持续迭代。 中心训练:基于混合云的ModelArts AI开发平台和盘古大模型,形成一站式的场景化模型训练工作流。通过采集原始生产样本数据和模型运行中产生的存疑样本数据,使用工作流高效训练模型,并统一管理模型版本。 边缘推理:模型按需部署到指定边缘节点,完成推理识别到告警处置的端到端业务闭环,推理和处置结果同步上报至中心云平台,实现中心统一管控。 边缘节点的固件版本等。中心云可高效实现10万+海量边缘节点的纳管。 AI模型部署:中心云将AI场景化工作流训练好的模型,一键式部署到指定边缘节点。可实现分钟级模型持续更新,大幅降低上线时间和运维成本。 边用边学:边缘侧将AI误报、新增场景样本数据反馈至中心侧统一分析,重新训练升级模型,从而构建高效反馈-迭代升级-部署应用的循环升级机制。 离线可用性:当边缘节点与中心的连线中断后,边缘业务可正常运行;节点故障或业务异常后,可秒级恢复业务。 海量边缘管理 面向海量边缘,云边协同提供统一的部署、管理、运维能力: 模型边用边学 基于云边协同架构,通过持续异常/错误样本的回传和模型迭代,实现AI模型边用边学、快速迭代、持续升级、能适应新的工况和数据变化。 设备接入与资源管理:边缘节点以VPN或云专线方式接入边缘管理平台,注册后管理员可以通过可视化界面,统一对资源进行管理,包括激活、查看、注销边缘节点,以及一键升级 边缘回传:在AI服务推理过程中,通过回传接口将推理过程中识别的异常/错误样本回传到中心侧AI应用平台。 样本标注:中心AI应用平台对异常/错误样本进行快速复核和在线标注后,回传给中心AI训练平台。 模型迭代:中心AI训练平台的工作流,调用标注过的异常/错误样本数据对模型进行再训练和评估,以提高模型的准确性和泛化能力。然后将新模型快速推送部署回边缘设备,更新推理模型,使得模型学习到的最新知识能够立刻应用于生产,实现边用边学。 2.3 价值收益 创新三层架构,数据快存快恢 3.1 业界难题 随着AI大模型参数量的增加,训练集群规模也不断扩大,存储成为制约大模型训练效率提升的关键瓶颈: 生大量开销,当恢复时所有计算节点都来读取Checkpoint文件,保存和恢复通常会成为瓶颈。目前业界典型的AI服务器年故障率10%至17%,大规模集群训练单次故障恢复需数小时,其中检查点的加载耗时占65%。 海量小文件加载慢:10亿训练原始数据加载时间超过10小时。 传统存储从架构上就已经难以应对超大规模AI集群数据快读、Checkpoint快存、故障快速恢复的需求,业界亟需面向AI大模型场景更专业的存储。 故障影响大、恢复慢,造成算力空转:分布式训练中出现故障时,训练集群需要从存储中读取上一Checkpoint(训练任务检查点)重新执行训练。Checkpoint读取过程本身会产 AI原始数据集通常存储在大容量对象存储上,然后通过单机拷贝到AI服务器的本地盘,传统的存储架构下,这一过程普遍需要10小时才能完成10亿训练原始数据的读取,无法满足AI大模型的性能要求。 通过分布式数据节点的云原生弹性扩缩,将带宽从GB级提升到TB级,进而充分发挥L1服务端TB级的内存缓存带宽优势,实现比NVMeSSD硬盘层更大的吞吐能力。 通过分布式元数据节点的云原生弹性扩缩,将IOPS从50万级提升到千万级,轻松应对海量亿级小文件并发处理。 华为云AI-Native存储,基于OBS数据湖、SFS Turbo高性能并行文件系统和AI Turbo加速的创新三层架构,系统性地应对大模型训练场景的挑战。 AI Turbo:加速训练检查点保存和加载 AI Turbo SDK部署到训练进程中,感知和协同模型参数切分与并行策略、故障分类等,最大程度减少Checkpoint保存耗时和故障恢复加载耗时,减少训练任务阻塞。 OBS数据湖:为数据采集、数据预处理、训练、推理、模型部署全流程提供海量数据的统一存储底座。 保 存 阶 段 : 如 下 图 所 示 , 采 用 两 阶 段 写 的Checkpoint异步持久化方案,最大程度减少耗时,避免训练任务长期阻塞。 SFS Turbo高性能并行文件系统:作为OBS访问的加速层,满足核心训练环节海量小文件高性能、低时延的加载诉求。 AI Turbo加速:将AI Turbo SDK部署到训练节点,与AI框架配合让存储主动感知模型的参数切分、冗余数据策略、训练任务的故障分类、AI训练平台的容器部署与回收等,为大模型训练和Checkpoint快存快恢加速。 SFS Turbo:加速训练数据集访问 AI训练数据集通常以KB级的小文件居多,因此AI训练访问数据集时存在缓存友好特征。 在业务访问数据集文件时,SFS Turbo会将NVMe SSD存储池中的数据文件缓存到L1服务端分布式内存缓存中,减少AI训练访问数据集的时延,同时在大规模训练集群并发访问数据集时: 阶段①写本地客户端:各节点将自己的Checkpoint高速同步写入SFS Turbo客户端本地内存缓存,向上返回成功。 阶段②Checkpoint去重:将DP(数据并行)维度上Checkpoint相同的多个GPU/NPU作为一组,在组内推举1个代表节点执行Checkpoint存储持久化操作,将DP倍数写操作变为1次,有效降低对存储的带宽和容量的需求。 退到使用远端SFS Turbo服务端持久化存储上的Checkpoint。如下图所示,为避免所有GPU/NPU卡同时加载Checkpoint导致存储带宽成为瓶颈,选择代表节点替代所有节点执行加载Checkpoint操作,然后再利用空闲的计算集群的参数网络将Checkpoint广播到组内其余节点上,从而显著降低大规模训练集群故障恢复过程对远端SFS Tur