行业研究公司研究宏观策略财报招股书会议纪要稀土低空经济 DeepSeek AIGC 智能驾驶大模型

EffectiveGPU技术白皮书

2025-04-01顺丰科技s***

AI智能总结

EffectiveGPU 技术白皮书总结

概述

在 AI 大模型推动产业智能化变革的新时代，算力资源的高效配置成为制约企业数字化转型的核心命题。当前大模型推理服务呈现指数级增长态势，异构算力管理效率不足已成为掣肘企业 AI 应用落地、抬高运营成本的关键瓶颈。传统的异构算力资源分配模式（如独占 GPU）存在资源孤岛、资源浪费和异构环境适配性不足三大核心痛点。

背景介绍

随着大模型技术与 AI 应用的爆发式增长，算力资源的高效利用成为产业核心诉求。传统 GPU 资源分配模式存在利用率低（平均<30%）、弹性不足（整卡独占）、生态碎片化（多厂商硬件/协议差异）等诸多痛点。基于创新的池化技术架构，实现异构算力细粒度切分、统一的调度接口与云原生支持，显著提升算力资源利用率（最高达 200% 显存超分能力），为 AI 训练、推理及科学计算场景提供灵活高效的算力基础设施支撑。

EffectiveGPU 的技术目标

EffectiveGPU 项目的主要目的是提供一个异构算力虚拟化平台，用于管理和优化大规模异构算力集群中的资源利用，在云原生环境中简化部署和利用如 GPU 这样的复杂硬件的过程，同时提高资源的利用效率和灵活性。具体技术目标包括：

异构设备管理：支持多样化异构设备（包括 GPU、NPU 等）的统一管理，实现跨 Pod 的设备共享机制。
设备共享与资源隔离：支持按核心利用率（百分比）和显存容量（MB）进行精确分配，实现资源分割带来的性能损耗控制在 5% 以内。
资源使用效率优化：采用精细化资源分割与协同管理机制，突破传统单卡独占模式，有效激活闲置 GPU 算力的动态复用能力。
统一调度的接口标准：计算框架服务提供层以调度器插件（vGPU scheduler-plugin）以及定制化的异构算力设备插件（device-plugin）的形式，实现整个集群对于异构算力资源的复用请求。
增强云原生支持：深度融合 Kubernetes 原生插件架构，强化容器化环境对 GPU 等异构计算资源的全生命周期管控能力。

EffectiveGPU 的优势

EffectiveGPU 作为自主研发的方案，在多方面展现显著优势：

免费特性：相比其他商业方案的付费模式，可节省软件授权成本。
功能支持：支持显存切分、算力切分以及支持显存超分和算力超分，突破硬件限制，提升资源利用率。
性能保证：添加池化层后最低仅下降 0.5% 性能，最大程度保证 GPU 性能。
运维与监控：提供运维与监控支持，且在公有云场景下无节点数限制，适用范围更广。

技术原理与架构

EffectiveGPU 提出了一套支持算力细粒度划分、节点内算力调度、算力跨节点协同调度的 GPU 池化和虚拟化技术架构，通过 GPU 池化和混合云技术方案，实现所有 GPU 资源的统一视图，按需申请和弹性扩缩容。核心组件包括：

egpu-core：实现 CUDA 的显存和算力切分、超分、优先级调度等功能。
egpu-device-plugin：异构设备抽象层，统一管理 NVIDIA/昇腾/寒武纪等厂商硬件资源。
egpu-webhook：将申请 egpu 的 pod 交由 egpu-scheduler 调度器接管调度。
egpu-scheduler：支持 Best-Fit/Bin-Packing 等策略，动态优化资源分配。
effective-gpu-webui：可视化和管理节点上的 egpu 资源分配和使用情况。

关键创新点

创新点一：针对多节点异构 GPU 的池化和调度实现：提出了一套支持算力细粒度划分、节点内算力调度、算力跨节点协同调度的国产化深度学习计算框架，从 AI 应用层、AI 框架层、服务层、系统软件层和硬件核心层实现了异构国产 AI 算力平台的池化及调度。
创新点二：抽象适配国产和海外 GPU 的统一调度接口：通过研究不同厂商算力接口，构建基于异构算力调度需求的统一接口标准，屏蔽厂商接口差异，实现异构算力调度的统一。
创新点三：实现 GPU 的显存和算力切分保障机制：提供细粒度的 AI 算力切分方式，解决云平台中算力资源浪费和无法共享的问题，通过 API 拦截实现切分，具有高自由度、强灵活性和高可扩展性。
创新点四：通过显存超分和优先级保证多任务并行运行：引入显存超分技术，通过优化显存分配策略和管理机制，使系统能够支持更多的任务同时运行；根据任务的紧急程度、资源需求和业务重要性等因素，对任务进行优先级划分，确保高优先级任务能够及时获得足够的资源支持。

实施部署与测试

云原生部署：设置部署 effective-scheduler 节点的 label，通过 Helm 部署 effective-gpu 组件，设置部署 effective-device-plugin 节点的 label，运行 E2E 测试。
基于 Volcano 调度器部署：Volcano 配置调整，部署 Volcano 组件，部署 effective-device-plugin 节点的 label。
部署功能测试：
- 使用整卡 EGPU：指定使用 1 张 egpu，显存和算力为默认（即：100% 显存，100% 算力）。
- 算力和显存切分：指定算力比例和显存大小，使用 2 张 egpu，每张 GPU 卡显存为 3000MB 和算力为 30%。
- 配置任务优先级：配置 pod 任务优先级，0 为高优先级，1 为低优先级，当出现算力竞争时，优先将算力分配给高优先级任务。

应用场景与解决方案

大模型推理服务场景：通过采用 EffectiveGPU 技术，可以显著提升资源利用率并降低运营成本。例如，已切换 EffectiveGPU 的 AI 生产模型服务，使用 28 张 GPU 卡部署 65 个服务，节省了 37 张卡。
测试服务集群场景：通过算力和显存的切分，使得测试服务能够根据不同的测试任务需求，灵活地分配 GPU 资源。例如，已切换 EffectiveGPU 的集群测试服务，使用 6 张测试用的 GPU 卡部署 19 个服务，节省了 13 张卡。
语音识别场景：通过优先级调度和资源超配，为语音识别提供了灵活的算力支持。可以根据语音识别任务的紧急程度和资源需求，动态地分配 GPU 资源，确保高优先级任务能够及时获得足够的资源支持，提高语音识别的服务质量。
适配国产算力的推理场景：EffectiveGPU 技术不仅支持主流的 GPU 硬件，还适配了华为昇腾、百度昆仑等国产 AI 算力平台。这为国产 AI 技术的应用和推广提供了有力的支持。

结论

GPU 池化技术针对云原生环境下异构算力的低利用率、跨节点共享不足以及调度灵活性受限等痛点，提供了完整的解决方案。通过统一调度接口、细粒度算力切分与跨节点资源协同，可大幅提升集群算力使用效率、降低 TCO 并提升业务部署的灵活性。本项目将持续深化对 GPU 池化和虚拟化技术的研究和实践，该技术已在中国某头部快递物流企业的 AI 平台等场景验证，未来将持续推动异构算力生态融合，不断完善云原生 AI 基础设施的技术体系与生态，助力数字经济发展。

顺丰科技团队2025年4⽉⽬录CATALOGUE 概述01 背景介绍02 GPU算⼒发展的挑战2.102EffectiveGPU的技术⽬标2.303GPU池化和虚拟化的价值2.202 技术原理与架构05 技术架构3.105Volcano集成⽅案3.307核⼼组件3.206GPU虚拟化实现原理3.508HAMi兼容⽅案3.407 关键创新点09 创新点⼀：针对多节点异构GPU的池化和调度实现4.109创新点三：实现GPU的显存和算⼒切分保障机制4.311创新点⼆：抽象适配国产和海外GPU的统⼀调度接⼝4.210创新点四：通过显存超分和优先级保证多任务并⾏运⾏4.412 实施部署与测试13 云原⽣部署5.113部署功能测试5.315基于Volcano调度器部署5.214使⽤整卡EGPU5.3.115算⼒和显存切分5.3.215配置任务优先级5.3.316 应⽤场景与解决⽅案17 ⼤模型推理服务场景6.117语⾳识别场景6.317测试服务集群场景6.217适配国产算⼒的推理场景6.417 结论18 附录：名词解释与参考资料19 1.概述在AI⼤模型推动产业智能化变⾰的新时代，算⼒资源的⾼效配置已成为制约企业数字化转型的核⼼命题。当前⼤模型推理服务呈现指数级增⻓态势，异构算⼒管理效率不⾜已成为掣肘企业AI应⽤落地、抬⾼运营成本的关键瓶颈。传统的异构算⼒资源分配模式（如独占GPU）分配模式暴露三⼤核⼼痛点：资源孤岛导致跨节点算⼒⽆法动态复⽤、粗粒度调度引发的资源浪费、以及异构环境适配性不⾜造成的管理复杂度攀升。针对⾏业痛点，本⽩⽪书介绍了EffectiveGPU池化技术（简称egpu），通过统⼀调度接⼝标准、算⼒细粒度切分与跨节点协同调度，可显著提升集群GPU等异构算⼒的利⽤率和管理效率，为云端及边缘场景提供更灵活、更⾼效的算⼒基础设施，并且适配国产AI算⼒平台。作为构建GPU池化和虚拟化的算⼒基础设施核⼼技术，深⼊融合⾃研的AI技术平台，为构建⾃主可控的智能计算体系提供关键技术⽀撑。 2.背景介绍 GPU算⼒发展的挑战2.1 随着⼤模型技术与AI应⽤的爆发式增⻓，算⼒资源的⾼效利⽤成为产业核⼼诉求。传统GPU资源分配模式存在利⽤率低（平均<30%）、弹性不⾜（整卡独占）、⽣态碎⽚化（多⼚商硬件/协议差异）等诸多痛点：算⼒资源利⽤率低在AI⼤模型运⾏环境中，常规的GPU分配机制多采⽤独占模式，导致计算资源空置问题突出。特别是在模型推理和测试验证环节，GPU设备的算⼒负荷率和显存使⽤率普遍处于低下状态。资源共享⼒度不⾜现有GPU资源调度⽅案通常局限于整卡分配，缺乏灵活的计算单元与显存空间切分机制。这种粗放式资源分配⽅式难以⽀撑多样化AI任务在单张加速卡上的并⾏执⾏需求。异构硬件适配困难当前加速器市场呈现多元硬件⽣态（涵盖GPU/NPU/及各类⾃研芯⽚），不同⼚商设备存在兼容壁垒，导致上层应⽤⾯临多平台适配成本⾼企的挑战。 GPU池化和虚拟化的价值2.2 基于创新的池化技术架构，实现异构算⼒细粒度切分、统⼀的调度接⼝与云原⽣⽀持，显著提升算⼒资源利⽤率（最⾼达200%显存超分能⼒），为AI训练、推理及科学计算场景提供灵活⾼效的算⼒基础设施⽀撑： EffectiveGPU技术⽩⽪书资源使⽤效率优化采⽤精细化资源分割与协同管理机制，突破传统单卡独占模式，有效激活闲置GPU算⼒的动态复⽤能⼒。统⼀调度的接⼝标准计算框架服务提供层以调度器插件（vGPU scheduler-plugin)以及定制化的异构算⼒设备插件（device-plugin)的形式，实现整个集群对于异构算⼒资源的复⽤请求。增强云原⽣⽀持深度融合Kubernetes原⽣插件架构，强化容器化环境对GPU等异构计算资源的全⽣命周期管控能⼒。 EffectiveGPU的技术⽬标2.3 EffectiveGPU项⽬的主要⽬的是提供⼀个异构算⼒虚拟化平台，⽤于管理和优化⼤规模异构算⼒集群中的资源利⽤，在云原⽣环境中简化部署和利⽤如GPU这样的复杂硬件的过程，同时提⾼资源的利⽤效率和灵活性。具体来说，EffectiveGPU项⽬旨在实现以下⼏个关键技术⽬标：异构设备管理：EffectiveGPU具备多样化异构设备（包括GPU、NPU等）的统⼀管理能⼒，⽀持跨Pod的设备共享机制，通过分析硬件拓扑结构特征并应⽤智能调度策略，实现更优的资源分配决策。设备共享与资源隔离：系统提供细粒度资源管控⽅案，⽀持按核⼼利⽤率（百分⽐）和显存容量（MB）进⾏精确分配，对计算单元实施硬件级隔离。在保持业务⽆须改造的前提下，实现资源分割带来的性能损耗控制在5%以内。弹性资源超配：⽀持GPU算⼒与显存的双维度超分技术，通过动态算⼒复⽤机制实现空闲资源跨应⽤调度，配合优先级队列保障⾼优先级任务QoS。基于统⼀内存架构实现200%显存超分⽐，突破单卡物理显存限制，⽀持多任务并发执⾏。资源效率优化：采⽤创新虚拟化技术构建⾼密度资源复⽤体系，通过精细化资源调度策略提升硬件使⽤效率，有效降低闲置资源浪费，实现设备利⽤率的质的⻜跃。⽆缝兼容适配：采⽤⾮侵⼊式设计架构，确保现有业务系统⽆需任何改造即可平滑接⼊，全⾯兼容各类存量应⽤程序的运⾏环境。智能调度体系：内置多维度调度策略引擎，⽀持基于节点特征、GPU型号等参数的⾃适应调度算法，持续优化集群资源分配效率。精准设备调度：提供基于设备型号指纹和唯⼀标识符的精准调度能⼒，确保业务负载与硬件特性实现最优匹配。 EffectiveGPU作为⾃主研发的⽅案，在多⽅⾯展现显著优势。其免费特性，相⽐其他商业⽅案的付费模式，可节省软件授权成本。功能上，⽀持显存切分、算⼒切分以及⽀持显存超分和算⼒超分，突破硬件限制，提升资源利⽤率。同时⽀持计算优先级、训练和推理混部，满⾜灵活调度与⾼效部署需求。添加池化层后最低仅下降0.5%性能，最⼤程度保证GPU性能。提供运维与监控⽅⾯提供⽀持，且在公有云场景下⽆节点数限制，适⽤范围更⼴。 3.技术原理与架构 EffectiveGPU提出了⼀套⽀持算⼒细粒度划分、节点内算⼒调度、算⼒跨节点协同调度的GPU池化和虚拟化技术架构，通过GPU池化和混合云技术⽅案，实现所有GPU资源的统⼀视图，按需申请和弹性扩缩容。技术架构 3.1 EffectiveGPU整体架构图如下： EffectiveGPU以GPU池化和虚拟化技术为核⼼，通过管理⾯实现对GPU资源的⾼效整合与调配。可整合私有云和公有云的GPU和NPU资源，⽀持GPU独占、切分、显存超分和算⼒超分等多种使⽤⽅式，满⾜机器⼈、语⾳识别、视频处理、翻译和VR等多样化应⽤场景，提升GPU资源的利⽤率和灵活性。核⼼组件 EffectiveGPU包含⼀个核⼼关键组件，与调度监控相关包含额外的多个核⼼组件。 Volcano集成⽅案3.3 为了进⼀步与Volcano集成，本⽅案还提出了新的技术改造项，增强Volcano vgpu使⽤特性。新增显存超分能⼒，通过device-memory-scaling参数动态调配显存超分系数，⽀持按不同的节点配置不同超分系数，同时保留原有的切分逻辑。通过Volcano实现NUMA亲和调度，提升GPU资源使⽤效率，NUMA节点是构成⾮统⼀内存访问架构（Non-Uniform Memory Access,NUMA）系统的基本单位，⼀个NUMA集合是指单个Node节点上多个NUMA节点的组合，⽤于实现计算资源的有效分配，并降低处理器间内存访问的竞争。当CPU没有绑核或没有与GPU分配在相同NUMA节点上时，可能会由于CPU争抢或CPU与GPU跨NUMA通信导致应⽤执⾏性能下降。为了使应⽤的执⾏性能最⼤化，可以选择将CPU与GPU绑定在相同NUMA节点下。通过Volcano与资源池特性实现并⽀持EffectiveGPU优先级QoS，混部等特性。 HAMi兼容⽅案3.4 HAMi作为⽬前主流的开源异构AI计算虚拟化中间件，提供了丰富的异构GPU管理接⼝，EffectiveGPU采⽤了兼容HAMi⽣态的架构实现⽅案，其核⼼兼容性设计体现在以下三个维度：虚拟化接⼝兼容虚拟化实现上兼容HAMi-core的使⽤⽅式，通过覆盖主流CUDA版本的接⼝虚拟化技术，实现原⽣CUDA应⽤的⽆缝接⼊，⽀持上下⽂隔离、时间切⽚等核⼼特性，确保不同任务间的算⼒隔离与资源分配时序⼀致性，使现有GPU应⽤⽆需改造即可透明化运⾏。 EffectiveGPU技术⽩⽪书调度接⼝兼容在调度和监控层⾯深度对⻬HAMi的云原⽣调度器功能，⽀持主流Kubernetes集群版本和Volcano调度器的深度集成，实现从资源请求、配额分配到任务编排的全链路标准化对接，确保现有调度策略与业务⼯作流⽆需重构即可平滑迁移⾄虚拟化环境。异构GPU兼容通过集成HAMi⽣态提供的国产算⼒device plugin，实现基于统⼀的抽象驱动框架和跨架构算⼒调度模型，实现对多种硬件加速卡的混合纳管与协同调度，结合拓扑感知优化能⼒，⽀持异构集群的资源池化与任务智能编排，实现不同硬件⽣态的⾼效整合。 GPU虚拟化实现原理3.5 4.关键创新点 4.1创新点⼀：针对多节点异构GPU的池化和调度实现算⼒池化与调度提出了⼀套⽀持算⼒细粒度划分、节点内算⼒调度、算⼒跨节点协同调度的国产化深度学习计算框架，从AI应⽤层、AI框架层、服务层、系统软件层和硬件核⼼层实现了异构国产AI算⼒平台的池化及调度。算⼒细粒度切分通过API拦截实现了算⼒细粒度切分，使任务能按需使⽤算⼒资源，避免资源浪费。资源绑定与调度通过服务提供层为AI应⽤绑定资源池中的资源，实现了国产化AI算⼒的调度框架。技术实现细节服务提供层和系统软件层⾯分别使⽤云原⽣调度⼯具（kubernetes）与容器⼯具（docker）实现。服务提供层实现异构算⼒的任务分发和资源池的组建；系统软件层利⽤替换任务调⽤链中的cudaDriver相关函数以及利⽤设备提供商提供的设备复⽤⼯具来确保任务使⽤的资源符合规定与限制。调度策略研究针对不同GPU算⼒的调度策略研究，形成了⼀套完善的调度机制，突破了Kubernetes集群中异构算⼒独占使⽤的限制，提升了集群利⽤率。 4.2创新点⼆：抽象适配国产和海外GPU的统⼀调度接⼝插件形式实现资源复⽤计算框架服务提供层以调度器插件(vGPU scheduler-plugin)以及定制化的异构算例设备插件（device-plugin）的形式，实现整个集群对于异构算⼒资源的复⽤请求。任务资源声明与调度每个任务提交到Kubernetes集群中时需声明其索要使⽤的异构算⼒类型及其规格，调度器插件查询任务信息后负责调度⼯作，普通任务交由kubernetes⾃带的默认调度器处理。调度策略与资源分配调度器插件中以⽆状态形式保存任务的异构算⼒资源信息，⽀持多种调度策略，根据策略将节点分配到合适节点，并将资源信息注⼊任务。设备插件与任务启动异构算⼒设备插件识别任务备注信息，设置环境变量、映射驱动⽂件和设备，交由容器⼯具启动任务。资源限制层实现系统软件层为容器内的资源限制层，能限制容器内对异构设备相关资源的使⽤。通过研究不同⼚商算⼒接⼝，构建基于异构算⼒调度需求的统⼀接⼝标准，屏蔽⼚商接⼝差异，实现异构算⼒调度的统⼀。创新点三：实现GPU的显存和算⼒切分保障机制4.3 国产AI算⼒⽀持与适配计算框架⽀持华为Ascend、百度昆仑、算能智能卡等国产AI算⼒，不依赖国外技术，同时适配主流AI框架和国产AI框架，如Paddle。细粒度双端算⼒切分提供细粒度的AI算⼒切分⽅式，解决云平台中算⼒资源浪费和⽆法共享的问题，通过API拦截实现切分，具有⾼⾃由度、强灵活性

点击免费查看完整报告