行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

拥抱云原生，数十万规模_GPU_卡的利用率极致优化之路_陈煜东

信息技术 2022-07-19 ArchSummit深圳2022|全球架构师峰会 Joken Hu

拥抱云原生数十万规模GPU卡的利用率极致优化之路

自研GPU业务上云历程

发展历程：从2017年开始尝试将自研GPU业务上云，经历了从数百卡到数十万卡的规模增长，逐步实现了License管理自动化、多版本驱动管理、qGPU技术引入、Taco训练加速、容器实例混部以及监控突发弹性能力等关键进展。

qGPU共享技术

问题背景：音乐和广告业务面临显存/算力强隔离、多业务混合部署、GPU资源利用率低、故障隔离性差等问题。
解决方案：qGPU技术通过在NVIDIA驱动/KMD层增加一层拦截和控制，实现容器级细粒度算力切分，支持显存/算力隔离功能。
架构设计：qGPU架构包括NVIDIA驱动、qGPU设备文件、Kubernetes调度器、GPU manager和scheduler plugin等组件，通过劫持系统调用实现显存/算力隔离。
调度策略：支持Spread、Binpack、Best Effort、Fixed Share、Guaranteed Share with Burst等多种调度策略，满足不同业务需求。
单卡调度：通过时间片和显存限制实现多Pod共享单卡资源，支持高优和低优任务混部。
离线混部：支持GPU在线和离线混部，提高资源利用率。

基于Taco的异构计算加速实践

网络通信优化：通过LightCC和HARP协议栈优化，减少跨机数据通信耗时，提升分布式训练效率。
性能测评：在ResNet50和TransformerXL模型上，LightCC+HARP协议栈相比LightCC和Horovod性能提升显著，例如ResNet50训练速度提升约50%。

容器实例的GPU混部方案

问题背景：业务降本导致GPU资源碎片化，弹性容器实例难以高效利用碎片资源。
解决方案：通过资源混部和动态迁移策略，将GPU碎片资源与CPU弹性容器实例混部。
迁移策略：包括迁入和迁出策略，优先迁移大规格实例填充碎片，并根据GPU资源空出情况动态迁出多余实例。
收益：GPU宿主机碎片率从53%降低到5%，GPU宿主机浪费成本降低70%，资源利用率提升显著。

总结

通过qGPU技术实现算力、显存灵活切分和调度，显著提高GPU资源利用率。
通过网络通信优化和协议栈改进，提升分布式训练效率。
通过资源混部和动态迁移策略，降低GPU资源浪费和成本。

沟通交流

技术交流：微信：daoiqi
联系方式：dondonchen@tencent.com
工作地点：深圳、北京
招聘方向：调度、异构计算、裸金属、HPC

报告封面

点击免费查看完整报告

你可能感兴趣

hot

云原生时代下大规模 GPU 资源利用率优化最佳实践

商贸零售

快手2023-10-08

hot

云原生应用的构建之路

商贸零售

红帽2020-07-01

hot

中小团队的云原生Devops之路 - 潘野

商贸零售

2022 China DevOpsDays线上峰会2022-09-15

hot

云原生时代中间件的演进之路

商贸零售

网易2023-03-09

hot

李汉波-字节跳动基于 KubeAdmiral 的多云分布式云原生实践之路

商贸零售

2024 第23届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 北京站2024-07-17