登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
拥抱云原生,数十万规模_GPU_卡的利用率极致优化之路_陈煜东
信息技术
2022-07-19
ArchSummit深圳2022|全球架构师峰会
Joken Hu
拥抱云原生数十万规模GPU卡的利用率极致优化之路
自研GPU业务上云历程
发展历程
:从2017年开始尝试将自研GPU业务上云,经历了从数百卡到数十万卡的规模增长,逐步实现了License管理自动化、多版本驱动管理、qGPU技术引入、Taco训练加速、容器实例混部以及监控突发弹性能力等关键进展。
qGPU共享技术
问题背景
:音乐和广告业务面临显存/算力强隔离、多业务混合部署、GPU资源利用率低、故障隔离性差等问题。
解决方案
:qGPU技术通过在NVIDIA驱动/KMD层增加一层拦截和控制,实现容器级细粒度算力切分,支持显存/算力隔离功能。
架构设计
:qGPU架构包括NVIDIA驱动、qGPU设备文件、Kubernetes调度器、GPU manager和scheduler plugin等组件,通过劫持系统调用实现显存/算力隔离。
调度策略
:支持Spread、Binpack、Best Effort、Fixed Share、Guaranteed Share with Burst等多种调度策略,满足不同业务需求。
单卡调度
:通过时间片和显存限制实现多Pod共享单卡资源,支持高优和低优任务混部。
离线混部
:支持GPU在线和离线混部,提高资源利用率。
基于Taco的异构计算加速实践
网络通信优化
:通过LightCC和HARP协议栈优化,减少跨机数据通信耗时,提升分布式训练效率。
性能测评
:在ResNet50和TransformerXL模型上,LightCC+HARP协议栈相比LightCC和Horovod性能提升显著,例如ResNet50训练速度提升约50%。
容器实例的GPU混部方案
问题背景
:业务降本导致GPU资源碎片化,弹性容器实例难以高效利用碎片资源。
解决方案
:通过资源混部和动态迁移策略,将GPU碎片资源与CPU弹性容器实例混部。
迁移策略
:包括迁入和迁出策略,优先迁移大规格实例填充碎片,并根据GPU资源空出情况动态迁出多余实例。
收益
:GPU宿主机碎片率从53%降低到5%,GPU宿主机浪费成本降低70%,资源利用率提升显著。
总结
通过qGPU技术实现算力、显存灵活切分和调度,显著提高GPU资源利用率。
通过网络通信优化和协议栈改进,提升分布式训练效率。
通过资源混部和动态迁移策略,降低GPU资源浪费和成本。
沟通交流
技术交流:微信:daoiqi
联系方式:dondonchen@tencent.com
工作地点:深圳、北京
招聘方向:调度、异构计算、裸金属、HPC
你可能感兴趣
云原生时代下大规模 GPU 资源利用率优化最佳实践
商贸零售
快手
2023-10-08
云原生应用的构建之路
商贸零售
红帽
2020-07-01
中小团队的云原生Devops之路 - 潘野
商贸零售
2022 China DevOpsDays线上峰会
2022-09-15
云原生时代中间件的演进之路
商贸零售
网易
2023-03-09
李汉波-字节跳动基于 KubeAdmiral 的多云分布式云原生实践之路
商贸零售
2024 第23届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 北京站
2024-07-17