登录
注册
回到首页
AI
搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
稳定币
低空经济
DeepSeek
AIGC
智能驾驶
大模型
当前位置:首页
/
行业研究
/
报告详情
余英豪 - 阿里巴巴万卡 GPU PAI 集群的资源效率优化:数据剖析和工程实践
建筑建材
2022-05-18
DataFunSummit2022:大数据计算架构峰会
哪***
AI智能总结
查看更多
阿里巴巴万卡GPUPAI集群资源效率优化
集群概览
规模
:万卡级别的集群规模,包含多种卡型号(从P100到A100),多种资源配置(单卡16核到8卡192核8网卡)。
业务
:支持淘宝、搜推广、达摩院、高德、自动驾驶、菜鸟等业务,涵盖训练和在线/离线推理,涉及CV、NLP、推荐等领域。
数据分析与洞察
集群数据
:包含6000+GPU的生产集群,覆盖1300+用户,1.2M任务,7.5M实例,数据采集于2020年7-8月。
运行时长和调度延迟
:短任务的调度延迟占据生命周期的相当比重,申请整卡和高端卡的任务等待时间更长。
资源需求
:资源申请存在长尾分布现象,而实际使用则高度不均衡,超过90%的业务GPU算力用量少于半张卡。
资源利用率
:8卡机器的CPU利用率显著高于2卡机器,但GPU利用率的中位数和长尾数存在较大差距。
工程实践
GPU共享
:通过GPU共享,可以节省50%的GPU资源,在业务峰值时可节约2500+GPU。
作业运行时长预测
:基于作业元信息形成标识符,利用回归树进行预测,78%实例的时长预测误差在25%以内。
SLO差异化GPU混部
:实现不同SLO级别的资源分配,保障不同业务的资源需求。
GPU虚拟化和QoS保障
:通过vGPU和MIG技术实现算力和显存隔离,基于实时利用率动态分配算力,保障资源争抢时的优先级。
KubeDL
功能
:作为All-in-one AI作业控制器,支持多种开源和自研深度学习引擎,支持高效混部调度。
特性
:多级优先级队列,自动匹配资源,支持弹性训练和Spot实例,适配Gang调度,基于历史画像的训练实例规格自动更新,Morphling支持在线推理实例规格自动化压测和推荐。
挑战与展望
CPU瓶颈
:CPU资源的竞争更容易影响作业效率,尤其是在CTR模型训练、GNNs和RL仿真中。
机器和作业规格失配
:机器规格逐渐与业务需求不匹配,推理和训练的资源需求差异导致难以充分混部复用。
I/O问题
:训练作业的数据集普遍在TB级别,存储计算分离带来长传输网络开销。
查看更多
你可能感兴趣
云原生时代下大规模 GPU 资源利用率优化最佳实践
信息技术
快手
2023-10-08
GPU 编程和优化 – 最佳实践分享
NVIDIA
2023-10-24
【九点特供】算力是商用GPU的3000余倍、清华团队研发光电融合芯片,公司已推出多款可应用于光纤和数据中心的高速率激光器芯片;自动驾驶重要标签,NOA将重构产业链,公司已构建多种城市NOA解决方案
未知机构
2023-10-27
【T112017-数据工程和技术分会场】基于内存的分布式计算实践
信息技术
TalkingData
2017-09-20
7-舒展-面向稳定和效率的金融科技平台化探索和实践
金融
2022 Gdevops全球敏捷运维峰会
2022-06-20