您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[ArchSummit深圳2024|全球架构师峰会]:辛文-降本增效利器:快手 CPU&GPU超大规模在离线混部落地实践 - 发现报告

辛文-降本增效利器:快手 CPU&GPU超大规模在离线混部落地实践

AI智能总结
查看更多
辛文-降本增效利器:快手 CPU&GPU超大规模在离线混部落地实践

快手/容器云技术中心/辛文 目录页Contents 1背景与挑战 2利用提升最佳实践CPU混部篇 3利用率提升最佳实践GPU混部篇 4未来规划及展望 快手混部生态发展历程 快速发展的业务:给资源供给带来了挑战 CPU业务背景与趋势 某在线业务三天使用率示意图 •流量波峰波谷•SLO保障冗余•用户估计误差•突发增长需求 GPU业务背景与趋势 GPU应用已深刻影响各类业务(搜广推、音视频、MMU、风控等)场景快手内部GPU在线服务及离线训练任务均完成云原生化迁移 成本问题逐步凸显 核心优化目标:CPU&GPU资源利用率提升 多种主流GPU卡型号数万台GPU主机&十万量级GPU卡 GPU服务数千量级 在线服务(推理等)、AI训练任务及近线服务(特征提取等)多样化场景 运行效率峰均差值 在线服务GPU峰均差值约30PP训练类算力全天需求旺盛 目录页Contents 1背景与挑战 2利用提升最佳实践CPU混部篇 3利用率提升最佳实践GPU混部篇 4未来规划及展望 扩展资源类型 隔离能力建设 磁盘空间/IO Pid •数十秒级采集周期•超阈值清理离线任务及数据•重IO接入分布式块存储•IOthrottle限制 •超过阈值自动退避•设置单机离线进程限制•设置单容器实例进程限制 内核隔离 调度优先级超线程隔离多调度队列 网络 在离线分盘离线云盘磁盘IO限速 单机TC限速机房流量分级管控 Introduction内核隔离-CPU调度优先级 针对调度延迟优化的绝对优先级,高优任务对低优任务有绝对的优先级。调度抢占时会忽略CFS强调的公平性: wake up的时候,高优任务无条件抢占低优任务pick next的时候,只要有高优任务处于就绪态,低优任务无法被pick CPU调度优先级有高中低三种级别•高优可以抢占低优,不可以抢占中优 •中优可以抢占低优 调度QoS目标是通过混部在离线服务,在提高机器利用率的同时,保证高优和延迟敏感的在线业务不受离线业务影响。 Introduction内核隔离-CPU超线程隔离 针对CPU微架构资源的Smt-Denoise,高优任务有权独占物理核,并压制/驱逐对端的低优任务,减少低优任务对物理核算力、L1/L2 cache等微架构干扰。 Introduction内核隔离–内存 资源抽取率提升实践 目录页Contents 1背景与挑战 2利用提升最佳实践CPU混部篇 3利用率提升最佳实践GPU混部篇 4未来规划及展望 什么是GPU虚拟化 允许多容器实例在资源隔离前提下共享GPU卡 路径 VGPU实例:CPU+内存+算力占比+显存占比+器件选配 方式 收益 业务:用量减少成本降低 平台:部署密度增加利用率提升 GPU虚拟化底层技术选型 内核层劫持 Nvidia MPS 多进程共享上下文,吞吐指标更优缺乏故障强隔离,容器间异常会传导不支持显存硬隔离 内核层拦截驱动API隔离显存/算力细粒度的显存和算力调度策略无需替换CUDA库上层应用无感 CUDA层劫持(vCUDA) Nvidia MIG 硬件物理切分方式,适用A100、A30等卡型不支持动态划分依赖CUDA11及以上高版本 CUDA层拦截API隔离显存/算力依赖容器镜像替换CUDA库CUDA发新版需要迭代适配 快手GPU虚拟化方案 技术路线:内核态劫持 算力隔离:基于内核态的时间片轮转调度,多容器时分复用GPU计算器件显存隔离:基于内核态劫持显存申请、回收等接口,控制容器使用显存配额 性能压测数据 有效吞吐介于原生整卡与MPS抢占模式间 具备故障强隔离能力,显著优于MPS方案 时间片轮转引入极端场景P99延迟放大 适用具备一定延迟容忍的业务场景 什么是GPU混部? 允许在线和离近线容器实例在优先级保障前提下共享同一块GPU卡 在线服务有GPU计算请求时立刻获取算力执行,离线服务的请求被压制 显存避让当剩余GPU显存低于安全阈值时,离线服务实例会被立即驱逐以释放显存供给在线服务进程 KGPU驱动-内核模块 KgpuDevice Wrapper 虚拟设备透传业务透明无感切换 GPU算力调度器 抢占调度权重隔离 核心功能因素 离在线混部显存隔离显存避让 GPU混部利用率提升 在线与离近线复用资源下的GPU利用率趋势 利用率提升效果 稳定性保障 算力,显存,故障隔离能力实时量化干扰指标 业务成本显著下降 对接服务成本优化超50%数千卡近线类算力稳态供给 潮汐混部业务背景 GPU整机维度分时复用 离线训练运行保障 资源抽取率提升 目录页Contents 1背景与挑战 2利用提升最佳实践CPU混部篇 3利用率提升最佳实践GPU混部篇 4未来规划及展望 利用率深水区 全局资源效率提升 服务画像/模型预测优化内核隔离能力增强精细管控:干扰识别与避让