AI智能总结
张伟 快手基础技术部容器云技术中心 目录页 Contents 1背景与趋势 2GPU虚拟化与混部 3GPU潮汐混部实践 4持续演进与展望 快手编排调度发展历程 业务背景与趋势 背景:成本问题逐步凸显 主流A100、A30、A10、T4等多型号数万台GPU主机&十万量级GPU卡 在线服务(推理等)、AI训练任务及近线服务(特征提取等)多样化场景 在线服务GPU峰均差值约30PP训练类算力全天需求旺盛 成本优化是目标,稳定性保障是前提 目录页 Contents 1背景与趋势 2GPU虚拟化与混部建设 3GPU潮汐混部实践 4持续演进与展望 如何落地系统能力 什么是GPU虚拟化 允许多容器实例在资源隔离前提下共享GPU卡 路径 VGPU实例:CPU+内存+算力占比+显存占比+器件选配 方式 业务:用量减少成本降低 收益 平台:部署密度增加利用率提升 GPU虚拟化底层技术选型 内核层劫持 Nvidia MPS 内核层拦截驱动API隔离显存/算力细粒度的显存和算力调度策略无需替换CUDA库上层应用无感 多进程共享上下文,吞吐指标更优缺乏故障强隔离,容器间异常会传导不支持显存硬隔离 CUDA层劫持(vCUDA) Nvidia MIG CUDA层拦截API隔离显存/算力依赖容器镜像替换CUDA库CUDA发新版需要迭代适配 硬件物理切分方式,适用A100、A30等卡型不支持动态划分依赖CUDA11及以上高版本 快手GPU虚拟化方案 技术路线:内核态劫持 ●算力隔离:基于内核态的时间片轮转调度,多容器时分复用GPU计算器件●显存隔离:基于内核态劫持显存申请、回收等接口,控制容器使用显存配额 性能压测数据 有效吞吐介于原生整卡与MPS抢占模式间具备故障强隔离能力,显著优于MPS方案 时间片轮转引入极端场景P99延迟放大 适用具备一定延迟容忍的业务场景 GPU虚拟化-产品形态 什么是GPU混部? 允许在线和离近线容器实例在请求优先级保障前提下共享同一块GPU卡 GPU混部利用率提升 KGPU驱动-内核模块 Kgpu Device Wrapper 虚拟设备透传业务透明无感切换 GPU算力调度器 抢占调度权重隔离 核心功能因素 离在线混部显存隔离显存避让 利用率提升效果 稳定性保障 完备的故障隔离能力实时量化干扰指标 业务成本显著下降 对接服务成本优化超50%数千卡近线类算力稳态供给 推理类资源池利用率提升显著 GPU峰均提升约6PPGPU日均提升近7PP 目录页 Contents 1背景与趋势 2GPU虚拟化与混部建设 3GPU潮汐混部实践 4持续演进与展望 潮汐混部业务背景 GPU整机维度分时复用 风险与挑战 离线训练运行保障 资源抽取率提升实践 潮汐策略运转效果 GPU日均提升 成本优化 凌晨时段资源转化抽取率20+%混部GPU实际分配率近80%GPU日均提升3~5PP 仅以T4和A10型号为统计范围凌晨时段可转化节省数千块A10卡和T4卡年化收益数千万元 目录页 Contents 1背景与趋势 2GPU虚拟化与混部建设 3GPU潮汐混部实践 4持续演进与展望 持续演进与趋势 资源及业务趋势 平台演进展望 •训练+在线资源实时双向互通•提取业务特征,优化多维度瓶颈•实时负载感知,极限提升利用率•多队列+优先级,持续提升吞吐 Q&AThankYou!