行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

04-美团大数据及机器学习基础设施云原生改造实践-吴通

信息技术 2023-06-06 ArchSummit北京2023|全球架构师峰会金栩生

早期架构及升级背景

场景特点：大数据场景先于机器学习场景出现，大数据场景供需共构，故障率低；机器学习场景供需异构，对调度语义、扩展性、可观测性、运维友好性要求高，故障率高。
改造前痛点：扩展App类型复杂度高、依赖AM影响资源统计、支持GPU等设备复杂度高、调度策略定制成本高、故障感知与可观测水平低。
深层原因：离线场景的路径依赖、架构变更带来的不确定性。
K8S VS YARN：Kubernetes（K8S）作为分布式集群操作系统，管理集群资源更全面，优于YARN的分布式集群资源调度系统。

改造后架构

控制面改造：
- etcd、kube-apiserver、controller-manager升级，解决负载均衡、并发读写、节点生命周期等问题。
- 自研Operator：SparkOperator（支持Spark 2.2和RSS）、TrainingOperator（支持TF、MPI、PyTorch）、AFOServingOperator（PaaS方式推理）、OrdinaryServingOperator（类IaaS方式管理在线服务）、Codelab Operator（开发实验环境）、PrestoOperator（Presto集群弹性容错调度）。
节点端改造：
- 物理机挂盘方式调整，借助RAID解决kubelet多磁盘管理问题。
- kubelet升级：支持PCIe级别网卡/GPU亲和性、多网卡Pod分配多IP、不同作业oom策略、适配无预留cpu核心绑定。
- device plugin升级：GPU、RDMA、NPU设备健康检查与异常处理，支持PCIE级亲和策略。
- 节点异常检查增强，保证环境符合预期。
- 网络采用underlay CNI，实现Pod与外部网络资源互联，改造clusterIP service实现负载均衡。
- 存储支持HDFS、Dolphin FS、EBS，实现CSI Driver，支持故障自动恢复与挂起恢复功能。
监控告警：
- Prometheus+Thanos+Alertmanager架构，对接公司内部告警系统。
- 自研日志方案：节点文件服务器读取日志，持久化至S3，实时收集etcd和Prometheus数据。
- 构建数百张dashboard，指导系统优化。
自研调度器：
- 支持多租户配额管理、排队、Gang Scheduling、抢占式调度、逻辑资源池划分、RDMA亲和性调度、多层级退避。
- 调度吞吐300+ pods/s。
- 核心流程：OpenSession、AllocateSystem、PreAllocate、Allocate、Preempt、CloseSession。
- 抢占机制：队列弹性量部分资源在集群紧张时被抢占，支持优先级抢占与Gang Scheduling保护。
- 逻辑资源池：均衡池与聚集池，平衡资源碎片、可用性、性能与可维护性。
- 退避机制：四级指数退避，防“坏分子”，提升调度吞吐。
Codelab Operator：
- 基于容器实现实验开发环境，支持状态持久化、资源监控、集成WebIDE。
- 架构包括Application层、Controller层、Storage层。
- 启动过程：容器共享挂载初始化文件，EBS存储开发环境，Dolphin FS存储共享数据，pc-start.sh初始化。
- 挂起与恢复：闲时自动挂起释放资源，恢复时重建Pod挂载PV恢复数据。
Dolphin FS接入：
- Host Path -> CSI，租户目录静态绑定PV，加速调度。
- 多集群自动识别，业务无感知。
- Pod粒度fuse，提升读写并发。
- Fuse进程位于物理机，升级CSI plugin不中断挂载。
- 支持挂载点异常检测和热恢复。
日志服务：
- 实时收集不可行，改为离线方式。
- 日志挂载优化：不同Pod挂载不同目录，感知上传至S3时机。
- 日志访问优化：集群外部署提升访问成功率，提供SEEK接口提升效率。
训练整体流程：
- 作业概览、资源监控、作业日志。

大规模集群关键问题与思考

调度能力：吞吐量与调度语义权衡，生命周期与有状态对运维影响。
稳定性：基础环境可预期，组件稳定性，资源隔离与QoS。
资源效率：
- 提升手段：运维提效、异常检查与自动恢复、降低节点异常频率、节点/单卡故障自动维修、故障高效诊断与维修保有率。
- 调度负载率：通过抢占释放资源、作业分级、跨集群跨卡型调度、混部调度。
- 其他手段：优化容器启动速度、作业生命周期异常行为探测、MPS/MIG/vGPU技术、预测服务弹性伸缩。