登录
注册
回到首页
AI
搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
稀土
低空经济
DeepSeek
AIGC
智能驾驶
大模型
当前位置:首页
/
行业研究
/
报告详情
04-美团大数据及机器学习基础设施云原生改造实践-吴通
信息技术
2023-06-06
ArchSummit北京2023|全球架构师峰会
金***
AI智能总结
查看更多
早期架构及升级背景
场景特点
:大数据场景先于机器学习场景出现,大数据场景供需共构,故障率低;机器学习场景供需异构,对调度语义、扩展性、可观测性、运维友好性要求高,故障率高。
改造前痛点
:扩展App类型复杂度高、依赖AM影响资源统计、支持GPU等设备复杂度高、调度策略定制成本高、故障感知与可观测水平低。
深层原因
:离线场景的路径依赖、架构变更带来的不确定性。
K8S VS YARN
:Kubernetes(K8S)作为分布式集群操作系统,管理集群资源更全面,优于YARN的分布式集群资源调度系统。
改造后架构
控制面改造
:
etcd、kube-apiserver、controller-manager升级,解决负载均衡、并发读写、节点生命周期等问题。
自研Operator:SparkOperator(支持Spark 2.2和RSS)、TrainingOperator(支持TF、MPI、PyTorch)、AFOServingOperator(PaaS方式推理)、OrdinaryServingOperator(类IaaS方式管理在线服务)、Codelab Operator(开发实验环境)、PrestoOperator(Presto集群弹性容错调度)。
节点端改造
:
物理机挂盘方式调整,借助RAID解决kubelet多磁盘管理问题。
kubelet升级:支持PCIe级别网卡/GPU亲和性、多网卡Pod分配多IP、不同作业oom策略、适配无预留cpu核心绑定。
device plugin升级:GPU、RDMA、NPU设备健康检查与异常处理,支持PCIE级亲和策略。
节点异常检查增强,保证环境符合预期。
网络采用underlay CNI,实现Pod与外部网络资源互联,改造clusterIP service实现负载均衡。
存储支持HDFS、Dolphin FS、EBS,实现CSI Driver,支持故障自动恢复与挂起恢复功能。
监控告警
:
Prometheus+Thanos+Alertmanager架构,对接公司内部告警系统。
自研日志方案:节点文件服务器读取日志,持久化至S3,实时收集etcd和Prometheus数据。
构建数百张dashboard,指导系统优化。
自研调度器
:
支持多租户配额管理、排队、Gang Scheduling、抢占式调度、逻辑资源池划分、RDMA亲和性调度、多层级退避。
调度吞吐300+ pods/s。
核心流程:OpenSession、AllocateSystem、PreAllocate、Allocate、Preempt、CloseSession。
抢占机制:队列弹性量部分资源在集群紧张时被抢占,支持优先级抢占与Gang Scheduling保护。
逻辑资源池:均衡池与聚集池,平衡资源碎片、可用性、性能与可维护性。
退避机制:四级指数退避,防“坏分子”,提升调度吞吐。
Codelab Operator
:
基于容器实现实验开发环境,支持状态持久化、资源监控、集成WebIDE。
架构包括Application层、Controller层、Storage层。
启动过程:容器共享挂载初始化文件,EBS存储开发环境,Dolphin FS存储共享数据,pc-start.sh初始化。
挂起与恢复:闲时自动挂起释放资源,恢复时重建Pod挂载PV恢复数据。
Dolphin FS接入
:
Host Path -> CSI,租户目录静态绑定PV,加速调度。
多集群自动识别,业务无感知。
Pod粒度fuse,提升读写并发。
Fuse进程位于物理机,升级CSI plugin不中断挂载。
支持挂载点异常检测和热恢复。
日志服务
:
实时收集不可行,改为离线方式。
日志挂载优化:不同Pod挂载不同目录,感知上传至S3时机。
日志访问优化:集群外部署提升访问成功率,提供SEEK接口提升效率。
训练整体流程
:
作业概览、资源监控、作业日志。
大规模集群关键问题与思考
调度能力
:吞吐量与调度语义权衡,生命周期与有状态对运维影响。
稳定性
:基础环境可预期,组件稳定性,资源隔离与QoS。
资源效率
:
提升手段:运维提效、异常检查与自动恢复、降低节点异常频率、节点/单卡故障自动维修、故障高效诊断与维修保有率。
调度负载率:通过抢占释放资源、作业分级、跨集群跨卡型调度、混部调度。
其他手段:优化容器启动速度、作业生命周期异常行为探测、MPS/MIG/vGPU技术、预测服务弹性伸缩。
未来规划
完成大数据离线和实时场景的云原生改造。
场景间混部提升资源效率。
构建场景适配的调度能力。
持续提升稳定性和资源效率。
你可能感兴趣
云原生存储 CubeFS 在大数据和机器学习的探索和实践-唐之享
信息技术
ArchSummit上海2023|全球架构师峰会
2023-06-06
03-云原生跨域大数据架构落地实践-吴维伟
信息技术
ArchSummit北京2023|全球架构师峰会
2023-06-06
字节跳动云原生机器学习离线训练实践_单既喜
文化传媒
ArchSummit深圳2022|全球架构师峰会
2022-07-19
04-金融行业云原生建设实践-兰剑
金融
2022年F5多云应用服务科技峰会
2022-05-24
微信云原生大数据平台构建及落地实践-涂小刚
信息技术
ArchSummit上海2023|全球架构师峰会
2023-06-06