登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
04-美团大数据及机器学习基础设施云原生改造实践-吴通
信息技术
2023-06-06
ArchSummit北京2023|全球架构师峰会
金栩生
早期架构及升级背景
场景特点
:大数据场景先于机器学习场景出现,大数据场景供需共构,故障率低;机器学习场景供需异构,对调度语义、扩展性、可观测性、运维友好性要求高,故障率高。
改造前痛点
:扩展App类型复杂度高、依赖AM影响资源统计、支持GPU等设备复杂度高、调度策略定制成本高、故障感知与可观测水平低。
深层原因
:离线场景的路径依赖、架构变更带来的不确定性。
K8S VS YARN
:Kubernetes(K8S)作为分布式集群操作系统,管理集群资源更全面,优于YARN的分布式集群资源调度系统。
改造后架构
控制面改造
:
etcd、kube-apiserver、controller-manager升级,解决负载均衡、并发读写、节点生命周期等问题。
自研Operator:SparkOperator(支持Spark 2.2和RSS)、TrainingOperator(支持TF、MPI、PyTorch)、AFOServingOperator(PaaS方式推理)、OrdinaryServingOperator(类IaaS方式管理在线服务)、Codelab Operator(开发实验环境)、PrestoOperator(Presto集群弹性容错调度)。
节点端改造
:
物理机挂盘方式调整,借助RAID解决kubelet多磁盘管理问题。
kubelet升级:支持PCIe级别网卡/GPU亲和性、多网卡Pod分配多IP、不同作业oom策略、适配无预留cpu核心绑定。
device plugin升级:GPU、RDMA、NPU设备健康检查与异常处理,支持PCIE级亲和策略。
节点异常检查增强,保证环境符合预期。
网络采用underlay CNI,实现Pod与外部网络资源互联,改造clusterIP service实现负载均衡。
存储支持HDFS、Dolphin FS、EBS,实现CSI Driver,支持故障自动恢复与挂起恢复功能。
监控告警
:
Prometheus+Thanos+Alertmanager架构,对接公司内部告警系统。
自研日志方案:节点文件服务器读取日志,持久化至S3,实时收集etcd和Prometheus数据。
构建数百张dashboard,指导系统优化。
自研调度器
:
支持多租户配额管理、排队、Gang Scheduling、抢占式调度、逻辑资源池划分、RDMA亲和性调度、多层级退避。
调度吞吐300+ pods/s。
核心流程:OpenSession、AllocateSystem、PreAllocate、Allocate、Preempt、CloseSession。
抢占机制:队列弹性量部分资源在集群紧张时被抢占,支持优先级抢占与Gang Scheduling保护。
逻辑资源池:均衡池与聚集池,平衡资源碎片、可用性、性能与可维护性。
退避机制:四级指数退避,防“坏分子”,提升调度吞吐。
Codelab Operator
:
基于容器实现实验开发环境,支持状态持久化、资源监控、集成WebIDE。
架构包括Application层、Controller层、Storage层。
启动过程:容器共享挂载初始化文件,EBS存储开发环境,Dolphin FS存储共享数据,pc-start.sh初始化。
挂起与恢复:闲时自动挂起释放资源,恢复时重建Pod挂载PV恢复数据。
Dolphin FS接入
:
Host Path -> CSI,租户目录静态绑定PV,加速调度。
多集群自动识别,业务无感知。
Pod粒度fuse,提升读写并发。
Fuse进程位于物理机,升级CSI plugin不中断挂载。
支持挂载点异常检测和热恢复。
日志服务
:
实时收集不可行,改为离线方式。
日志挂载优化:不同Pod挂载不同目录,感知上传至S3时机。
日志访问优化:集群外部署提升访问成功率,提供SEEK接口提升效率。
训练整体流程
:
作业概览、资源监控、作业日志。
大规模集群关键问题与思考
调度能力
:吞吐量与调度语义权衡,生命周期与有状态对运维影响。
稳定性
:基础环境可预期,组件稳定性,资源隔离与QoS。
资源效率
:
提升手段:运维提效、异常检查与自动恢复、降低节点异常频率、节点/单卡故障自动维修、故障高效诊断与维修保有率。
调度负载率:通过抢占释放资源、作业分级、跨集群跨卡型调度、混部调度。
其他手段:优化容器启动速度、作业生命周期异常行为探测、MPS/MIG/vGPU技术、预测服务弹性伸缩。
未来规划
完成大数据离线和实时场景的云原生改造。
场景间混部提升资源效率。
构建场景适配的调度能力。
持续提升稳定性和资源效率。
你可能感兴趣
云原生存储 CubeFS 在大数据和机器学习的探索和实践-唐之享
商贸零售
ArchSummit上海2023|全球架构师峰会
2023-06-06
03-云原生跨域大数据架构落地实践-吴维伟
商贸零售
ArchSummit北京2023|全球架构师峰会
2023-06-06
字节跳动云原生机器学习离线训练实践_单既喜
商贸零售
ArchSummit深圳2022|全球架构师峰会
2022-07-19
04-金融行业云原生建设实践-兰剑
商贸零售
2022年F5多云应用服务科技峰会
2022-05-24
微信云原生大数据平台构建及落地实践-涂小刚
商贸零售
ArchSummit上海2023|全球架构师峰会
2023-06-06