美团数据平台成本治理实践总结
成本治理发展历程
美团数据平台成本治理经历了三个阶段:
- 蛮荒期(2015年以前):集群规模百级别,资源无预算管理,业务无资源意识。
- 探索期(2015-2018年):集群规模扩大至千级别,业务开始提报预算,资源隔离和账单驱动形成资源优化意识。
- 成长期(2018年至今):集群规模达万级别,预算提报系统化,成立大数据资源优化工作组,进入全流程产品化提效阶段。
成本治理全貌
美团成本治理通过“统一元数据-预算管理-资源优化”的框架实现:
- 统一元数据:通过OneDataTrace构建全链路数据血缘、模型、类目等元数据体系,为预算和优化提供基础。
- 预算管理:建立结构化预算提报机制,通过Review小组和流程消除信息差,每年优化2-5%的不合理资源需求。
- 资源优化:开发治理工作台,实现资源问题识别、分配、治理和效果复盘的全流程自动化,日均清理PB级数据。
关键数据与成果
- 集群规模:从百级别到万级别,数据量从EB级增长至PB级。
- 治理效果:年优化算力达万核级别,节约成本千万级别。
- 治理工具:建立多视角分析平台、治理工作台、自动化治理流程。
驱动机制
- 自驱:数据公会建立事实标准,通过竞赛、评比、经验分享推动优化。
- 他驱:资源优化工作组自顶向下达成共识,通过数据执行委员会例行会议推动。
展望方向
- 开发即治理
- 引擎参数自动化配置
- 基于达成时间的编排调度
- 冷热数据自动分层