货拉拉基于混合云的大数据成本管控体系建设实践
背景和挑战
货拉拉业务规模庞大,涉及8+业务线,覆盖352个城市,月活用户760万,日均任务数20K+,机器数1000+,存储量10PB+。其大数据平台包括基础层(离线/实时计算、资源管理、存储、OLAP分析等)、平台层(数据研发、数据仓库、数据治理等)、服务层(数据应用、数据智能等)和应用层(智能营销、经营分析等)。
面临的主要挑战包括:
- 场景多样性:涵盖离线、实时等多种数据处理场景。
- 数据资产多样性:包含实时任务、各类表、指标、标签、特征等。
- 成本管控挑战:成本快速增长、成本归属不明确、使用合理性不清。
成本管控体系
构建了HLL大数据成本管控体系,核心包括:
- 预算管控:预算申请、跟踪、预警和限制,流程涵盖月度/季度复盘和年终复盘。
- 数据资产度量:度量基础设施(存储、计算)、任务(离线/实时)、报表等成本明细。
- 存储成本优化:
- 冷热分层:根据分区访问频率将数据分为热、温、冰、冷四层,采用不同存储策略。
- 数据归档:设置生命周期和归档周期,回收冷数据。
- 优化治理:下线无用表、文件压缩格式升级(snappy→zlib→zstd)。
- 收益:存储成本累计节省54%,8个月零增长并持续下降。
- 计算成本优化:
- 弹性资源管理:利用公有云多种实例类型(预留、按需、竞价)形成弹性资源池,高峰扩容、低峰缩容。
- Spock弹性服务:实现自动化运维和YARN优先级调度。
- 成果:集群成本下降20%~30%,高优作业稳定性不受影响。
- 计算超卖:通过YARN dynamic resource和oom_adj调整解决逻辑资源超卖问题。
- 内存优化:调整Container默认声明内存,降低Hive任务资源消耗15%+。
- 辅助治理:健康分、红黑榜、激励措施和惩罚措施,持续运营。
总结与展望
- 核心观点:通过体系化建设实现成本收益最大化,包括数据资产度量、预算管控、冷热分层、生命周期管理、弹性资源管理、技术优化等。
- 关键数据:存储成本节省54%,集群成本下降20%~30%,Hive任务资源消耗降低15%+。
- 研究结论:需结合场景个性化、持续精进,未来探索大数据云原生、离线混部、离在线混部成本的深度分摊和价值判断。