AI智能总结
孙伟快⼿数据平台部数据治理负责⼈&商业创新数据BP负责⼈ •十多年大数据建设和应用经验,曾就职于百度、阿里,目前在快手负责数据治理和商业创新数据BP团队,专注打造高效的治理工具和可持续的治理机制,以及建设丰富易用的数据内容赋能业务 使命:提升数据决策效率,利⽤数据助⼒业绩提升职责:通过⼤数据技术,对公司数据统⼀采集、存储、加⼯和挖掘形成⾼质量全域数据资产,以分析决策产品和服务的⽅式对外提供数据解决⽅案 集群规模万级总数据量EB级⽇新增数据量PB级任务量⼗万级 ⽬录 •数据治理概述•成本治理⽅案•⾃动化治理实践•总结与展望 数据治理概述 •Why:对抗⼤数据系统的熵增,让数据管理有序、可控,以及价值最⼤化 •What:保障数据质量,合理降低数据成本,守住安全红线,优化数据架构 •How:管理+治理,通过有效的评估体系配合组织与流程机制,以及⼯具能⼒,驱动可持续治理 成本治理⽅案:思路 成本治理⽅案:成本元数仓 成本治理⽅案:技术⽩盒化 •计算⽤量公式=任务数X调度频次X申请计算资源数X运⾏时⻓X优先级权重•存储⽤量公式=单⾏单列存储量X列数量X⾏数量X表数量X EC副本数量 成本治理⽅案:技术⽩盒化策略 ⾃动化治理实践:⽣命周期⾃动纠正 ⽣命周期规范 •根据不同数据等级、不同数据分层,结合数据是否可恢复以及恢复的成本制定标准⽣命周期规范 避免误删数据 •通过基础的数据⾎缘,结合数据的查询访问⽇志来判断,并且取最早分区和推荐⽣命周期的最⼤值 通知机制 •三轮通知,过程⽤户可以申请加⽩,⽆反馈后,⼀周后进⾏治理纠正 ⾃动化治理实践:0热度表/任务⾃动下线 避免误删数据 •通过基础的数据⾎缘判断下游依赖,结合数据的查询访问⽇志和创建时间判断该表和任务是否真实在⽤ 通知机制 •三轮通知,过程⽤户可以申请加⽩,⽆反馈后,⼀周后进⾏治理删除和下线 数据恢复 •对于⾃动下线任务和删除表,⽤户可以在⼯具上进⾏⼀键恢复 ⾃动化治理实践:任务参数⾃动调优(HBO) 通过分析作业历史运⾏指标,以数据驱动的⽅式,⾃动化为每⼀个DAG推断最优的运⾏参数,以减少资源开销、提升运⾏效率 优化资源配额 优化任务分⽚ 优化功能参数 •通过⼩⽂件合并等参数调整,提升性能 •通过⾃适应扩缩容CPU/MEM,解决资源不⾜和分配过⼤的问题 •通过⾃适应调整Map/Shuffle分⽚,解决分⽚不够、过多的问题 ⾃动化治理实践:增量⾃动化归因 ⾯临的问题 智能化相似模型检测 ⾯临的问题 •业务烟囱建设导致⼤量相似模型•难以定义相似模型•难以计算相似模型 成本治理运营机制 治理收益 效率•治理效率提升N倍 成本•⼤数据成本节约上亿元 总结 成本优化思路 自动化治理方案 •⾃动化⽣命周期纠正(标准规范、⾎缘准确率)•⾃动化下线任务•⾃动化删除表•⾃动化参数优化(HBO) •成本管理(评估、流程、组织)•技术⽩盒化•业务⽩盒化 展望未来:规划 •⾃动化治理覆盖提升•实时资源HBO•业务⽩盒化治理⾃动化诊断•数据湖治理 展望未来:思考