您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[DataFunSummit2023:数据治理在线峰会]:抖音电商数据治理体系和实践 - 发现报告

抖音电商数据治理体系和实践

AI智能总结
查看更多
抖音电商数据治理体系和实践

演讲人:李响火山引擎数据专家 目录Contents 总结与展望 成本治理体系化 工具效率体系化 稳定性体系化 抖音电商数据简介 01抖音电商数据简介 抖音电商业务简介 抖音电商业务发展 抖音电商数据规模快速增长 抖音电商爆发式增长,团队规模不断扩大,任务增速快,数据量级巨大,对于数据治理是新的挑战和命题。 抖音电商数据治理面临的问题 治理问题 ØSLA质量:质量问题是数据治理面对主线问题,随着业务不断发展和成熟,对于SLA稳定性、数据质量、口径一致性要求越来越高。 Ø模型稳定性不足:业务频繁变动,历史模型设计不能灵活适配新业务,通常用打补丁的方式解决,耦合严重,导致模型产出时效性差,消费成本高。 Ø资源成本失控:业务数据膨胀速度非常快,大数据资源的成本占比很高,降本增效的前提下,对于成本优化的诉求越来越高。 Ø治理效率低:数据治理效率低,很多时候是堆人力在做,成本高进度慢,很难达到预期; Ø治理缺乏体系:问题越来越复杂,单点难解决,重复治理次数越来越多,很多治理动作是缓解,并没有从根本上解决问题。 以上问题基本上是每个数据团队都会遇到普遍的问题。 超大规模数仓会带来哪些新的挑战? 日新月异,逆水行舟,雪崩效应 规模化的挑战 挑战一、劣化速度快:任务&表的资产增速越来越快,消耗资源成指数级上升,治理速度vs劣化速度;很容易做了很多治理工作,一看整体健康度不升反降,“按下葫芦起了瓢”。 挑战二、治理资源少:电商开发同学的需求压力很大,在治理方向投入精力有限;研发团队规模大方向多,信息传递和执行力都有很大挑战,治理的同学的推动压力也非常大。 挑战三、规范抽象难:全域兴趣电商业务场景非常复杂,规范抽象难以灵活的适应多变场景,越细致的规范越难以落地;如何平衡规范和灵活业务支持,需要解决的一个挑战。 挑战四、优化难度高:数据规模上升到一个量级,很多常规手段无法实现,技术优化能力要求很高,有不少任务是一天分区几万亿行的数据运算,还有单stage的shuffle量达几百TB。 量变引起质变,传统的治理方法很难应对以上挑战 抖音电商数据治理的顶层框架 抖音电商数据的建设思路是:建设体系化的治理策略,沉淀方法体系、价值体系、标准体系;从数据治理->数据管理+数据治理,实现标准化、数字化和产品化的全面体系。 打造体系化的数据治理架构,驱动分布式自主治理 什么是体系化数据治理? 体系是一个科学术语,泛指一定范围内或同类事物按照一定的秩序和联系组合的整体。 体系化就是使事物成为体系的过程。 我们理解体系化数据治理是把某个方向治理形成一个整体有序组合的闭环框架;具备合理的顶层治理设计,有效的治理运营策略,高效的底层技术支撑。 数据治理为什么难落地? 驱动分布式自主治理先思考3个问题: 内部驱动力+外部推动力自动化数据治理有效精准的北极星指标开发者视角治理视角 1、开发同学为什么要做数据治理?2、开发同学的治理工作量大不大?3、治理同学&上级协助推动工作量有多大? 02稳定性治理体系化 稳定性体系——超大规模数仓的稳定性挑战 Ø电商业务的SLA要求高Ø新增&修改任务数量大Ø任务管理工作量极大Ø任务优先级灵活多变Ø堆资源暴力解决运行慢问题Ø调优能力要求高 光靠治理团队无法解决这些问题,怎样撬动杠杆分布式治理呢? 稳定性体系——基于业务应用场景的分级体系 构建级别+应用+SLA的分级体系,生成应用标签,确定构建底层基础。 稳定性体系——基于血缘能力的任务打标 打标流程 1.生成虚拟尾任务节点,挂载依赖模块;2.在尾任务节点打上应用标签;3.依赖强大的血缘能力,完成上游链路所有任务打标;4.根据重要性迁移到核心队列资源保障;5.每日通过血缘刷新链路标签;6.V2版血缘链路支持T+1和T+2的识别。 稳定性体系——业务应用与保障资源匹配关系 稳定性体系——SLA申报保障流程 技术评估: 业务定级: Ø链路大任务评估(无超过1小时任务)Ø任务运行时长波动性评估Ø任务预警buffer评估Ø任务事故buffer评估 Ø评估业务重要性Ø如果SLA破线,影响大小 以治理团队专业保障为驱动力,加强准入流程,提升整个团队的治理稳定性意识,引导开发同学主动治理。 稳定性体系——二维分级模型和收益 问题思考:传统的任务分级是单纬度;只从一个维度分级,是否能较好识别某个应用/任务的重要性? 收益 1、之前比较散乱的SLA管理,面对几万任务优先级运维,当前只需要管理30+的核心应用标签流程,治理运维工作大大降低。 2、通过血缘反向递推,30+的核心应用覆盖了全链路35%的任务数,治理团队重点关注保障。3、对于研发同学来,能很清晰看到,任务被哪些核心应用依赖,在变更时候更好评估,提升变更质量。4、通过开发平台的标签筛选能力,很灵活的匹配资源,T+2的血缘识别,更好的实现资源节约。5、拓展能力:资损标签,运行时间,灾备降级等标签。 通过应用血缘标签和优先级二维分级法进行管理,在管理成本和灵活度取得一个比较好的平衡。 03成本治理体系化 业务高速增长的成本挑战 业务高速发展和降本增效背景下,如何平衡业务需求和成本的增长? 成本四大挑战 ü业务需求压力大ü成本失控ü成本意识薄弱ü治理意愿低 建立数字化的成本模型,提升成本意识 以前成本优化的收益评估时候,经常说优化xxPB的存储资源,计算资源消耗减少xx%/xxcore*h,ch减少存储xxTB;但对于不同组件资源的成本很难横向对齐。 通过归一化到真实的成本金额,与业务挂钩,更直观,也可以横向对比。 量化研发同学的资产成本,提升成本意识;强化治理的收益,提升治理积极性 计算成本账单模型(示例) 计算成本特点 收益 计算成本是数据第一大成本 ØYARN按quota收费,无论使用率多少,成本不变。Ø离线计算周期特性,凌晨高峰期,白天低谷。ØYARN有多种机型,cpu和内存共有6个计费项 l明确计算资源成本单价。l较为清晰看到子方向/个人的成本构成,鼓励自主治理。l计算成本模型能较好的引导治理方式: 资源归一化模型 治理方式 Ø将6个计费项目按照费用比例,折算到一个计费项目(cpu) ①优化top任务,降低资源申请/提升利用率②下线无效/低ROI任务③任务编排,高峰期任务移到低谷期运行④任务从高成本队列迁移到低成本队列 分级定价模型 Ø分级系数:高峰期1.5,低谷期0.5,平峰期1Ø队列系数:依据资源归一化模型系数Ø定价:真实成本/总资源消耗=单价按照季度调整单价 治理团队核心工作从推动研发同学治理,变成帮助研发同学,准确识别TOP治理收益,推荐最优治理策略。 成本治理体系——成本归因账单 建立清晰的成本账单和归因模型,让同学很容易诊断,为什么成本上涨了,为什么成本下降了? 周/月度账单功能帮助owner按周/月粒度感知成本变化情况和变化归因,以飞书卡片方式推送用户。 Ø帮助开发同学看清成本和治理目标Ø支持开发同学自主分析成本变化原因,及时发现/预防成本恶化;Ø帮助开发同学拆解治理目标,规划可达成目标的治理路径;Ø建立成本心智,感知治理目标和实际治理收益的对比情况; 任务自主治理收益量提升200%,占总体治理收益的65%。 成本治理——技术优化提升资源利用率 HBO:建设电商任务个性化的自动调参能力。 Shuffle优化:针对shuffle阻塞问题,进行打散/限流优化。 读取模型优化:读取扫描万亿级别的大表的任务优化。 虚拟core精细化:cpu虚拟化,能精确到千分之一核,实现灵活分配。 超发能力:底层container超发,队列超发等技术。 收益价值:CPU利用率从60%->78%,极大节省了资源成本,且在持续提升中。 04工具效率体系化 治理工具化体系——体系化定义治理生命周期 数据治理阶段有较多的划分方法,结合经验和抖音电商的实际情况,我们以数据开发流程的来划分事前、事中、事后。 事前预防:通过系统化的方式,上线/调试前的检测;核心是通过工具化的方法事前预防各种问题的产生,主要围绕增量/变更任务。 事中监控:任务日常运行,实时预警,同时也涵盖实时问题诊断和复盘;事中的治理都是有时效要求,必须在一定时间内(短期)完成。 事后优化:深度分析现状,通常以专项的形式进行数据治理;事后的治理一般需要深度治理,组织专项制定计划,主要针对存量任务,因此周期一般较长,收益也比较清晰。 治理工具化体系——事前管控平台Code-CT ü质量提升,事故降低:有效的避免数据事故以及报警,在实践中不断打磨,贴合抖音电商业务场景; ü效率提升,常态治理:一些基础规范无需推动治理,经过自然迭代,不符合规范的情况逐步降低。 ü插件配置,通用规则:建立通用检测规则库,实现规则配置化。 调试提醒(弱规则) 上线阻断(强规则) 拓展案例:模型重构的时候,上线时通过旧表禁用,对下游切换效率带来比较大的帮助。 抖音电商数据生效规则37个,Q1季度code-ct触发规则检测47985次,提醒6241次,拦截3897次,结合稳定性治理,夜间报警量下降80%。 治理工具化体系——事中巡检/事件触发平台 l实时巡检(触发式):一旦有异常及时发出,研发同学立刻接到通知处理;需要当天调度前处理完。 l调度前巡检:大部分规则在这个阶段生效,在22:00/23:00时间,进行跑批前巡检,规避第二天早上跑批风险,需要当天调度前处理完。 l调度中:主要依赖开发平台的基础能力。 l调度后巡检:扫描任务的运行状态,针对识别潜在oom、数据倾斜、异常运行时长隐患,进行预警,一般需要48小时处理完。 治理工具化体系——事后一站式治理平台 一站式治理平台:聚焦在执行阶段的工具产品化,面向开发同学的一站式治理操作运营平台,实现统一工作视图,统一操作入口、统一消息通知、一键治理等能力。 治理工具化体系——治理项分级定义 P0治理项,核心事中的治理项目,特点是很强的时效性,短周期必须处理完成,一般当天处理或者48小时内,未处理有升级机制。 常态化治理 P0 P1治理项,核心事后的治理项目,专项推进治理,以周期形式推进,符合研发同学集中治理的习惯,一般周期为2周或者1个月,核心关注治理完成率。 周期式治理 P1 P2治理项目,支持灵活的治理项目,不强制要求治理周期,鼓励有意愿的同学主动治理;同时支持灵活自主治理,也能支持各种类型治理任务。 灵活式治理 P2 一键治理,提升治理效率提升 一键治理是自动化治理的核心,治理团队致力于不断提升治理项的自动化水平;当前已经具备一定代码生成能力,未来在治理和开发效率提升场景均有较大的前景。 治理工具化体系——全生命周期联动 05总结与展望 思考 跨团队学习(综合能力) 一些心得 我们能不能把治理当成一个业务来运营? ü加强治理分析(2/8法则)ü重视治理运营ü关键指标驱动ü先止损降低污染速度ü适当接受先污染后治理ü循序渐进,不追求一步到位ü做好顶层设计 l设计新版本健康分模型,解决健康分通用问题(健康分版本问题、模型短板效应)l业务成本模型,成本分摊到业务上,结合资产消费情况,评估应用价值ROI。l数据安全体系化、数据质量体系化、数据开发流程体系化。l拥抱前沿技术,AI辅助代码生成,自动代码优化等。 —THANKS— 感谢您的观看