您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[百度]:百度用户产品大数据治理应用实践 - 发现报告
当前位置:首页/其他报告/报告详情/

百度用户产品大数据治理应用实践

2021-08-28封磊百度张***
百度用户产品大数据治理应用实践

!"#$%&'!"#$%&'()*+,-./2021.08.28,09:00 -17:30!"!#DataFunSummit 百度资深研发工程师——封磊|!"#$%&'()*+,#-.DataFunSummit!"!# CONTENTS目录问题背景Subject01Subject02数据元信息Subject03数据质量Subject04|数据血缘 Subject01问题背景用户数据体系概览&治理思路| 问题背景:历史数据积累多,支持产品多,数据和架构复杂业务大数据基础设施全域数仓应用数据层ADS层公共明细DWD层公共汇总DWS层原始数仓ODS层在线存储日志爬虫数据Spark流式计算n数十个APP产品线n数万张存量的数仓表n每天产生数千亿条用户行为日志n数仓表层级深,DAG结构复杂n无用表占用大量存储空间和计算资源数据治理问题OLAP作业调度系统数据源 治理思路:数据血缘数据元信息数据质量1.全链路采集2.矩阵APP场景1.端日志全流程质量保障2.数仓质量保障1.血缘构建2.日志退场 Subject02数据血缘1.问题背景2.血缘构建原理3.应用案例:日志退场| 数据血缘——问题背景Ø数万张数仓表,和废弃数仓,人工排查治理成本高。Ø复杂业务,数据链路DAG拓扑特别复杂,优化提速需要人工维护DAG拓扑,成本高。Ø数仓表延迟,排查上游依赖,成本高。Ø数仓表升级,排查下游依赖,成本高。问题背景分析思路Ø寻找技术手段,自动化产出:①表级别的上下游依赖DAG。②记录级别的上下游查询依赖。③字段列级别的上下游查询依赖。 数据血缘解决方案——构建端到端全链路的血缘地图MySQLRedisES报表OLAP在线存储行为日志在线服务高性能存储端日志服务端日志数据同步平台日志中台配置化抽取同步File血缘上报结构化日志抽取元信息管理日志ODS表日志记录级别血缘上报存储ODS表中间表中间表应用数据层ADS作业血缘上报全链路血缘服务血缘自动化采集血缘API上报血缘关系计算作业血缘上报数据同步平台血缘上报配置化抽取同步 数据仓库(树状结构)...平台化输出数据血缘日志链路行/字段血缘表血缘废弃日志退场废弃表退场任务工单其他场景应用①安全审计②高价值表/字段挖掘③数据查询知识库④数据链路优化提速自动识别回收站云控下线N-1层行/字段血缘AntlrSQL语法分析血缘基础数据N-N层表血缘JobSessionID串联存储鉴权服务Hadoop/Spark字段读信息存储元数据服务HiveMeta-Server表读信息端日志打点APP/H5/小程序OLAPEngine明细表主题表原始表采集采集数据血缘——技术方案计算引擎逻辑执行计划表和字段读写信息采集 数据血缘应用案例——日志退场Ø难点:日志链路深、使用广、历史久的特点,难以高效地对日志进行关联和追踪。Ø创新:使用数据血缘关系技术用于日志治理,自动化,例行化识别废弃日志。血缘关系建设:构建高准召的(行/字段/表)血缘地图。传统做法——静态排查方案,人工识别或源代码扫描,成本高,召回率低,准确率低。创新做法——动态排查方案,从大数据存储和计算引擎的必经模块的运行时日志入手,建设血缘地图。问题分析日志量变化曲线①日志量级在持续加速增长;②由于日志退场机制缺失,大量废弃日志和数仓表无法确认是否可以下线,下游核心指标产出越来越慢,只能追加资源提升计算速度。导致恶性循环,造成巨大资源浪费(计算+存储);背景与目标 关键技术ü实现高准召的(行/字段/表)血缘地图,为后续深度的数据治理,数据流优化提供了技术手段。ü创新地使用数据血缘技术解决日志退场问题,实现日志条数的主动持续降低。ü将数据治理核心能力横向输出到全公司范围内的大数据治理场景,目前已支持搜索、推荐、知识、网盘、度秘等多个产品线,自动化完成数据表的清理工作。日志量变化曲线长效机制建设ü日志退场规范:日志退场规范通过日志管理平台落地,技术手段确保机制长期有效。资源成本优化ü为数据系统和下游应用带来可观的资源成本与效率收益,数据血缘——效果收益数据链路优化ü为数据作业链路的稳定性和时效性优化,提供指引 Subject03数据元信息1.问题背景2.全链路采集3.矩阵APP场景| 数据元信息——问题背景日志管理平台日志规范白皮书参数格式可管理半自动采集元信息和真实数据一致业务含义可追溯负责人信息可追溯日志架构日志&存储控日志采集SDK日志接收服务日志上报规范多协议统一多服务统一多SDK统一多平台统一合A.端日志埋点缺乏管理B.在线存储表&字段信息缺乏管理多套日志系统,无统一规范挑战1.挑战2. 数据元信息——平台化,自动化收集ü结合在线架构和离线架构的经验,系统性设计日志元信息管理能力ü从数据生产源头上治理元数据MySQLRedisES在线存储行为日志端日志服务端日志结构化数据数据同步平台非结构化数据日志管理平台元信息自动抽取File元信息校验元信息管理在线离线上报前上报后负责人信息业务含义字段格式元信息管理平台化,强制填写事前检测&事后巡查打通ERP离职转岗系统辅助信息血缘/价值分/标签 数据元信息——多APP产品矩阵体系,历史遗留问题多APP产品矩阵,既有10+年的APP,又有新孵化的APP,如何解决如下问题:①多个日志元信息管理平台②多个日志采集端SDK③多个日志接收服务端④多个日志上报协议多套日志系统,无统一规范日志元信息迁移日志埋点双打双打数据验证APP端发版收敛双打下线改成单打多管理平台统一多SDK统一多服务统一数据验证端日志下线迁移方案解决方案①多个日志元信息管理平台统一②多个日志采集端SDK统一③多个日志接收服务统一④多个日志上报协议统一各个子业务线①维护成本高②研发效率低抽象通用能力,发布《公司级日志上报研发规范》并技术手段落地执行数仓&统计作业迁移数仓迁移 Subject04数据质量1.问题背景2.端日志全流程质量保障3.数仓质量保障| 数据质量Ø业务指标波动,如何快速排查是不是数据质量的问题?Ø由于数据质量深藏在业务逻辑之下,具有一定不可知性。如何让不可知变成快速可知,可解释?波动原因? 数据质量——端日志全流程质量保障申请线下测试端数据收集上线计算展示发版点位schema元信息第1步第2步第3步第4步端上报策略做到极致数据中心不丢不重埋点数据全流程可视化验证核心指标标准化场景指标模板化解决方案——分为4步:第2步第3步第1步第4步全流程数据准确性目标 数据质量——数仓质量保障<数据质量>监控平台质量检查任务阻塞式非阻塞式数仓指标波动检查任务同比环比时间序列空值率填充率枚举值范围枚举值分布数据量波动通用策略个性化策略核心目标先于业务PM&运营发现问题第一时间排除数据质量问题配置监控规则,生成监控任务抽样比例IM机器人报警 THANKS!EndingLogo|DataFunSummit!"!#