您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[百度]:百度广告场景大数据治理应用实践 - 发现报告
当前位置:首页/行业研究/报告详情/

百度广告场景大数据治理应用实践

信息技术2021-08-28-百度佛***
百度广告场景大数据治理应用实践

数据治理与安全在线峰会内容数据治理与安全论坛2021.08.28,09:00 -17:302021DataFunSummit 嘉宾郑创!百度广告场景大数据治理应用实践DataFunSummit!"!# 商业广告数据环路架构|闭环、规模大、要求苛刻业务系统日志处理中台在线检索广告数据日志数据广告计费客户报表模型、策略词表商业数据处理挑战(降本增效)ü数据时效性强&规模大ü策略密集、迭代频繁:大量离线任务,频繁优化策略任务ü正确性严格exactlyonce、严格时序...! CONTENTS目录治理思路01统一管控治理02分场景治理03底层多引擎优化04! 01治理思路! 什么时候需要治理|When数据治理是一个长期工作,规模增长、迭代积累不断促使数据治理!复杂度治理迫切度业务&数据规模小规模创新期中等规模超大规模治理开源引擎优化+自研引擎大数据管理平台治理开源系统引入数据建模治理规范标准 治理需要解决什么问题|What, 让业务迭代更快&稳&省数据治理数据规范质量安全迭代效率资源成本数据治理解决业务问题ü质量安全:口径、数据延迟、权限...ü资源:资源增速远远高于业务增速ü迭代:迭代慢、缺少复用和沉淀被动优化主动治理长期自治数据治理三个阶段1)被动优化:CaseByCase响应问题2)主动治理:统一解决(如重构)3)长期自治:平台技术&管理机制,长期自治! 大数据治理挑战、思路|How挑战:历史包袱重(治理新增、兼容存量),积累时间长、信息缺失、迭代团队人员多..思路:统一管控(去无效)-> 分场景治理(复用去冗余)->分场景底层多引擎优化统一管控收口场景分类、抽象复用分场景引擎优化任务白盒化(消除无效)ü任务生命周期追溯ü元信息和血缘管理沉淀复用(消冗余)ü子场景数据建模ü任务框架抽象复用(底层优化)通用引擎到差异化多引擎! 广告日志数据特点、治理挑战|历史复杂、成本&迭代优化广告日志(展点消转)流式计费预算、报表...离线数仓adhoc分析、内部报表...离线策略挖掘任务在线词表挖掘、索引生成...迭代更密集更灵活依赖更复杂治理难p治理问题-资源成本:数据+任务2个净增长-迭代效率:迭代慢、任务复用度低p挑战:-历史包袱重(数据&任务规模大、迭代人员多、元信息缺失...)p思路:规范管控、分场景抽象框架、多引擎优化! Subject02统一管控治理任务统一管控管理+技术协同! 任务统一管控思路|控制任务入口数据、任务发布出口、控制资源p挑战:历史包袱重(任务依赖复杂),高速业务迭代,如何无死角管控p思路:管理+技术平台协同,严控新增、消化存量(自然退场+收益驱动迁移)广告日志(展点消转)在线检索(词表、索引..)任务输入:日志数据输出应用:在线计算资源平台管控方案! !任务统一管控|平台功能建设RD分散管理离线分散资源平台集中管理统一计算资源离线任务管理平台功能建设ü迭代视角:更快更稳,能力复用全流程打通(代码管理、数据检测、测试、调度、发布算子、监控报警...)ü管理视角:任务流程管理,可追溯(任务元信息)、生命周期自动退场GC 任务统一管控,平台建设|代码管理、测试拦截、发布、全流程打通触发测试Agile单脚本测试Agile分算子并行触发算子1测试算子n测试......!"数据产出算子!"DAG#$数据测试算子发布算子Address/xbox等数据测试触发测试测试结果代码版本管理离线测试框架持续集成流水线发布拦截能力! !任务统一管控,平台建设|可视化作业调度引擎,统一作业调度入口p迭代效率高:可视化、集成大量通用算子可复用(如数据检测、数据测试、在线数据发布...)p扩展性&稳定性高:基于容器虚拟化调度、吞吐可横向扩展,可迁移可重试 任务统一管控,平台建设| 任务流管理(创建、移交、过期、下线..)效果:任务自然退场(无效下线)、中间数据的自动GC! Subject03分场景治理分场景、特化抽象框架治理! 分场景治理,模型调研任务场景|任务特点&治理思路p任务特点:任务消耗资源重、迭代频繁、资源占用量大1)容易产生数据&特征重复计算,浪费资源2)数据准备重IO、重shuffle(多次拼接、如个性化数据、DB库中数据..),耗时长效率低!单模型视角:基线复用,控飞线全量计算多模型视角:多模型之间特征存在复用空间统一特征仓库宽表p治理思路:构建特征、数据宽视图提升复用 分场景治理,模型调研任务场景|模型调研任务宽表视图性能提速p极速,数据准备(数X倍提升)①数据组织方式:从文本行IO数据到列存IO②计算引擎优化:从MR-> 图灵纯内存计算③业务特性优化、物化视图、联表JOIN分桶...p易用,从多个MR任务到1条SQL,从1条SQL到平台自动化基线数据策略第三方数据模型调研宽表视图(列存)特征计算、训练数据处理SQL化离线日志数据准备纯内存计算问题:大宽表带来数据获取性能问题、易用性问题! 分场景治理,日志数据场景治理|总体思路数据持续净增长历史数据存储数据建模中间表冗余字段净增长分级存储:原始数据磁带冷数据降低副本大宽表,一次建设。基于大宽表查询无效字段退场(传、算、存)全链路治理优化字段级生命周期日志字段长期积累、只增不减! 分场景治理,日志数据治理|日志字段级生命周期管理,总体方案挑战:人工运动式字段梳理退场,成本高、不可持续思路:构建闭环字段管理平台1.字段使用情况难以人工统计(字段生产和使用跨团队)2.新增字段和任务多,变化快新增灰度下线使用监控下线字段生命周期追溯闭环平台!效果:平台化,具备例行化下线能力和扩展能力解决了字段只增不减难题 分场景治理,日志数据治理|日志字段级生命周期管理,使用监控挑战:字段使用监控复杂,远远高于数仓内部复杂度-下游使用复杂(字段owner不明确、1人添加多团队使用)-大量策略挖掘任务,字段频次难监控思路:分级分层监控、逐步下线(日志中台-> 流式平台-> 离线平台)日志其他中台日志中台(反作弊、客户报表...)离线数仓平台游离任务业务离线平台EMRAPI数据读取迁(SQL+UDF)迁流式离线! 分场景治理,日志数据治理|日志字段级生命周期管理,灰度下线挑战:如何低风险、高效完成字段下线检索系统日志入口级流式计算消息队列下游1下游2下游N...直接检索下线:1)异常无法回溯2)灰度验证成本高两阶段下线Step1:离线灰度下线Step2:在线灰度下线 Subject03底层引擎优化分场景多引擎优化! 引擎层优化|数据分析场景查询引擎(图灵)优化p大宽表多场景数据处理、性能平稳,平均数十秒-大shuffle场景、JOIN、嵌套子查询...-聚合查询、明细查询-抽列+计算场景p全实时化p扩展性强、存算分离架构-承载数百PB级数据规模图灵引擎概览!存储优化-嵌套列式存储、统计滤波...计算优化-分区、缓存、索引...-新硬件优化AEP、SSD业务优化-上卷表、分桶...优化思路:精细、极致优化 引擎层优化,数据分析查询引擎(图灵)架构|易用、极速、实时调度查询查询权限安全访问控制可视化交互查询快易新百TB数据查询平均数十秒自助可视化拖拽、模板化、SQL全实时!查询模块存储更新数据抽取格式转换数据导入写入存储列存索引DGA纯内存计算引擎(存算分离)索引、缓存、BloomFilter...异构硬件、SSD、AEP THANKS!EndingLogo!DataFunSummit!"!#