您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[DataFunSummit2023:数据治理在线峰会]:EB级数仓都在用的算子级血缘如何实现主动数据治理 - 发现报告

EB级数仓都在用的算子级血缘如何实现主动数据治理

AI智能总结
查看更多
EB级数仓都在用的算子级血缘如何实现主动数据治理

演讲人:周泉Aloudata(大应科技)联合创始人&CTO 周泉 曾任蚂蚁集团数据平台主架构师,蚂蚁数据治理一号位、蚂蚁大数据安全合规技术一号位。从零构建了蚂蚁实时智能决策、主动数据治理、大数据安全合规技术体系。 Contents 基于算子级血缘的指标链路治理实践 主动数据治理,数据管理新范式 基于算子级血缘的主动模型治理探索 主动数据治理数据管理的新范式01 数据管理复杂度正在乘数增长 复杂度剧增之下面临的数据管理挑战 看不清 管不住 治理难 •问题模型、重复数据盘点难,链路分析工作量大•数据消费场景错综复杂,下游迁移工作量大•上下游协协同本高,新老模型切换推不动 •数据加工链路长,指标口径溯源费时费力•表血缘粒度太粗看不清,异常根因定位慢•表血缘发散太快,变更影响评估噪音多 •业务需求太急,应用层无序建设、中间层空心化•业务用数引发链路不断增长、成本剧增•管控滞后,质量风险、合规风险发现总在事后 某头部互联网企业年均数据增长高达60%+,但稳定可用数据不足20% 某头部险企完成重点指标口径盘点高达6000人/日 某头部银行100层以上数据链路上千条 管理复杂度激增,需要有更精细、更智能的数据管理手段 Data management has begun a shift frommanaging the datacontent to focusing on metadata. Market Guide for Active Metadata Management2022 Active metadata management is a set of capabilities thatenables continuous accessand processing of metadatathat support ongoing analysis over a different spectrum ofmaturity, use cases and vendor solutions.Active metadata outputs range fromdesign recommendationsbased upon executionresults and reports of runtime steps through, andindicators of, business outcomesachieved.The resulting recommendations from those analytics areissued as design inputs tohumans or system-level instructionsthat are expected to have a response.“ ” Gartner 与工具及流程深度集成,促进管理与协作 持续处理和分析元数据,深度刻画数据 面向行动,提供智能决策建议 BigMeta基于算子级血缘的主动数据治理平台 算子级血缘,复杂数据链路纤毫毕现 基于算子级血缘的指标链路治理实践02 算子级血缘实现自动且持续地指标盘点及链路保障 业务背景: 某金融机构数仓数据表规模已达数十万,数据质量问题频发,其中监管报送和高管指标链路问题尤为突出。为保障重点数据链路,该企业过去始终通过人工逐个梳理指标计算口径和加工链路,经盘点的监管数据链路末端清单表上百,涉及全链路字段数万,人工盘点工作量高达数千人/日。 核心诉求: 1.梳理监管链路指标上游链路依赖,加强重点链路数据质量及时效保障2.厘清指标加工链路每个节点的字段口径,登记整理形成指标百科3.元数据持续保鲜,适应未来变更 治理挑战 ①自动盘点:基于算子级血缘的字段口径自动抽取 ②自动盘点:字段口径跨层溯源,自动梳理指标体系 ③精准保障:精细识别业务基线,精准控制保障范围 对消费场景进行业务视角的分类分级,沿着精细化血缘向上游进行标签扩散,上游资产按照下游传递的业务分类分级标签打标,形成“精细化”的业务基线,指导基线链路上的资产变更和保障工作。 用户可以使用标签辅助进行影响面分析,快速定位关注的业务场景或者等级 基于算子级血缘的主动模型治理探索03 基于算子级血缘实现主动模型治理 基于算子级血缘实现模型问题自动发现及治理建议 局部算子网络 全局血缘网络 建议 2匹配 3分析 判重 第四步:基于基数及代价预估,评估“等价替换、维度替换、链路短路”等整改方案的可行性,产出高置信的整改优化建议 第三步:基于圈定的问题链路,构建标准化、归一化的抽象算子网络,精细化分析链路优化机会,生成整改优化方案。 第一步:基于数据血缘多轮扩散,根据溯源口径和数据特征,快速发现相似资产,并进行分组。 第二步:基于判重结果数据,构建疑似问题链路的局部血缘图;通过子图匹配,确定疑似“坏味道”模式。 —THANKS— Aloudata官网:https://www.aloudata.com