您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[网易]:数据治理2.0:开发与治理一体化 - 发现报告
当前位置:首页/其他报告/报告详情/

数据治理2.0:开发与治理一体化

2023-03-09网易惊***
数据治理2.0:开发与治理一体化

主讲人:郭忆网易数帆大数据产品技术负责人数据治理2.0开发与治理一体化2022数字+大会 郭忆•网易数帆大数据产品技术负责人•研究生毕业于天津大学,计算机应用专业•十年数据相关系统设计和研发经验•构建了网易数帆数据中台支撑技术体系,支撑了网易云音乐、严选、传媒、有道、邮箱等数据中台项目建设•多次受邀在全球开发者大会(QCon)、全球互联网架构大会(GIAC)、中国数据库大会(DTCC)、系统架构师大会(SACC)分享网易数帆数据建设实践经验•极客时间专栏《数据中台实战课》作者,订阅量超过19000+2022数字+大会 目录CONTENTS01网易数帆数据治理2.00203传统数据治理面临的挑战数据治理实践2022数字+大会 传统数据治理面临的挑战2022数字+大会 数据生产力网易数帆数据生产力模型聚焦:金融| 制造| 医药| 流通|国企数据生产力:通过使用数据带来组织生产力的提升1个愿景:人人用数据、时时用数据3个方法论:DataOps、DataFusion、DataProduct2022数字+大会 数据治理是构建数据生产力的基础找不到•60%的数据都没有挂靠数据目录•数据零散的分布在多套Hadoop和数据仓库之间数据开发效率低、质量差•38%的需求交付存在延期•65%的数据质量问题都是由数据开发任务变更导致看不懂•78%的元数据都存在缺失,尤其是管理元数据和业务元数据信不过•每周都有10个以上的数据质量问题被投诉,且90%都是业务先发现•数据脱敏规则漏配,导致供应商数据被泄漏管不过•78.39%的表,占据了21.63%的存储,在30天内都无人访问•每个月都有5次以上的事故跟业务滥用大查询相关2022数字+大会 传统数据治理1.0数据标准(定标)元数据管理(落标)数据质量数据安全2022数字+大会 传统数据治理缺陷(一)开发与治理脱节数据建模与数据标准脱节数据安全与数据标准脱节数据建模与元数据注册脱节数据质量与数据标准脱节数据开发与数据标准脱节2022数字+大会 传统数据治理缺陷(二)没有解决烟囱式的数据架构TableTableTableTableTableTable•指标口径不一致•数据重复开发,带来的效率问题•数据重复计算带来的资源使用问题2022数字+大会 传统数据治理缺陷(三)缺少对不同平台的统一管理TDHOracleMySQLDorisClickHouseGreenplumVerticaTiDBCDHFusion insight关系型数据库分析型数据库数据湖2022数字+大会 传统数据治理缺陷(四)数据治理跟数据消费脱节跟BI 工具无法打通缺少统一的数据资产门户2022数字+大会 传统数据治理缺陷(五)忽视了数据开发过程中的效率、质量问题!•在某电商业务中,业务三单有礼,因为上游任务变更,导致下游涉及资损数据计算异常,造成P1级别>30W生产事故。•在某电商业务中,由于订单标签任务依赖配置缺失,导致下游任务空跑造成数据异常,给老客发了红包,造成P1级别> 20W的资损。数据开发任务及配置导致65%数据问题数据开发任务变更导致的生产环境数据问题占比达到65%!2022数字+大会 传统数据治理缺陷(六)资产属性评估不足78.39%表占据了21%存储空间,30天内都无人使用数据缺少分类分级,对数据字段的敏感等级缺少管理每个月有3次以上事故跟资源不合理使用有关2022数字+大会 传统数据治理缺陷(七)缺少量化的手段数据质量数据安全数据价值数据建模数据成本规范设计2022数字+大会 网易数帆数据治理2.02022数字+大会 DAMADAMA:数据治理是对数据资产管理行使权利和控制的活动集合(规划、监督和执行)数据治理数据建模与设计数据存储与操作数据安全数据集成和互操作文件和内容管理参考数据和主数据管理数据仓库和商务智能元数据管理数据质量管理数据架构重点:•DAMA规定了数据治理的11个数据管理的职能,告诉我们数据治理应该干什么事情,对数据治理有一个很清晰的边界2022数字+大会 DCMMDCMM数据战略数据生存周期数据治理数据架构数据标准数据质量数据安全数据应用DCMM数据管理能力成熟度评估模型,由国家工信部、国家标准化委员会组织编写,是有个数据治理领域的国家标准。重点:•给出了数据治理的评估方法2022数字+大会 网易数帆对数据治理理解企业全域数据治理业务中台数据中台主数据管理(MDM)解决业务系统核心数据跨系统、跨流程、跨业务的一致性、正确性和权威性数据质量数据标准元数据管理数据目录数据安全指标管理标签管理面向业务系统数据治理面向分析数据治理数据服务维度建模2022数字+大会 网易数帆数据治理2.0网易数帆数据治理的方法论,将传统数据治理的方法融入数据开发的全生命周期中,基于DataOps全生命周期数据开发底座,采用数据中台的数据架构,结合了网易数帆特色的基于ROI的数据资产化实践,我们将其称为数据治理2.0核心亮点:•开发与治理一体化•与BI的无缝协同•采用DataOps的数据开发底座•数据中台架构,解决烟囱式数据开发•基于ROI的数据资产沉淀DataFusion数据建模数据质量元数据数据安全数据标准指标管理基于ROI数据资产数据服务2022数字+大会 需求数据建模数据抽取数据探查数据开发数据稽核任务发布持续运维数据标准•核心理念:“先设计、后开发,先标准,后建模”数据标准是解决数据质量问题的最根本的解决方法数据安全核心亮点1:开发与治理一体化2022数字+大会 核心亮点2:数据中台架构数据中台架构统一指标管理体系高复用、规范公共层模型数据服务化2022数字+大会 核心亮点3:数据治理与BI的无缝协同元数据注册元数据采集元数据扫描元数据发布业务过程模型设计维度度量Integrated LayerHiveCatalogMySQLCatalogGreenplumCatalogHiveMySQLGreenplumBI(可视化图表)自助取数(拖拽取数)物化视图Clickhouse数据抽取构建CubeCube管理Cube推荐圈选数据集relationships2022数字+大会 亮点4:企业一站式数据资产门户•一站式企业数据资产消费2022数字+大会 核心亮点5:基于DataOps开发底座编码测试编排代码审查发布审核部署上线•数据开发IDE•多版本管理(含调度)•SQL Scan•UDF Studio•数据沙箱•依赖调度•智能任务依赖推荐•参数组•数据比对•数据形态探查•CodeReivew•发布包•全链路影响分析•自定义审核流程•自动化回归•任务模板(组件库)•基于优先级资源调度•智能诊断•资源组•效能工具DataOps•基线预警•流程协作Continuous IntegrationContinuous DeliveryContinuous Deployment•SLA2022数字+大会 核心亮点6:资产精细化管理•核算每个任务、查询、表的计算、存储资源消耗,折算到钱,且分摊到每个数据报表,数据服务API应用层面•“剥洋葱”式数据下线,从下游不再使用的数据应用开始,逐层向上游任务和数据下线归档•任务和查询成本预估,对于高消耗任务和查询,进行审批管控2022数字+大会 核心亮点7:数据资产3602022数字+大会 目录CONTENTS01网易数帆数据治理2.00203传统数据治理面临的挑战数据治理实践2022数字+大会 数据治理实践之东北证券借助网易数帆EasyData数据开发与治理平台,实现了“数据开发与治理的一体化”,从数据生产源头出发,遵循“先设计,后开发,先标准,后建模”的理念,确保开发出来的数据就是遵循规范和标准的,实现了数据的长效治理,解决了多年数据治理难落地,效果差的难题。通过数据资产消费平台,一线业务人员可以轻松实现数据资产,找得到、看得懂、信得过!标准质量安全通过打通数据标准和数据建模工具,在模型设计过程中就可以直接完成数据标准的落标。东北证券注册元数据2814项。通过打通数据质量和数据标准工具,根据数据标准直接生产数据质量稽核规则应用在模型上。东北证券生成数据质量稽核规则2890项。通过打通数据安全和数据标准工具,根据数据标准中定义的数据敏感等级,生成数据脱敏规则直接应用在模型上。东北证券生成脱敏规则1323项。2022数字+大会 数据治理实践之浙江电信浙江电信借助网易数帆EasyData数据开发与治理平台,构建了逻辑数据湖,将数据中台构建在跨平台的逻辑聚合层之上,实现了多平台的统一管理。与此同时,发布了数据入湖标准,实现了数据“入湖有标准,出湖可管控”的目标。将物理分散的Vertica、CDH、NDH等不同平台上的数据构建逻辑统一的数据中台。逻辑统一,物理分散规范入湖发布6项数据虚拟入湖标准,浙江电信完成86个核心系统的接入,沉淀数据资产4144项。出湖管控通过数据服务,实现数据出口的统一管控,浙江电信发布数据服务API300+。2022数字+大会 新书预告《从数据中台到数据生产力》2022数字+大会 THANKS2022数字+大会 THANKS2022数字+大会 THANKS2022数字+大会