您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[网易]:基于Dataops的开发治理一体化实践 - 发现报告
当前位置:首页/其他报告/报告详情/

基于Dataops的开发治理一体化实践

2023-06-11网易尊***
基于Dataops的开发治理一体化实践

基于Dataops的开发治理一体化实践演讲人:乙峰 TITLE标题网易数帆品牌介绍1Dataops背景介绍2基于Dataops打造开发治理一体化产品体系3开发治理一体化产品落地效果4 领先的数字化转型技术与服务提供商网易集团TOB企业服务品牌品牌使命帮助所有客户成功实现数字化转型品牌愿景成为客户首选的数字化转型技术与服务提供商使命与愿景隶属数字产业事业部,垂直企业数字化转型技术与服务领域。与网易智企、网易灵犀办公、网易伏羲共同担当网易TOB业务TOB业务排头兵网易关系网易技术科研和创新应用的前端网易集团业务公共技术支撑团队网易技术对企业客户开放的接口背靠网易杭研来自哪里定位于领先的数字化转型技术与服务提供商 领先的数字化转型技术与服务提供商网易数帆大数据的发展历史2006分布式数据库、分布式文件系统、分布式搜索引擎,三驾马车支撑了网易互联网2.0时代的产品2009开始基于Hadoop做数据分析以及运维2014大数据平台猛犸、网易大数据(有数)上线,加速了大数据规模化应用2017网易数帆大数据正式对外商业化2018网易严选、考拉、音乐、新闻等业务相继开始数据中台构建,网易数帆发布“全链路数据中台”解决方案2020网易数帆提出“数据生产力”理念,倡导“人人用数据、时时用数据”2022网易数帆发布数据治理和数据开发一体化“数据治理2.0”解决方案 领先的数字化转型技术与服务提供商•Gartner:Dataops是一种敏捷和协作的数据管理实践,专注于数据管理者和数据消费者之间的数据流的通信、集成、自动化、运营。•IBM:Dataops是人员、流程和技术的有机结合,用于快速向数据消费者提供可靠高质量的数据。网易:DataOps是一种将软件工程CI/CD的方法融入数据开发的流程,基于自动化的数据测试、任务发布等技术,构建数据发布流水线,使得数据开发效率更高、交付更加频繁,交付质量更有保障。业界对Dataops的理解DataOps发布项目计划 领先的数字化转型技术与服务提供商Quality Control46%Automation35%Speed of analytics delivery34%Speed of teration34%Accuracy analytics delivery33%Business Alignment32%Auditing and Monitoring32%Unified Data security and privacy28%Testing and deployment28%Unified data access30%Code and Change management24%Dataops重点解决的问题 领先的数字化转型技术与服务提供商•Dataops是一种协作框架,专注于数据相关流程的自动化、集成和优化•Dataops体现了产品、技术和数据的有机结合,包括数据开发流水线、版本控制和CI/CD管道,来简化数据生命周期•Dataops的目标是及时、可靠地向数据需求方提供高质量的数据Dataops的价值开发持续集成部署持续发布编排工作流测试监控告警数据分析有数BI报表仪表盘数据准备元数据数据目录数据集成ETL数据探查数据质量数据接入CDC数据传输流/批业务系统开发数据采集数据工程ETL,数据加工数据分析编辑报告、专题数据分析师业务分析师数据产品业务系统数据消费者数据管道源数据供应链系统交易系统外部数据数据处理数据开发 领先的数字化转型技术与服务提供商Dataops-网易数帆产品化实践探索数据流水线通过整合不同的子产品,建立一条数据流水线,实现数据需求的自动化流程和组织的高效协作,覆盖完整数据生命周期。持续集成与持续交付Dataops强调持续集成和持续交付,以实现数据处理的快速迭代和部署可信与安全Dataops需要保证数据资产和用户产生的数据集的可用性,同时保障数据能够被安全合规的使用发布中心实现跨环境的资源发布 领先的数字化转型技术与服务提供商网易数帆-数据生产力模型数据生产力一个愿景三个方法论广义上:通过使用数据带来组织生产力提升。狭义上:企业员工使用平台工具采集数据、处理数据,数据分析以及管理数据的能力。人人用数据,时时用数据DataOps、DataFusion、DataProduct 领先的数字化转型技术与服务提供商网易DataOps1.0:数据发布流水线编码测试编排代码审查发布审核部署上线•数据开发IDE•多版本管理(含调度)•SQL Scan•UDF Studio•数据沙箱•依赖调度•智能任务依赖推荐•参数组•数据比对•数据形态探查•Code Reivew•发布包•全链路影响分析•自定义审核流程•自动化回归•任务模板(组件库)•基于优先级资源调度•智能诊断•资源组效能工具DataOps•基线预警Continuous IntegrationContinuous DeliveryContinuous Deployment•SLA 领先的数字化转型技术与服务提供商数据消费依然存在的困扰•数据开发自行开发所需数据表,公共逻辑未沉淀,重复建设多•近义指标膨胀现象•传统建模为了满足业务快速交付,开发流程约束收效甚微原因分析•模型命名不规范•字段命名不唯一•没有数据安全规范,数据分级分类无法得到实施现象•缺乏标准,建模随意原因分析•数据质量稽核规则覆盖率不高•70%的相同数据项,稽核规则和/或阈值设置不一致现象•质量稽核规则没有配置依据,依赖人员对数据的理解程度原因分析烟囱式开发质量规则覆盖不佳规范缺失 领先的数字化转型技术与服务提供商网易DataOps2.0:数据开发治理一体化数据标准指标设计模型设计离线开发数据传输数据测试元模型、词根数据元、数据字典资源分类原子指标派生指标复合指标维度事实模型关系设计阶段开发阶段测试阶段指标、数据元、分层分类字段类型映射规范(快速建表)数据处理规范(字段映射、按格式处理)稽核规则定义稽核规则推荐自助分析数据安全规则任务发布上线阶段安全中心数据质量治理套件开发套件发布审核传输过程静态脱敏临时查询动态脱敏资产等级任务运维字段类型、分类、数据格式规范质量规则安全等级安全规则元数据管理业务元数据管理元数据技术元数据全链路血缘•“先设计,后开发,先标准,再建模”,数据标准成为研发治理一体化的核心•将数据治理的流程自然融入数据开发的全生命周期过程中,在数据开发的过程中完成数据治理流程引擎 领先的数字化转型技术与服务提供商网易DataOps2.0:数据安全治理明确的组织结构保障体系化制度流程依据完善的产品工具能力底座组织保障项目组级项目级流程引擎制度规范数据标准行业模板❑组织保障:建立企业级安全治理组织结构,为安全治理保驾护航❑实现项目级,项目组级角色/人员管理,并制定相关规范❑公开可查询❑制度规范:基于分类分级的权限管理制度,企业分类分级模板❑数据安全红线:明确不可触碰的安全红线行为❑建立培训交流分享制度:帮助企业建立安全治理体系❑丰富产品功能:权限、管理、保护、审计等四大功能中心❑安全治理评估体系:数据全生命周期,安全分体系❑流程引擎:治理流程线上化保障权限中心管理中心审计中心保护中心 领先的数字化转型技术与服务提供商网易DataOps2.0:发布中心EasyData的统一资源发布平台,通过资源打包、发布、导入、应用等过程,实现在线和离线场景下的跨环境资源发布 领先的数字化转型技术与服务提供商网易数帆-基于Dataops的开发治理一体化产品体系大数据基础平台NDHHDFS/S3Arctic(实时数据湖)Yarn/K8s自动化运维管理SparkHiveImpalaFlink大数据开发治理平台EasyData数据集成数据开发数据测试任务运维基于DataOps数据开发面向数据分析的数据治理体系数据治理360数据标准数据元数据字典数据分类元数据管理元数据采集元数据注册元数据扫描数据质量稽核监控质量报告强弱规则数据加密脱敏安全等级敏感识别数据安全原子/派生指标系统模型设计中心版本管理指标字典维度建模量化评估规范设计价值分析成本分析量化ROI数据目录数据检索资产门户数据地图标准发布元数据发布质量工单权限申请指标关联发布审核数据下线数据血缘数据服务有数BI数据门户可视化报表自助取数移动端数据填报智能决策驾驶舱数据准备数据大屏复杂报表 领先的数字化转型技术与服务提供商开发治理一体化:网易落地成果规范•先标准后建模,确保了表、字段、指标命名的一致性及规范性•字段标准化率达到80%,字段及指标的安全等级已完成100% 设置效率•先设计后开发极大程度保证了公共层逻辑下沉•相同需求对应指标数量缩减48.7%•云音乐模型复用度从2.4%提升到9.6%,下线3.4W 个模型质量&安全•帮助云音乐完成上市监管安全检查•自动根据数据标准生成质量稽核规则•规则覆盖率达到65%,单个任务的配置效率提升约70%•严选质量覆盖率提升100% 领先的数字化转型技术与服务提供商•标准:公司内数据孤岛现象严重,阻碍数据内部共享•质量:数据质量难以及时满足业务预期,无法助力数据挖掘产生价值•安全:难以兼顾数据流通和数据安全的平衡三大痛点•组织架构:结合企业组织架构及人员配置落实数据治理工作、权责分担机制•业务流程:针对存量数据、新增数据制定不同的治理流程,并做到仓内仓外元数据统一管理•产品工具:将整个数据治理流程贯穿于各个子产品模块中,打造开发与治理一体化的数据中台重要举措•数据标准管理:基础数据标准179个,指标数据72个,搭建统一的公共字典合计7个词根新增159个,制定两套数据标准分类方案。•数据质量管理:累计沉淀400余项数据质量规则。•数据安全管理:基于数据分级分类的数据服务审批流程上线,基于脱敏数据在开发环境进行开发和任务发布的研发流程打通。落地成果(截至2022年)治理目标:数据资产化、数据价值化、数据智能化开发治理一体化:某券商落地成果 领先的数字化转型技术与服务提供商质量•质量问题下降了63%•稽核规则覆盖率达到92%•质量稽核规则、数据模型、数据标准的统一,解决了稽核规则完备性的根本问题•数据使用用户规模从30+扩展到500+•平台用户业务人员的比例从30%提升到98%•梳理数据安全等级,治理非法权限策略1200+•数据标准与数据安全策略(权限、脱敏)保持一致•下线无用数据20%,年约节省成本超过100W•构建了精细化的管理机制•完成企业数据标准定标500+,发布电信行业数据标准•申报行业标准规范价值安全成本标准效率•需求延期率下降到1%•平均需求交付时间从一周提升到3天开发治理一体化:某运营商落地成果 THANKS

你可能感兴趣

hot

2023 DataOps实践指南(1.0)

信息技术
大数据技术标准推进委员会2023-07-31
hot

数据安全复合治理与实践白皮书

信息技术
中国软件测评中心2021-12-21
hot

数据安全治理白皮书5.0——行业数据安全治理实践集

中关村网络安全与信息化产业联盟2023-05-17