您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[博睿数据]:2024数据治理:数据中台建设与能力提升策略 - 发现报告

2024数据治理:数据中台建设与能力提升策略

信息技术2024-08-26-博睿数据华***
AI智能总结
查看更多
2024数据治理:数据中台建设与能力提升策略

数据中台建设与能力提升策略 DATA GOVERNANCE 目CONTENTS 1.数据治理是什么 2.建设数据治理的背景 2.1.运维行业为什么要做数据治理?2.2.运维行业数据治理时的主要痣点 3.数据中台和数据治理 3.1.数据中台如问帮助企业数据治理3.2.如何提升企业数据治理能力3.2.1.数据中台的建设思路3.2.2.数据中台设计 4.Bonree如何做数据治理 5.总结 01数据治理是什么 数治洋即:DataGovernance 由于切入视角的不同,不同的机构和组织对效滤治在有不同的定义 国际数治理研究所 国际数据管理协会(DAMA) (DGI) “数起治理是一个道过一系划信急相关的还轻来实玩决半权和职云分工的系统,这些过程按照达感共识的卖型来执行,该模型措述了准能根这什么信息,在←么时司和况一:用十么方法:来取计么动。 “数据治理足对数提淡产的管捍洁动行保权刀和控制.的活动集合(规别、益控和执行~ IS038508-1:2019标准 “指守数据竺理泛动的权沃宽定和校力的框架 02数据治理的背景 2.1.运维行业为什么要做数据治理 •提高数据质中 有即于们保数范的准饰烂,完整三数烂:为运维团提共可非的信息来源 •提高数据安全 数批治理包名对数芯的保护妇安全管理,例如访问垫制、加密剂数芯备分 •提高数据一致性 运性三业泌及念多系统和三台,数据可能存在不一致性:数据治理方动于整合栏标汽化数据,销怀数批在名个系统剂平台之间的一款: •文持决策 仁动丁为管型层提供高质工、准确的数起:以支持更好的法策。 •提高运维水平 涵过对数据进行治坦:可以发现潜在门题、优化运维流轻、担高资源利用率:以而起高整体运维水平 2.2.运维行业数据治理时的主要痛点 •数据质量问题 出二系统众多、数居来源复杂,数据辰中可能存有间额,女不准确、不完登、不一致等、这给数治理一来了非战,声要按入大±对问和结小进行效芯洁洗、验证和整合。 •数据分散和碎片化 数担往往分故在不同的效出库、文件系统和应开中 •技术与工具选择 市场上有众多的数据汽理工具和技术可洗泽,企业完要评仕和洗泽合适的技术和工具,这可能会耗费很多时可和运力 •缺乏数据治理经验 许多企业在数提治埋方中缺乏经验,可能大知道如没计和实施有效数据治坦资略和流栏 •持续改进和优化 勇和技术,以便及时豆新自己的方法和资略 03数据中台和数据治理 3.1.数据中台如何帮助企业数据治理 在数宁化转型浪潮中,为了应对信息马挑战,企业迫切盖费构建一个互送互道的平台来打驶举率,促进信忌高效流温,数抵中台作为企业数抵治挥的核心架构,可以实规数据的统一存储、处理和管理,为业务部门提供高质量的数据服务,成为推动企业持续、高效发展的重要引率。 D数据整合 数据台帮助登合名种系统、米源、格式的数据,长供统一的存诺和管理,有助干这种碎片化可题的解决,提高数批的可能知一欧性:以而提高数批的质上 2)数据质埋 数范中台能够是兴一系列的教范质量管理,妇效芯洁洗、延也去主、数质量汉和修复等,归保效记的准肺性、完整性和数性 3)元数据管理 数据中台可以逆立元数揭的管理体系,记录数据的定文、来源关联,帮功提后数据的可理新性,方恒数恬检索和使用 ④数据安全与合规 数批中台能提供一系列安全限合现管理,包括数担密和防控,保障数拟的安全和隐私 (5)数据分析与可视化 数据中台提供的数据股务能够支持可视化分杆工具孜数,从而实现实时分研报表牛成和数据检崛等坊能,时发现落在问或,优化运继的流程和提户运继水平 (6)标准化与最佳实践 确侣数据治理的一致性和观范性,提产数据治理效果,降促运维风险 3.2.如何提升企业数据治理能力 3.2.1.数据中台的建设思路 1.建设统一的可观测平台 思路1 集合各个系统,打通前端的登录,快述整合搭建统一的平台 优点:时快,建没成木们不足:只表五统一,在变构、数据、存情方五没有实现打通,后期维护失代或云高 从业务、数据、架构等方面全部新规划调整,整合各个团队骨干从0到1建设统一的可观测平台 优点:将数揭做五完降的流卫,夯卖数据品出,为后续的信忘整合、特升关联、业务洞察等提供强有刀的支撑不足:叫门花费长、廷设成六宝, 2.利用数据中台建设BonreeONE •业务梳理:核场景包拆ITOM统一监控、AIOP背能运维、BizO3s业务运含,DcVOps效能报升ScOps安伞运红 •技术架构设计原则: 一体化解决方案:实环领域注索2分层设计:任制合、拓件化、存储可替换3高并发:多活、云热点、分布4高性能:换批、乐箱、织码、预处三5高可用 •平台架构 3.2.2.数据中台设计 设计目标: 全数据统一必埋、对业务侧产敏底晨、大编码应对数据处埋&注摸、提于业务送述度、多源欲据矫一查询。 数据三台的能力乍后教据必理知效据服头。 数拐处理 OneETL能够支持翰入、转换、晰、输出冬和子,可时支持多租户: 司时,博咨数对"ETL傲了可规化编排方式,使其能处划数据支能傲纠科!间脂裹,而数据丰台的另一块核心业务:数据务,.由Ona5ervice叉卖现,能够报供统一的BQL(业现在可一个结果集中:、数治理(斌过指标的元数指右函指标美些与继度然后选一通过指标查沟;根出流呈声况,在流量高率时降级处理数扣;提供多租户)等。 QnC上IL关键能力 1.使门拍低,能形实可视化拖波,消划DAG实现算子灵活斯2,瓜性好,旨牛化算子设计能够实玩销入,计算,输出算子面亿亡层3.县各志、J51半结构化数处理能力,支持获套结构的节当处理4.部署成本低,与park/fink村比,自D.4G并子的部署成本节约半 QneETL设计目标 1.无综码-无需编码,拖立挖支麦2.轻便简洁-不需十发参与,荷单易穿:依熟少3资源消长少资源消耗极少4.指件化扩展-何算子支持排件化,用户可白行开发算子5.面自实时数据处捏-支时深度嵌套复杂json,寸序文本 OneETL的三个关键技术点 技术点一:任务编排DAG DAG(Cirectedacyclicraph:有向无I环区):如是一个有白图元法以早个顶点山发经过若干条边回到该点,则这个图是一个有向无环图 •原则:单缔物多输出 •特点: 1.易于维护 DAG可以洁叶池-首述ETL中的各任务之市的依机关系,生整个工作流程易干理留和统护。 2.灵治生强 DAG可以通添加或删除节点宋扩展或缩小工作流程,从而满足不同的需求, 3.可年用性高 由于DAG表为一组任多及三依赖关系,因此可以等三安制井压用于不同的教据,从而实现高可车用性: 4.易于并行行 DAG十的任务之间存在依欢关系,旧足没有循不依赖,因此可以辑松地进行井行执行,提高处理效率, 技术点二:OneETLSPI插件 •JavaSPI土要包含四个方面 1. Service凯开放情口类;可访问末些特持定的应丑程序功能或功能 2. Service ProviderInterfare准为proxy或老是enpoint的接口或者象类 3. Service ProviderSPl的持定实现:SeivicePravicer中可以包含一个或者多个实玩类 2. ServiceLoader SPl的核心是SeryccLoace案,5civiceLoadcr可以发现和加美实现作用:它使用上卜文类路径来定信servicoProvider实现并将其放在接存中: •SPI的优点 1松提合能较好地解得,并在程序运行时达到插件替次的日的。 2.5展性强开发人员射不不效变代码的同时轻检广应应用程序功能。 3.遂化 于发人点只光要开款标准的接口:从一定程质二避免程序的复杂性 •,SPI去pom依植优化 引入性件宝然可以培列灵活性,但托挂件包列m中:兽加-击件时需要修改坐标:不方,因此芸做SPI去pom依顽优仁 l.定义插件类加微群PusinclassLoeder:消过定义指定的类加载器加就推件、采用线认类加 2.定义插件发现类PllgDisccvery,涵过jar或当指定的pgm文件用来发现托件. 3.载搭定的指件,加遇PlL盒1DiscCVcry发现插件 4,定义打包逆拍,在工程打包的时候通过指定打包方式将-面件打包至指定日录供Pluginscovery号括件 技术点三:OneETL资源管理 资源管理目标 1,刘则线程资源进行仁效告理2.实现资源共亨及独享提于数指集成隐定性及提于资源利口率3.实项公有下务资源共字,私有仟务资源驻占,并支持共字及独字可划款 数据服务 Q1eService:提偿一站式多恶数据报务,通过3QL提偿统查询 关键能力 1.可通划BPL否询,面向悦型而不面向存诺,存诺的替决不影-自务例的生用2.实现跨源的当标计算知跨业实平台,用户侧无需号点指标的在储方式知位当3.能多关疾GMB进行模型计算 二、性能提升 1.司表司条件流包可合升为一条语司2.支别等子&过速条件的下护3.数起口并,估算荣个SQL节子(如Filter、lcin、Sot;的代价:送取优第略来执行 1.应月方通以BQL查询OneService2.心leservice查们元数提进行语法新标3.解栏完成后法行SQ优化4.生成SQL执行划片,发放给执行模5.扶行搭块进,滑包改到个同存筛引孕风行6.技行完维吴汁行再次算,并向应结果。 04Bonree如何做数据治理 Bonree做数据治理的实操七步骤 1.明确治理目标和范围 月际: 将零散的名个系统效据进行统一管理、并能应用至数据分折、告、和根因分折、并能应用至后续广思的能 主要范国: 系统;sdk、server、bowser、MF:数批:指标、讨用法、公后、率个 2.搭建数据中台其础架构 恨据治理目标利荣围,挡注数据中台的础架构 3.数接入一整合 将分散在不同系统剂平台的效起接入到效起中台:进行欲存情知管坦。追过效规整合动法流:消除互复、错误和个一致的数据,高效据质量。 4.元数据管理 在额据中台中冠立数据管详依系:记录数持的定文、求源、关联关系等信总:这有助于提高数据的可理前性,方便数据的检刊仪用, 5.数据安个与合规 碗保数捉中台的安全和隐私,实施访问控、加密、备份等措施 6.数服务开放 消过数据服务层,将教据中台中的教据以BQL、数据报太等形式提供给业务部门,这有助丁提高数提利用效率,支持业务决策和运营: selecl dimension["scrvicelnstanceld' as senvicelnstancelcl,dimensionl'serviceld'las serviceldfrmimetric['one.service.instance.peforinance.apdex') as "apdex"sum(metricl'one.service.instance.pe.fornance.normalcount ll as"requestNorrmalcounts9s9s5"sum metricl'one.service.instance.error.errorRequestcount') as "errorCount"sum metricl'ane.service.instance.throughput.reguestcount' as "reguestount' from metric.clata where HE, = !Aand account_id 38894723and monitor tinme - *2024-06-12 13:36:03and monitor_time- 224-06-12 13:46:57and accounl_id : Q group by seivicelnstanceld,serviceld 了.数据治理流程和策略优化 根挺数