您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[大数据技术标准推进委员会]:2024年DataOps 实践指南2.0 - 发现报告

2024年DataOps 实践指南2.0

AI智能总结
查看更多
2024年DataOps 实践指南2.0

本报告版权属于CCSATC601大数据技术标准推进委员会,并受法律保护。转载、摘编或利用其他方式使用本报告文字或者观点的,应注明来源:CCSATC601大数据技术标准推进委员会”。违反上述声明者,本推委会将追究其相关法律责任。 编制说明 本指南的撰写得到了DataOps领域多家企业与专家的支持和帮助,主要参与单位与人员如下。 参编单位:大数据技术标准推进委员会、中国工商银行股份有限公司、联通数字科技有限公司、中国移动通信集团浙江有限公司、福建新大陆软件工程有限公司、平安银行股份有限公司、光大证券股份有限公司、中国农业银行研发中心、广州信安数据有限公司、中国联合网络通信有限公司软件研究院、腾讯科技有限公司、杭州雅拓信息技术有限公司、海南数造科技有限公司、云赛智联股份有限公司、海亮教育科技服务集团、华为终端有限公司、一汽大众汽车有限公司、中信建投证券股份有限公司。 参编人员:尹正、田明慧、王妙琼、林木森、姜春宇、阀鑫禹、李雨霏、马闻达、周京晶、张娇婷、刘思达、周圣文、张一鸣、郭彦美、腰云、李家欣、徐明、陈红、谭晟中、主项南、刘雷、主兴杰陈永刚、岑伟迪、王漂、叶潇、巫雪辉、朱坚、康志平、李乌英嘎、朱震宇、朱才才、梁鸿超、唐守忠、朱红伟、杜少华、张然、王全胜、周小敏、叶剑、张承琪、高亚兵、谭杰轩、陈韬、王有兵、王瀚、鲍立飞、林吉昌、陈正伟、周海涛、徐松林、项灵刚、谭立何、马亚东、余斌、张政勇、林啸鸣、张春雷、姜鹅、徐聪颖、张文翔、高宇航、李可、许哲, 数据驱动时代,业务需求快速变化,数据处理流程纷繁复杂,企业必须处理好旺盛数据需求与数据生产力不足之间的矛盾,革新数据开发流程,加大数据供给力度,从而更好地响应需求、赋能业务发展。人人用数的场景下,传统数据开发范式开始出现效率瓶颈,需要引入敏捷协作、精益等新的理念以寻求变革。DataOps是一种新的数据开发模式,通过构建高效协同机制,建立精细化数据运营体系,打造规范化、一体化的数据开发流程,实现数据产品高质量与高效率地交付。DataOps体系的建设能够充分释放企业数据价值,有助于构建数据驱动型组织,最终提升企业的竞争力和业务效率。 当前,国内处于DataOps实践的快速发展阶段,其概念和实践方法论初具雏形,仍需进一步引导企业进行实践。本实践指南在1.0的基础上进行大量选代,旨在总结各行业最佳实践,提炼核心理论框架,推动DataOps理念的广泛应用,加速数据驱动型企业的能力建设。指南涵盖了五部分内容,第一章节主要闸述DataOps的概念与价值内涵,第二章节重点介绍了DataOps能力框架要求,第三章节从实践模式、文化、组织、流程等维度讨论了DataOps实践路径和核心要点,第四章主要探讨了DataOps实践难点和应对策略,第五章对DataOps的发展进行展望。 悬请广大读者不客指正。 编制工作组联系方式:田明慧tianminghui@caict.ac.cn 目录Contents 03 版权声明编制说明前言目录图目录表目录 DataOps实践初探15 (四)数据研发治理流程初步搭建,质量管控初见成效17 01 04 概述 01 Dataops实施典型误区18 (一)DataOps概念定义01(二)DataOps价值内涵01 (二)决策机制模糊,导致资源浪费或投入不足19 (三)过度依赖技术解决所有问题20 (四)追求短期收益21 02 05 DataOps能力框架解读 04DataOps未来展望22 (一)DataOps能力模型04(一)数据流程可观测22(二)DataOps核心环节05(二)数据工程智能化22(三)DataOps实践保障60(三)数据价值精准量化23 图目录 图1DataOps能力模型框架04 图2DataOps数据流水线框架05 图3DataOps保障措施框架60 表目录 表1DataOps数据组织vs.传统数据组织11 表2传统数据治理团队vs.DataOps数据治理团队12 表3DataOps典型协同模式举例13 一、概述 数据驱动的目标是通过数据分析和应用,实现业务的持续优化和创新,提升企业的竞争力。面对外部快速变化的业务环境,企业内部必须处理好复杂的数据处理流程,解决数据生产力的不足,快速响应业务需求、赋能业务决策。本章从DataOps的概念定义出发,阐述DataOps的四大价值内涵,明确DataOps作为一种新的数据开发范式,如何在敏捷开发、跨域协数据质量,从而快速释放数据生产力。 DataOps概念定义 基于对我国大数据产业发展特征的研究以及对企业发展情况的调研,为了更好地引导企业安全、高效、高质量释放数据要素价值,重构数据生产力,我们从打造高效用数流水线,构建灵活保障机制的角度提出如下定义: 数据研发运营一体化(DataOpS)是数据开发的新范式,将敏捷、精益等理融入数据开发过程,通过对数据相关人员、工具和流程的重新组织,打破协作壁垒,构建集开发、治理、运营于一体的自动化数据流水线,不断提高数据产品交付效率与质量,实现高质量数字化发展。 (二)[ DataOps价值内涵 1.形成敏捷数据产品开发流程 数捷送代,快速响应需求变化。基于数捷开发方法,可以实现在整个数据处理流程中使用自动化工具和技术来实现快速、可靠和高效的数据交付。数捷开发方法将数据处理流程划分为多个小部分,并在每个选代周期中完成一部分数据处理任务,从而实现提速数据交付的目 自助服务,主动利用数据资产。随着企业数据文化氛围的形成,员工数据能力的不断提升,数据需求方可以主动利用自助分析平台进行数据指标、报表、驾驶舱等任务的开发,快速满足自身需求。自助分析平台需要提供完备的数据资产目录、低门槛的功能组件和严格的数据访问控制及数据安全管理。 企业在数据生产端通过敏捷开发、自动化工具等方法和技术提升交付效率,在数据消费端利用自助服务的形式支撑数据消费者自主地获取和处理数据,而不需要等待数据团队的支持和协助,在两端共同的作用下加速数据的交付。 2.构建高效的跨域协同机制 促进跨部协作,打造协同型团队。根据业务需求,组建跨职能的复合型团队,数据开发团队通过与数据消费者和业务团队的合作,可以更好地了解他们的需求和痛点,为他们提供史好的数据服务和支持。通过与团队的合作,可以史好地了解系统架构和技术栈,为数据处理和数据集成提供更好的支持。一些数据驱动型企业都设置了类似“数据BP”的岗位,数据人员下沉到一线的业务团队中,与业务伙伴合作以实现数据需求,共同为业务的增长负责。 建立良好沟通机制,塑造协同文化。通过建立良好的沟通机制,数据团队可以更好地沟通和协作,及时发现和解决问题。利用邮件、即时通讯工具、项目管理等工具建立沟通渠道,通过短会等机制养成高效沟通习债,借助内部WIKI、共享文档等工具沉淀共享知识和经验。 借助技术赋能,善用协同工具。采用团队协作工具,数据团队可以更好地协同工作,提高工作效率和沟通效率。包括但不限于现代化的项目管理工具、协同编辑工具、在线会议工具等。 企业可以通过组建协同型团队,建立协同保障机制并借助协同工具来共同保障数据团队开展协同工作。 3.打造研发治理一体化流水线 重构研发治理一体化流程,前置数据质量管控。对数据研发运营管理全生命周期的客个工作环节进行梳理,厘清数据质量、数据标准、数据安全等工作在研发环节中的位置,将数据治理工作融入到研发运营管理的流水线中,形成“先设计、后开发、先标准、后建模"的模式,在研发阶段对数据的质量和安全等问题进行有效管控。某互联网企业将整个开发治理流程分为四个阶段,分别是需求阶段、设计阶段、开发阶段以及交付阶段。明确各阶段中研发与治理的关系与责任,将数据治理的过程前置到数据开发环节,确保生产出来的数据能够符合标准和规范。 打造自动化测试流水线,及时发现、处理数据质量问题。通过使用测试工具进行自动化测试,来避免人工测试过程中的错误和疏漏,提升测试效率。将自动化测试融入持续集成和持续交付流程中,确保每次修改和更新都经过了测试,以保证数据流水线的稳定性和质量。最后,实时监控数据流水线的运行状态,发现问题并及时反馈给研发团队,确保问题能够快速解决。 与传统的先投产后治理的研发治理模式相比,数据研发治理一体化模式能够在研发阶段对数据治理问题进行管控和介入,而自动化测试能力能够进一步对数据质量进行检查,提升交付质量的同时也增进了数据研发团队与数据治理团队的协同效率。 4.建立精细化的数据运营体系 引入工具,减少人力成本。通过自动化工具、流程和自服务能力来提升企业的人员工作效率,减少重复性和低效率的工作,降低综合人力成本,让数据科学家能够专注于更高价值的工作。 构建流程,降低运营成本。通过自动化运维和数据全链路监控等流程,来及时发现并反馈效能、资源以及质量等方面的问题,降低企业的运营成本,提高运营运维效率和数据流水线的可靠性。这样可以让企业更加聚焦于业务创新,提高企业竞争力和盈利能力。 构建数据全景图,及时发现数据链路问题。数据可观测性是一种极其重要的数据管理手段,它不仅能够帮助组织充分了解其系统中数据的运行状况,而且可以在数据出现故障时及时提醒团队并降低其影响范围。数据可观测性的实现需要通过对数据链路的全面分析和上下文的数据可见性,才能有效地监控和维护整个数据生态系统。通过建立高质量的数据流水线和监控机制,数据团队可以实时监测和分析关键数据资产的健康状况,以便在出现问题时及时发现和处理。 某科技集团基于系统工具支持企业全球数据平台智能化运营,利用智能化运营体系指标对开发质量、数据作业、平台稳定性、数据安全、数据资产以及平台资源进行自动化的监控、分析与提升,进而改善开发效率、避免合规风险、提升资源利用率。 总体而言,企业通过精益化管理在不牺性数据交付效率的情况下,将数据流水线中的浪费情况降至最低。 二、DataOps能力框架解读 2022年起,中国通信标准化协会大数据技术标准推进委员会牵头成立了DataOps工作组,集合了金融、通信、互联网、汽车、能源等行业的数据专家,通过广泛地调研和研讨,共同提出了DataOps能力框架,并在国际电信联盟(ITU)、中国通信标准化协会(CCSA)立项《DataOps能力成熟度模型》系列标准。依托系列标准,企业能够构建自身DataOps体系,开展相关实践工作。 DataOps能力模型 DataOps能力模型围绕数据开发流水线,从业务需求出发,以创造业务价值为目标,形成“4+3"的能力框架,即4个核心环节和3项实践保障。如图1,数据开发流水线能够划分为4个环节,包括数据的研发管理、交付管理、数据运维和价值运营,就像大工业化时代的生产流水线一样,保障企业的数据应用开发以高效、稳定、高质量、安全的状态运转。在流水线之外,还需要3项保障职能来支撑流水线顺畅运行,保障职能包括系统工具、组织管理和安全管控。 DataOpS能力模型框架的提出,旨在帮助企业建立对DataOps工作的宏观视图,了解DataOps能力建设的核心主线与保障体系,为企业的能力建设提供参考。随着标准的进一步的细化,能够为企业提供详细的建设依据,全面地评价企业在DataOps方面的能力状况,摸清当前的现状和问题,指明下一步发展的方向。 (二) DataOps核心环节 为了不断提高数据产品交付效率与质量,实现高质量数字化发展的目标,DataOps的数据流水线以数据工程化能力为核心,构建出数据研发管理、数据交付管理、数据运维和价值运营四个环节。 1.数据研发管理 数据研发管理是指以研发治理一体化为目标,构建标准化的数据开发流程。企业在数据开发阶段,构建数据研发治理一体化流程,将数据治理工作前置,把数据治理工作与数据开发工作有机结合,能够加强数据治理与开发工作的协同配合,同时降低数据治理后置所产生的风险。此外,在数据研发阶段加强对数据需求的约束,并利用自助分析能力来提前探查或解决部分数据需求,大幅提升了数据需求的沟通效率,减少了部分研发