您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[大数据技术标准推进委员会]:2023 DataOps实践指南(1.0) - 发现报告
当前位置:首页/行业研究/报告详情/

2023 DataOps实践指南(1.0)

2023 DataOps实践指南(1.0)

2DataOps实践指南(1.0)版权声明本报告版权属于 CCSA TC601 大数据技术标准推进委员会,并受法律保护。转载、摘编或利用其他方式使用本报告文字或者观点的,应注明“来源:CCSA TC601 大数据技术标准推进委员会”。违反上述声明者,将追究其相关法律责任。大数据技术标准推进委员会大数据技术标准推进委员会大数据技术标准推进委员会大数据技术标准推进委员会大数据技术标准推进委员会大数据技术标准推进委员会 3DataOps实践指南(1.0)本指南的撰写得到了 DataOps 领域多家企业与专家的支持和帮助,主要参与单位与人员如下。参编单位:大数据技术标准推进委员会、中国农业银行研发中心、阿里云计算有限公司、福建新大陆软件工程有限公司、联通数字科技有限公司、平安银行股份有限公司、中国移动通信集团浙江有限公司、中国移动通信集团江苏有限公司、中国工商银行股份有限公司、浩鲸云计算科技股份有限公司、海南数造科技有限公司、北京科杰科技有限公司、北京中软国际信息技术有限公司、杭州网易数帆科技有限公司、北京滴普科技有限公司、联想集团有限公司、华为终端有限公司、北京快手科技有限公司、中国人寿股份有限公司、极氪智能科技(杭州)有限公司、数梦工场科技有限公司。参编人员:尹正、田明慧、林木森、魏凯、姜春宇、闫树、王妙琼、李雨霏、阚鑫禹、张娇婷、周京晶、唐守忠、朱红伟、史珂宇、武兴叶、李林洋、陈荣耀、李成强、王溧、巫雪辉、朱坚、王项男、王兴杰、谭晟中、代立冬、聂励峰、华桊兴、项子林、李乌英嘎、岑伟迪、陈永刚、储晶星、王学亮、顾骧、廖云、徐明、李家欣、彭洁思、黄孔元、黄升、王瀚、鲍立飞、林吉昌、郭振强、高海玲、张新君、符山、于鹏、邓正保、徐华、王金杰、樊友平、秦海龙、刘波、冯吉坤、马立志、李思民、曾鸣、陈梁、林啸鸣、刘珩、董西成、张蕤、韩江、陈学亮、曲明钰、范铮、姚海涛、赵松、方华、甘长华、崔晓峰、念灿华。同时感谢以下机构对本指南编写的指导与建议:上海浦东发展银行股份有限公司、上海新炬网络信息技术股份有限公司、杭州雅拓信息技术有限公司、度小满科技(北京)有限公司、杭州玳数科技有限公司、中电金信软件有限公司。特别鸣谢以下专家对本指南编写的指导与建议:朱红伟、李林洋、王溧、王项男、汪广盛、郭炜、张辉、黄孔元、鲍立飞、符山、秦海龙、林啸鸣、赵松、马欢。编制说明大数据技术标准推进委员会大数据技术标准推进委员会大数据技术标准推进委员会大数据技术标准推进委员会大数据技术标准推进委员会大数据技术标准推进委员会 4DataOps实践指南(1.0)党的二十大报告提出要“加快建设现代化经济体系,着力提高全要素生产率。”数据作为新型生产要素,是数字化、网络化、智能化的基础,已快速融入生产、分配、流通、消费和社会服务管理等各环节,深刻改变着生产方式、生活方式和社会治理方式。麦肯锡指出,到 2025 年,智能工作流程以及人与机器之间的无缝交互将成为企业的标准配置,大多数员工将使用数据优化工作的每个方面,企业的数据驱动能力将成为核心竞争力。而数据驱动的重点在于高效、高质量的数据供给能力,当前大多数企业存在数据链冗长、工具链杂乱、协作链脆弱等情况,导致取数难、用数难、管数难,无法支持企业数据价值的高效释放。为有效克服以上问题,业界积极探索新型的数据开发范式,将敏捷、协作、精益等理念引入到数据开发流程中,逐步形成 DataOps 理念和方法。DataOps 通过构建高效协同机制、建立精细化数据运营体系、打造标准化与一体化的数据开发流程来提升数据开发效能,为企业的数据引擎“换挡提速”。当前,国内外 DataOps 的实践工作还处于起步阶段,其概念和实践方法论尚未形成,无法引导企业进行大规模的实践。为凝聚共识、开宗明义,大数据技术标准推进委员会(CCSA TC601)组织大型银行、通信运营商、头部互联网公司共同编写《DataOps 实践指南(1.0)》,旨在总结各行业最佳实践,提炼核心理论框架,推动 DataOps 理念的广泛应用,加速数据驱动型企业的能力建设。本指南将围绕 DataOps 助力企业高效、高质量释放数据要素价值为核心逻辑,阐述 DataOps 理念的演进历程、发展现状,重点讨论 DataOps 的概念内涵、价值作用、能力框架等,并对 DataOps 的发展进行展望。前 言大数据技术标准推进委员会大数据技术标准推进委员会大数据技术标准推进委员会大数据技术标准推进委员会大数据技术标准推进委员会大数据技术标准推进委员会 5DataOps实践指南(1.0)目 录图目录CONTENTS版权声明 / 2前 言 /4图 1 DataOps 概念示意图 / 10图 2 DataOps 能力模型框架 / 14图 3 DataOps 数据流水线框架 / 15图 4 DataOps 保障措施框架 / 17(一) 数据开发能力不足阻碍数据驱动型 企业建设/ 7(二) 现有数据开发范式主要问题/ 7(三) DataOps概念的演化/ 8(一) DataOps能力模型/ 14(二) DataOps核心环节/ 15(三) DataOps实践保障/ 16(一) DataOps概念定义/ 10(二) DataOps的作用/ 10(一) 文化变革/ 19(二) 数智融合/ 19(三) 闭环进化/ 19(四) 内生安全/ 19发展背景DataOps能力框架DataOps概念及作用DataOps未来展望01030204大数据技术标准推进委员会大数据技术标准推进委员会大数据技术标准推进委员会大数据技术标准推进委员会大数据技术标准推进委员会大数据技术标准推进委员会 (一) 数据开发能力不足阻碍数据驱动型企业建设/ 7(二) 现有数据开发范式主要问题/ 7(三) DataOps概念的演化/ 8发展背景01大数据技术标准推进委员会大数据技术标准推进委员会大数据技术标准推进委员会大数据技术标准推进委员会大数据技术标准推进委员会大数据技术标准推进委员会 7DataOps实践指南(1.0)(一)数据开发能力不足阻碍数据驱动型企业建设自 2014 年大数据写入国家政府工作报告起,我国开始重视大数据产业的发展,陆续发布了《促进大数据发展行动纲要》《大数据产业发展规划(2016—2020 年)》《“十四五”大数据产业发展规划》等多个国家级文件,建设数字中国、实施大数据战略成为了我国数字经济发展的核心主线。2019 年中央将数据上升到要素层面,2022 年“数据二十条”发布,提出建设数据要素市场体系,重点需要完善数据基础制度,加强数据要素、数据产品的供给能力。从企业侧来看,数字化转型的重点是构建数据驱动的能力,据波士顿公司旗下的 NewVantage Partners 公司 2022 年统计,97.0% 的参与组织正在投资于数据计划,已有超过四分之一的企业建成为了数据驱动型的组织。麦肯锡全球研究院数据显示,数据驱动型组织在客户获取率、客户保留率和盈利机率方面分别实现了23倍、6倍和19倍的提升,未来数据驱动型企业将在数据要素市场竞争中抢得先机。成为数据驱动型企业,需要具备三大基本能力,一是坚实的数据平台,二是完善的数据管理体系,三是高效的数据产品与应用开发能力。经过 10多年的发展,大部分企业构建了以数据仓库、数据湖为基础的大数据平台,实现了海量数据的汇聚、集成、存储与计算。数据管理方面,随着数据管理能力成熟度评估的贯标推广(据统计,自2022年起,每年都有上千家企业完成相关评估工作),推动数据管理的理念快速普及,企业内数据管理体系逐步完善。当前,企业数据能力建设的主要矛盾是旺盛01.发展背景的数据需求与数据生产力不足之间的矛盾。据调研,头部运营商每月平均新产生200多个数据开发需求,平均响应时长为 1.5 至 2 周。展开来看,企业数据开发面临五大核心挑战,分别是数据需求的沟通不畅、数据产品交付的效率低下、数据开发与治理的割裂、数据工作协同差以及数据研发的投资收益比低,这些挑战是导致企业内数据生产力的低下的重要原因。(二)现有数据开发范式主要问题1.数据需求不畅通数据开发人员和业务人员之间的沟通不畅,业务人员往往不能准确表达自己的数据需求,缺少一定的数据思维。同时,数据开发人员也存在业务经验不足的问题,导致无法准确理解业务需求或者无法满足业务需求。数据需求在供需两端的沟通过程中存在歧义,产生信息差,并耗费了过长的时间,使得交付压力进一步增加。2.产品交付效率低随着企业经营与管理活动对数据的依赖程度越来越高,数据需求数量呈爆发式增长,一些大型企业平均每年要面临上千项的数据需求压力。但由于数据研发人员的补充和培养需要较长的周期,导致数据研发引擎需要在超负荷运转的情况下进行交付。确保数据在各个环节中畅通无阻是保障数据工作正常运转的基础。然而,数据工作所涉及的环节链路较长,但数据研发的过程和管理较为松散,标准化、流程化程度低。在这种模式下,当数据研发团队面临大量需求的时候,交付的效率明显不足。数据需求的交付需要一至两周的时间。大数据技术标准推进委员会大数据技术标准推进委员会大数据技术标准推进委员会大数据技术标准推进委员会大数据技术标准推进委员会大数据技术标准推进委员会 8DataOps实践指南(1.0)3.开发治理两张皮数据研发工作早期重心侧重于数据的研发交付环节,缺乏对数据治理工作的意识和重视。企业普遍是“先研发、后治理”,在这种模式下,当企业发现数据问题时,数据早已进入到经营生产活动中并产生影响。此时再进行治理已经较难实现有效控制,质量问题一直在源源不断地产生。加之企业内部缺少全链路的数据监控,导致数据在交付端的质量堪忧。据某大型互联网企业统计,平均每发现 10个数据质量问题,其中 90% 的问题都是被数据使用方发现。全链路监测与测试工作的缺失,直接降低了用数方对数据的信任程度。4.跨域协同难推进通常情况下,数据研发团队独立存在于软件研发、数据治理等团队,各自独立办公、独立考核。然而,良好数据的应用和产品开发需要明确的业务方向、可信与高效的数据支撑以及承载的软件共同支撑。当前这种职能上的割裂会导致跨团队间的协作和沟通成本极高。企业的组织管理机制阻碍了数据的丝滑流通与交付。5.开发成本难管控数据需求激增的背景下,企业投入大量的存算资源与时间去响应需求,但其中一部分的需求是相似或利用率较低的。粗犷式的需求响应模式的背后是大量的存算资源与时间成本的付出。据了解,某互联网企业有 62% 报表在 30 天内无人使用,每张报表所浪费的成本在 3 万元 / 月。面对目前数据开发范式遇到的瓶颈,企业需要一种现代化的数据研发、运营、管理实践理论来引导企业高效用数、放心用数,确保数据能够在企业内安全、高质量、高效率地运转,进而释放出更大的数据要素价值,DataOps 理念应运而生。(三)DataOps概念的演化“DataOps”一词首次出现于2014年,莱尼·利伯曼(Lenny Liebmann)在文章中指出“DataOps是优化数据科学和运维之间协作的最佳实践”1。2018 年 9 月 Gartner 将 DataOps 纳入到数据管理技术成熟度曲线,定义 DataOps 为“一种协作性的数据管理实践,专注于改善整个组织的数据管理者和消费者之间的沟通、整合和数据流的自动化”2。对DataOps的定义与当时组织的发展阶段及关注的重点问题有很大的关系。总体而言,DataOps 的提出是建立在大数据发展相对稳定和成熟之后,提出方多是厂商或咨询机构,提出的出发点包括强化数据工程的敏捷度、打通数据分析的管道等。1 "3 reasons why DataOps is essential for big data success". IBM Big Data & Analytics Hub. Retrieved 2018-08-10.2 "Gartner Hype Cycle for Data Management Positions Three Technologies in the Innovati

你可能感兴趣

hot

2024年DataOps 实践指南2.0

信息技术
大数据技术标准推进委员会2024-05-29
hot

分布式云行业实践指南(2023)

信息技术
腾讯2023-07-26