AI智能总结
DataOps实践指南(3.0) CCSATC601大数据技术标准推进委员会2025年5月 DataOps实践指南3.0 版权声明 本报告版权属于CCSATC601大数据技术标准推进委员会,并受法律保护。转载、摘编或利用其他方式使用本报告文字或者观点的,应注明“来源:CCSATC601大数据技术标准推进委员会”。违反上述声明者,将追究其相关法律责任。 DataOps实践指南3.0 编制说明 本指南的撰写得到了DataOps领域多家企业与专家的支持和帮助,主要参与单位与人员如下。 参编单位: 大数据技术标准推进委员会、中国平安财产保险股份有限公司、中泰证券股份有 限公司、南京银行股份有限公司、中国联合网络通信有限公司软件研究院、联通数据智能有限公司、中国电信集团有限公司、中电信人工智能科技(北京)有限公司、中国民航信息网络股份有限公司、三一集团有限公司、长城汽车股份有限公司、一汽-大众有限公司、工银科技有限公司、蚂蚁科技集团股份有限公司、腾讯云计算(北京)有限责任公司、福建新大陆软件工程有限公司、南京南瑞信息通信科技有限公司、亚信科技(中国)有限公司、万达信息股份有限公司、海南数造科技有限公司、上海市数字证书认证中心有限公司、杭州雅拓信息技术有限公司、北京逐风科技有限公司、星环信息科技(上海)股份有限公司、迪颉信息科技(上海)有限公司、中国平安人寿股份有限公司、浙商证券股份有限公司、中信建投证券股份有限公司、国网大数据中心、国家石油天然气管网集团有限公司、科大讯飞有限公司、浙江数新网络有限公司、北京智网数科技术有限公司、兴业数字金融(上海)股份有限公司。 参编人员: 尹正、郭彦美、崔一妍、王妙琼、姜春宇、陈道长、陈旭、潘晨光、刘宇清、杨照通、王 轩、朱红霞、高亚兵、姜丹丹、王兴杰、刘蕾、王志龙、裴亚、史赟、袁雪梅、张伟、陈昌根、张强、熊林鹏、王钦、王磊、薄猛、张春雷、张文翔、崔汉民、陈新栋、黄铮、杜楠楠、张修国、汤战斗、史汉发、周清、王溧、巫雪辉、李飞、许海丰、王爱书、王立冬、张敬谊、路平、王艳、鲍立飞、王瀚、杨泽明、杨晶、尹晓中、陈雷、石浩含、崔鹏、禹芳、许喆、佘涛、徐新丽、杜天敏、万勤锋、杜真真、周思行、高宇航、王耀影、任英杰、董昕宇、于涛、宋一纯、王刚、孙辉、原攀峰、相登科、姜辉、高海隆。 DataOps实践指南3.0 前言 时至今日,大数据技术的发展已经可以满足绝大多数企业的要求,企业数据管理和应用的核心矛盾逐渐从技术应用供给不足转变为数据价值难以高效释放。 传统的数据加工、治理、运营体系更像是产品生产的“小作坊”模式,具有沟通协同困难、产品交付效率低、开发治理脱节、成本居高不下等特点。 为了降低数据交付成本、提高数据交付效率、增强数据交付质量,企业的数据产品生产势必要向“工厂”模式演化,实现数据产品流水线的标准化、流程化,加强生产过程的协同性。DataOps作为一种集敏捷、精益、协作等理念于一体的数据开发模式,能够通过串联数 据开发各阶段的流程及人员,借助智能化技术工具,进而实现高质量、高效率的数据交付。是企业数据“工厂”模式转变的重要抓手。 在本报告第一部分,我们结合业内最新实践案例对DataOps能力模型进行解析,并且综合二十余家领先企业的调研访谈,梳理企业能力画像,为不同类型企业提供DataOps能力建设路径指引。 2024年12月,国家发改委等部门联合印发《关于促进数据产业高质量发展的指导意 见》,首次提出“高质量数据集”概念,支持企业开发高质量数据集。同月,《关于促进数据标注产业高质量发展的实施意见》进一步指出加强重点行业领域的数据标注产业发展,助力行业高质量数据集建设。2025年2月,国家数据局在北京召开高质量数据集建设工作启动会,提出积极推进落实“人工智能+”行动,推动高质量数据集建设,高效赋能行业发展。 在人工智能快速发展的背景下,数据集的“高质量”不再局限于传统的数据质量,还需覆盖安全合规、伦理方面的要求。如何建设高质量数据、如何管理高质量数据集、如何运营高质量数据集等问题亟待解决。 在本报告第二部分,我们结合产业发展的最新态势,承接实践指南2.0中提到的“数据工程智能化”展望,创新性地提出了AI-ReadyDataOps能力模型,指引企业AI数据工程的建设。在本书最后,我们对DataOps未来的发展提出了打造全域数据工程体系、数据安全与运营深度协同,以及迈向自治化数据管理三点展望。 由于编制时间仓促,加之编制工作组水平有限,本指南存在的缺点、疏漏在所难免,特此恳请广大读者不吝指正。 DataOps工作组联系方式:郭彦美guoyanmei@caict.ac.cn CONTENTS 01Part02Part 03Part 目录 DataOps概述01 (一)DataOps概念定义01 (二)DataOps构建目标01 1.敏捷:形成敏捷数据产品开发流程01 2.高效:构建高效的跨域协同机制01 3.标准:打造研发治理一体化流水线02 4.健康:建立精细化的数据运营体系02 DataOps能力标准与实践03 (一)DataOps能力模型介绍04 (二)DataOps研运能力标准与实践04 1.数据研发管理05 2.数据交付管理06 3.数据运维07 4.价值运营09 (三)DataOps保障能力标准与实践11 1.技术工具11 2.组织管理13 3.数据安全风险管理14 DataOps实践路径16 (一)企业数据能力阶段画像16 1.数据即资源16 2.数据即产品17 3.数据即文化17 (二)DataOps实践路径18 1.战略文化18 2.组织职能19 3.流程驱动19 4.平台建设20 5.持续优化21 04Part 05Part AI-ReadyDataOps应运而生22 (一)AI-ReadyDataOps概述22 (二)AI-ReadyDataOps能力参考框架22 1.研发阶段23 2.交付阶段23 3.运维阶段24 4.运营阶段24 (三)能力评价25 1.初始级25 2.进阶级26 3.优秀级26 4.量化级27 5.引领级27 (四)AI-ReadyDataOps实践探索28 展望29 (一)打造全域数据工程体系29 (二)DataSecOps⸺数据安全与运营的深度协同29 (三)AI-NativeDataOps⸺迈向自治化数据管理29 一、DataOps概述 DataOps工作组自2022年成立以来,不断进行DataOps方法的研究与布道,目前我国越来越多的企业已积极投入到DataOps体系的构建中。DataOps已成为我国大数据平台构建的核心方法论,帮助企业从0到1搭建现代化的数据流水线,指导企业对数据中台进行从1到100的爆发式升级。传统的“作坊”式数据工作模式逐步向标准化、自动化、流程化的数据“工厂”模式升级。 本章节有助于更多不熟悉DataOps的企业建立起DataOps的基本概念。 (一)DataOps概念定义 数据研发运营一体化(DataOps)是数据开发的新范式,其将敏捷、精益等理念融入数据开发过程,通过对数据相关人员、工具和流程的重新组织,打破协作壁垒,构建集开发、治理、运营于一体的自动化数据流水线,不断提高数据产品交付效率与质量。 (二)DataOps构建目标 1.敏捷:形成敏捷数据产品开发流程 敏捷迭代,快速响应变化。贯彻敏捷理念,在整个数据处理流程中强调通过自动化实现 快速、可靠和高效的数据交付。敏捷流程可以实现快速的数据处理部署,进行持续治理、持续测试。 自服务,以用促建。数据需求方利用自服务方式进行数据指标、报表、驾驶舱等任务的开发,快速满足自身需求。 2.高效:构建高效的跨域协同机制 横向拉通,打造协同型团队。组建跨职能的复合型团队,将业务、数据开发、数据治理、IT 研发、安全合规等团队有机融合,重新对齐战略目标、统一考核要求与价值观体系。从而:更深入地了解业务需求和痛点,为业务提供务实可靠的数据能力支持; 更灵活地选择系统架构和技术栈,为数据团队提供切实可行的技术支持;更高效地沟通协作,及时发现和解决问题。 1 3.标准:打造研发治理一体化流水线 前置数据治理。对数据全生命周期的各工作细节进行统筹,找准数据质量、数据标准、数 据安全等治理工作在数据全流程中的切入点,落实“先设计、后开发、先标准、后建模”的模式,将数据治理的过程前置到数据开发环节,确保数据产品符合高质量要求。 打造自动化测试流水线,持续发现、处理数据质量问题。使用自动化测试工具提升测试效率,将自动化测试融入数据研发、交付、运维等过程中,保证数据流水线的稳定性和质量。实时监控数据流水线的运行状态,及时发现并反馈问题。 4.健康:建立精细化的数据运营体系 自动化与智能化迭代。通过不断引入自动化、智能化技术工具,提升工作效率、质量及价 值密度,让数据科学家专注于更高价值的工作。 全局优化,降低运营成本。基于数据全链路可观测能力,及时发现并反馈全局数据工作的效能、资源及质量等问题,降低企业的数据运营成本,提高运营运维效率和数据流水线的可靠性。让企业聚焦于业务创新,提升企业竞争力及盈利能力。 二、DataOps能力标准与实践 2022年,中国通信标准化协会大数据技术标准推进委员会(CCSATC601)牵头,联合金融、通信、互联网等行业头部企业,共同编制了《数据研发运营一体化(DataOps)能力成熟度模型》系列标准,发布《DataOps实践指南(1.0)》。吹响我国DataOps理论建设的号角。 2024年,由国金证券牵头,中国信息通信研究院(中国信通院)联合申报的《证券期货业数据运营管理一体化(DataOps)规范指南》标准研究课题成功立项,DataOps理念在金融行业生根发芽。 2025年1月,由中国信通院牵头的“多媒体数据资产开发运营能力要求”国际标准(ITU-T 743.31)成功发布,标志着我国DataOps体系研究成果已具备国际领先性。 and RulesRegulations RequBiuresminensst DetvaelAospsmetent DetliaveArsyset DOapttaimAiszsaettion BVaulsuineess Management aPnladtTfooromlsSecurriistkyand 图1“多媒体数据资产开发运营能力要求”体系框架 63 图2“多媒体数据资产开发运营能力要求”标准文件 (一)DataOps能力模型介绍 DataOps能力模型围绕数据开发流水线,从业务需求出发,以创造业务价值为目标,形成“4+3”的能力体系框架(4项研运能力,3项保障能力)。 4项研运能力:围绕数据开发全流程,构建数据需求到业务价值的“流水线”,包括数据研发管理、数据交付管理、数据运维管理和价值运营,确保数据产品高效生产与持续优化。 3项保障能力:通过技术工具、组织管理、数据安全风险管理三大能力,为流水线平滑运转提供保障,实现“技术+组织+流程”的紧密协同。 技工术具 数据管研理发 数据管交理付 组管织理 数据管运理维 数风据险安管全理 价值运营 业需务求业价务值 图3DataOps能力模型框架 (二)DataOps研运能力标准与实践 数据研发管理 数据交付管理 数据运维管理 价值运营 DataOps研运能力是数据从资源到资产的关键过程,通过构建数据研发管理、数据交付管理、数据运维和价值运营的流水线,高质量生产数据产品。 数据需求管理 模型设计管理 数据开发管理 自助服务 监控管理 资源管理 数据变更管理 异常管理 持续优化 量化驱动 持续变革 数据成本管理 数据部署与发布管理 数据测试管理 配置管理 图4DataOps数据研运能力框架 1.数据研发管理 数据研发管理是指以研发治理一体化为目标,构建标准化的数据开发流程。企业在数据 开发阶段,构建数据研发治理一体化流程,将数据治理工作与数据开发工