您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[CCSA TC601 大数据技术标准推进委员会]:数据质量管理实践指南(1.0版) - 发现报告

数据质量管理实践指南(1.0版)

AI智能总结
查看更多
数据质量管理实践指南(1.0版)

版权声明 本报告权属于CCSA TC601 大数据技术标准推进委员会,并受法律保护。转载、摘编或利用其他方式使用本报告文字或者观点的,应注明“来源:CCSA TC601 大数据技术标准推进委员会”。违反上述声明者,将追究其相关法律责任。 编制说明 本指南的编写得到了各数据治理领域多家企业与专家的支持和帮助,主要参与单位与人员如下: 参编单位: 大数据技术标准推进委员会、联通数据智能有限公司、科大讯飞股份有限公司、中兴通讯股份有限公司、中国移动通信集团北京有限公司、中国联合网络通信集团有限公司、国家管网集团北京智网数科技术有限公司、国家电网有限公司大数据中心、中信证券股份有限公司、中信建投证券股份有限公司、振华智造(西安)科技有限公司、御数坊(北京)科技有限公司、东部机场集团有限公司、四川省大数据中心、海南数造科技有限公司、郑州埃文科技有限公司、安阳数智科技集团有限公司、中国移动通信集团湖北有限公司、中国移动通信集团河南有限公司、河海大学、中移(苏州)软件技术有限公司、中国南方电网有限责任公司、中国核动力研究设计院、北京神州绿盟科技有限公司、云赛智联股份有限公司、人保信息科技有限公司、浙商证券股份有限公司、南京银行股份有限公司、中国平安财产保险股份有限公司、中国移动通信集团青海有限公司 参编人员 姜春宇、王妙琼、周京晶、阚鑫禹、张娇婷、周圣文、田明慧、林木森、刘思达、张一鸣、高海暘、王宇龙、李铁峰、王庆、聂兆博、王刚、孙辉、孟宇、吴德亮、程竞超、王世峰、梁雅丽、刘天元、杨瑞、王衍祺、刘佳林、张志鹏、黄岩、武丽莎、任英杰、王桂强、陈辉华、邢默、李可、孟祥凯、李晓燕、王会、刘晨 李宗锴、刘伟平、齐翌、郭涛、王瀚、鲍立飞、吴炜、赵旭、武可嘉、郑丹辉、肖翔、孟晓莉、刘雪婷、叶紫光、王重任、张国宝、罗辉、李勇、徐键、徐欢、张新阳、马小琴、徐敏、郑芒英、陈开杰、张倬、曾未、刘佳、王新洋、禹芳、查毓灵、杨琦、林晖晖、冯四凤、吴蓉蓉、许璐、王宪 前 言 在数字经济时代,数据已经成为与土地、资本、劳动力同等重要的新型生产要素。国家在顶层设计层面,陆续出台了《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》《数字中国建设整体布局规划》等政策文件,明确提出要提升数据要素价值,推动数据治理体系建设。 在金融、制造、政务、能源等行业对数据质量也提出了更高要求。金融行业,中国人民银行联合相关部门印发《银行业保险业绿色金融高质量发展实施方案》《推动数字金融高质量发展行动方案》等专项文件。制造业,工业和信息化部出台《关于做好 2025 年工业和信息化质量工作的通知》《制造业质量管理数字化实施指南(试行)》等指导文件。政务领域,国务院及相关部门印发《国务院关于加强数字政府建设的指导意见》、出台《政务数据共享条例》等法规政策。能源行业,国家能源局等部门发布《关于推进能源装备高质量发展的指导意见》《关于加强电力可靠性数据治理 深化可靠性数据应用发展的通知》等配套政策。 随着数据规模的扩张、AI与大模型新数据的发展、业务节奏加快和合规要求严格的背景下,数据质量管理不仅是企业合规经营和风险控制的基础,更是业务创新的关键驱动力,成为企业数智化征途中的“生命线”。 本指南对数据质量管理的定义、方法论、保障措施和实施要点进行了阐述,总结了数据质量管理的价值与误区,分析了当下数据质量管理的困境,并展望了未来数据质量管理的发展趋势。 目 录 一、 数据质量管理概述 (一) 什么是数据质量(二) 什么是数据质量管理(三) 数据质量管理的意义010307 二、 数据质量管理主要内容 (一) 数据质量管理怎么管(二) 数据质量管理的保障措施1015 三、 数据质量管理实施要点 (一) 领导支持(二) 认责机制(三) 评价机制(四) 协作机制19191920 四、 数据质量管理挑战与展望 (一) 主要挑战(二) 未来展望2122 一、数据质量管理概述 (一) 什么是数据质量 1.数据质量的定义 在数字经济时代,数据已成为与土地、资本、劳动力同等重要的生产要素。然而,并非所有数据都具备使用价值。数据能否有效支撑业务和决策,其质量就是核心考量因素之一。 综合以上内容总结,将数据质量定义为:数据符合目标需求的程度。 数据质量并非一个绝对的、统一的、抽象的标准,而是与数据的具体应用场景紧密关联—— 即同一组数据在某一业务场景中可能被判定为高质量,而在另一场景中却可能因不符合需求而被视为低质量。 数据质量并非绝对概念,而是相对的,取决于使用者对数据的要求。例如,在金融行业,监管报送数据需要高度准确和一致;而在互联网应用场景下,实时性和完整性可能更加重要,这说明数据质量具有场景依赖性和多维度属性 2.数据质量的特点 数据质量具有多维度性、动态性、关联性和相对性等显著特点,这些特点决定了数据质量管理的复杂性和持续性。 多维度性是数据质量最突出的特点之一。如前文所述,数据质量并非由单一指标衡量,而是涵盖准确性、完整性、一致性、及时性、唯一性、有效性等多个维度。每个维度从不同角度反映数据的质量状况,且不同维度之间可能存在相互影响——例如,为了追求数据的及时性,可能在一定程度上影响数据的准确性;而确保数据的一致性,往往需要对多个数据源进行协同管理。 动态性体现为数据质量会随着时间和业务变化而发生改变。一方面,数据本身处于不断更新的状态,新数据的接入、旧数据的变更都可能导致数据质量波动;另一方面,业务需求的演变会使数据质量的衡量标准发生调整——过去符合要求的数据,可能因业务规则的升级而不再满足新的使用需求。例如,随着客户信息采集维度的增加,早期仅包含基本联系方式的客户数据,在需要进行精准营销的场景下,就会因完整性不足而降低质量等级。 关联性意味着数据质量并非孤立存在,不同数据集之间的关联关系会影响整体质量。在一个复杂的信息系统中,数据往往通过各种逻辑关系相互连接,某一环节的数据质量问题可能会传导至其他环节,引发连锁反应。例如,在供应链管理系统中,供应商信息的错误可能导致采购订单的生成出现偏差,进而影响库存管理和生产计划,最终对整个供应链的运转效率产生负面影响。 相对性则强调数据质量的评价标准是相对的,而非绝对的。如定义中所提及的,数据质量的高低取决于其是否满足特定场景的使用需求。对于一些非核心业务场景,可能允许数据存在一定程度的不完美;而对于关键业务决策或高风险场景,则需要极高的数据质量标准。这种相对性要求在数据质量管理过程中,需根据实际业务需求和优先级,制定差异化的质量目标和控制策略,以实现资源的优化配置。 (二) 什么是数据质量管理 综合以上所述,数据质量管理是在数据全生命周期(采集、存储、处理、应用、销毁)中,通过制定标准、部署技术工具、建立组织流程,持续监控、评估、改善数据质量,确保数据符合业务需求与合规要求,最终支撑决策有效性与数据价值挖掘的系统化管理活动。 更关键的是,鉴于数据质量管理的体系性强、数据质量特点多,如果原始的数据资源不能转化为相对稳定且具体的数据产品或数据应用,无法形成某个特定状态,则无法评价数据质量水平。 2.数据质量管理的方法论 在企业数据管理实践的推动下,数据质量管理已经形成了多种不同的框架理论,为企业数据质量的规划、建设和管理工作提供了理论和实践指导。下文中列举了国内外典型的数据质量理论框架及方法论,这些内容都是在企业实践中广为传播和使用的,是当下业界开展数据质量相关工作的理论基础。 1)通用质量管理方法论 ·PDCA循环 PDCA循环是美国质量管理专家Walter A. Shewhart首先提出的,由戴明20世纪30年代提出并推广、宣传,获得普及,所以又称戴明环。PDCA循环是一种系统性管理方法,旨在通过持续改进流程和产品实现目标优化。核心思想是通过计划(Plan)、执行(Do)、检查(Check)、行动(Act)四阶段闭环循环,以数据为依据,全员参与,实现流程或产品的持续优化。 ·六西格玛(Six Sigma) 六西格玛(Six Sigma)方法论起源于 20 世纪 80 年代美国摩托罗拉公司的质量管控方法,后经通用电气(GE)等企业推广而广泛应用。六西格玛方法论核心是通过“定义—测量—分析—改进—控制(DMAIC)”流程,旨在通过数据驱动的闭环流程,减少过程变异、降低缺陷,将数据质量缺陷率降至极低水平。六西格玛的得名来自“六倍标准偏差(6σ)”,就是每百万故障率(parts per million,简称PPM)少于3.4个。 2)数据质量管理的方法论 ·全面数据质量管理计划TDQM 全面数据质量管理计划TDQM(Total Data Quality Management Program)的概念由美国麻省理工学院RichardY.Wang和Diane M.Strong等学者在20世纪90年代提出。TDQM将数据视为一种特殊产品,把管理产品质量的方法应用于数据质量管理,从根本上改变了“数据是系统的附属品”的传统概念,强调数据质量管理的关键是提高人的素质,充分调动员工积极性,基本思想是将以事后检查把关为主转换为以预防和改进为主,把用户对数据使用的满意度作为评价质量高低的标准。 ·ISO 8000 ISO8000是国际标准化组织(ISO)为数据质量的评估、管理和改进提供国际通用框架,确保数据在交换、共享和使用中的准确性、一致性和可靠性。适用于所有需要管理关键数据的组织,规范和管理数据质量活动、数据质量原则、数据质量术语、数据质量特征(标准)和数据质量测试等内容。ISO8000数据质量标准由通用原则、主数据质量、交易数据质量、产品数据质量四个部分组成。 ·DMBOK DMBOK是国际数据管理协会(DAMA)对数十年数据管理领域知识和实践的总结,是当前业界开展数据管理工作的重要参考理论,也是数据治理从业人员的学习教材。指南从数据治理、数据架构、数据质量、数据安全、数据管理、数据建模设计、大数据等方面介绍了数据管理的知识体系。DMBOK将数据质量视为数据管理的核心支柱,强调其是实现数据价值的前提条件,同时阐述了如何通过结构化方法确保数据满足业务需求,并提供了从评估到改进的全生命周期管理框架。 ·《数据管理能力成熟度评估模型》 GB/T-36073《数据管理能力成熟度评估模型》(简称“DCMM”)是我国首个数据管理领域正式发布的国家标准。在DCMM中数据质量是数据治理的重要目标,需要在数据标准、元数据等功能的协同支持下,实现对组织数据资产全生命周期的管理,用以提升数据质量,展现数据治理的价值。DCMM的数据质量能力域包括数据质量需求、数据质量检查、数据质量分析和数据质量提升。随着DCMM贯标评估工作在全国范围内的持续、深入开展,DCMM中对数据质量管理的能力要求得到了企业的广泛重视和采纳,并以DCMM框架作为企业自身开展数据质量管理的重要指导理论。 3.我国数据质量专项标准 我国已发布的数据质量专项标准规范涵盖了国家标准、行业标准以及团体标准等多个层面: (三) 数据质量管理的意义 高质量的数据是数字经济和智能社会的核心基础,质量管理直接关系到运营效率、决策科学性和风险防控,在数据要素市场中,数据质量是资产化和价值转化的前提。组织在推进数据质量管理过程中,应避免陷入“只看源头、忽视全局”“只看技术、忽视业务”的误区,建立以业务需求为导向、以制度和技术为保障、覆盖全生命周期的质量管理体系。 1.数据质量管理的价值 数据质量管理的价值贯穿组织运营与发展。 提升数据价值与业务效能。数据质量管理是释放数据价值、驱动业务效能的核心抓手。在数字化浪潮中,数据已成为企业核心战略资产,高质量数据才能有效支撑决策与业务创新。通过系统化的数据治理实践,企业可持续提升数据质量,持续优化数据资产利用效率,降低数据应用风险,从而强化企业在数字化转型中的市场洞察力与核心竞争力,实现数据价值向业务成果的高效转化。 保障分析结果与决策可靠。通过建立系统化的保障机制