中国信息通信研究院产业与规划研究所北京国际大数据交易所2023年11月 版权声明 本报告版权属于中国信息通信研究院、北京国际大数据交易有限公司,并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的,应注明“来源:中国信息通信研究院、北京国际大数据交易有限公司”。违反上述声明者,编者将追究其相关法律责任。 前言 为规范数据处理行为,指导组织正确开展数据清洗、去标识化、匿名化处理等业务活动及相应的技术测试评估,支撑数据共享、交易、开放等流通活动合规、有序进行,激活数据要素市场,依据《个人信息保护法》《数据安全法》,结合《北京市数字经济促进条例》《北京市数字经济全产业链开放发展行动方案》等法规政策要求,在北京市经济和信息化局指导下,中国信息通信研究院产业与规划研究所、北京国际大数据交易所联合编制本报告。 组织依据法律法规要求及相关业务场景需要,对其控制的数据资源进行清洗、去标识化、匿名化处理,是为满足数据处理目的对原始数据逐步深入加工改造的过程,是提升数据可用性和安全性的关键数据处理活动。 本报告以业务操作规程形式为组织提供数据清洗、去标识化、匿名化处理的流程和方法指引,可以作为组织提升自身数据质量和可用性的指引方法,作为数据交易中介机构审核交易数据合规性、安全性和可流通性的参考规则,以及作为相关认证、检测机构结合应用场景针对相关技术进行安全测试评估的评价工具,支持、鼓励数据加工、咨询、安全、检测、认证等第三方数据服务机构发展。 本报告所描述的技术方法适用于广义的数据范畴,包括但不限于个人数据、企业数据、物联网数据等,但特殊数据类型需要遵守相应的特别管理要求。本报告所描述的数据清洗、去标识化、匿名化处理,是基于数据资源的加工处理过程。有“数”才能对“数” 进行处理,通过采集、标识、编码形成数据资源,是对数据进行清洗、去标识化、匿名化处理的前提。前者是形成数据的基础,后者是维护数据质量和安全的关键。 本报告主要描述各数据处理活动的基本原理和通用技术方法,需要结合实际场景具体适用。本报告所引用的部分技术方法参考了《GB/T 37964-2019信息安全技术 个人信息去标识化指南》等相关标准指南,在此基础上,结合《个人信息保护法》等法律法规的界定,根据技术特性和处理效果,对去标识化技术和匿名化技术进行了区分。本报告所描述的相关技术方法仍在不断丰富、演进和迭代,相关应用场景也在不断发展变化,本报告将持续跟踪观察,适时更新、补充、调整和校正。欢迎各组织积极反馈技术适用情况和建议,提供技术适用场景和实践案例。 目录 一、处理目标及相互关系............................................................................................1(一)数据清洗是数据可用的保障.....................................................................1(二)去标识化是数据脱敏的关键.....................................................................1(三)匿名化是去标识化的强化.........................................................................2二、数据处理原则........................................................................................................4(一)合法合规.....................................................................................................4(二)安全优先.....................................................................................................4(三)平衡效用.....................................................................................................4(四)技管结合.....................................................................................................4(五)有效溯源.....................................................................................................5三、数据清洗规程........................................................................................................5(一)处理目的.....................................................................................................5(二)处理流程.....................................................................................................6(三)常见技术方法.............................................................................................9四、数据去标识化规程..............................................................................................12(一)处理目的...................................................................................................12(二)处理流程...................................................................................................13(三)常见技术方法...........................................................................................18五、数据匿名化规程..................................................................................................21(一)处理目的...................................................................................................21(二)处理流程...................................................................................................21(三)常见技术方法...........................................................................................25六、数据处理环境要求..............................................................................................29(一)管理制度要求...........................................................................................29(二)技术能力要求...........................................................................................30(三)人员能力要求...........................................................................................30(四)过程控制要求...........................................................................................30(五)事故管理要求...........................................................................................31 附件一:常见直接标识符和准标识符示例..............................................................32附件二:常见标识符的去标识化或匿名化参考......................................................36附件三:部分数据处理技术方法应用建议..............................................................40参考资料......................................................................................................................43 表 目 录 表1数据清洗、去标识化、匿名化处理的技术特点和差异.................................3 习近平总书记在2023年中国国际服务贸易交易会全球服务贸易峰会上发表视频致辞指出,要“推动数据基础制度先行先试改革”。《中共中央 国务院关于构建数据基础制度 更好发挥数据要素作用的意见》要求“创新技术手段,推动个人信息匿名化处理”。规范数据清洗、去标识化、匿名化处理,有助于提升数据的可用、可信、可流通、可追溯水平,推动数据要素强化优质供给,是建立合规高效、场内外结合的数据要素流通和交易制度的重要内容。具体来说,为满足数据可用性和安全性进行的数据清洗、去标识化、匿名化处理,是数据产品进场上市的条件,也是数据资产登记、交易的前提,更是数据应用、建模释放二次衍生价值的底线。本报告通过明晰数据清洗、去标识化、匿名化处理三者之间的关系,总结各项处理活动的处理目的、流程、技术方法及环境要求,以期为相关组织开展相应数据处理活动和测试评估提供参考。 一、处理目标及相互关系 (一)数据清洗是数据可用的保障 数据清洗是运用一定方法修正识别到的数据问题,实现数据的规范性、完整性、一致性、准确性和可溯源性,提高数据质量的过程。数据清洗旨在满足数据的可用性要求,是数据资源预处理的第一步,也是保证后续处理结果准确、科学、有效的重要一环。数据清洗作为数据后续开发利用的基础,是数据去标识化和匿名化处理的前置步骤。 (二)去标