您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[全国网络安全标准化技术委员会秘书处]:网络安全标准实践指南:人工智能训练数据清洗安全指南(征求意见稿) - 发现报告

网络安全标准实践指南:人工智能训练数据清洗安全指南(征求意见稿)

AI智能总结
查看更多
网络安全标准实践指南:人工智能训练数据清洗安全指南(征求意见稿)

——人工智能训练数据清洗安全指南 (征求意见稿v1.0-202601) 全国网络安全标准化技术委员会秘书处 2026年01月 本文档可从以下网址获得:www.tc260.org.cn/ 前言 《网络安全标准实践指南》(以下简称《实践指南》)是全国网络安全标准化技术委员会(以下简称“网安标委”)秘书处组织制定和发布的标准相关技术文件,旨在围绕网络安全法律法规政策、标准、网络安全热点和事件等主题,宣传网络安全相关标准及知识,提供标准化实践指引。 本文件起草单位:上海人工智能创新中心、中国电子技术标准化研究院、北京中关村实验室、国家计算机网络应急技术处理协调中心、杭州网易智企科技有限公司、上海市信息安全测评认证中心、北京火山引擎科技有限公司、上海稀宇科技有限公司、中国移动通信集团有限公司、北京百度网讯科技有限公司、中国联合网络通信集团有限公司、华为终端有限公司、中国网络空间研究院、阿里云计算有限公司、广西电网有限责任公司、北京小米移动软件有限公司、深圳市腾讯计算机系统有限公司、OPPO广东移动通信有限公司、深圳昂楷科技有限公司等。 本文件起草人:王迎春、孟令宇、刘勇、贺敏、乔兴格、王广宇、喻佳、李薇、郑佳琪、费凡芮、张妍婷、王锟、苗晴晴、何极、王寒生、郭建领、沈俊成、徐阳、徐艺溦、马梦娜、刘栋、李慧芳、刘源、赵高华、徐浩、刘凯杰、方强、武杨、李根、涂利平等。 声明 本《实践指南》版权属于网安标委秘书处,未经秘书处书面授权,不得以任何方式抄袭、翻译《实践指南》的任何部分。凡转载或引用本《实践指南》的观点、数据,请注明“来源:全国网络安全标准化技术委员会秘书处”。 摘要 训练数据是人工智能发展的核心要素之一。训练数据清洗是保证模型训练质量的关键步骤。通过保障训练数据的清洗活动安全,确保所有直接用于模型训练的数据的质量,不包含违反社会主义核心价值观的、歧视性的内容,不存在商业违法违规、侵犯他人合法权益的现象,提升模型抵御对抗性风险、满足特定服务类型的安全需求的能力。本文件给出了训练数据清洗活动的安全原则、风险识别维度、清洗方法和实施流程,适用于各类需要对训练数据进行清洗活动的主体。 目录 1范围.......................................................................12术语定义...................................................................13训练数据清洗安全原则.......................................................24风险识别维度...............................................................35清洗方法...................................................................76实施流程..................................................................10附录A过滤方法应用示例(资料性)............................................16附录B数据质量指标(资料性)..............................................18附录C风险评估筛查示例(资料性)..........................................19 1范围 本文件给出了训练数据清洗活动的安全原则、风险识别维度、清洗方法和实施流程。 本文件适用于各类需要对训练数据进行清洗活动的主体,包括人工智能模型开发方、训练数据供应商等,也可为工程师、相关管理人员及主管部门提供参考。 2术语定义 2.1训练数据trainingdata 所有直接作为模型训练输入的数据。 注:包括预训练数据和优化训练数据。[来源:GB/T45654—2025,3.4] 2.2训练数据清洗活动trainingdatacleansingactivities 在数据输入模型训练前,对原始数据集进行错误检测、修正、转换和规范化的系统化过程。 2.3训练数据清洗安全securityoftrainingdatacleansingprocess 通过技术和管理措施确保训练数据清洗活动的安全,防止模型因数据问题产生不安全的输出。 2.4偏见bias 对待特定对象、人员或群体时,相较于其他实体出现系统性差别的特性。 注:对待指任何一种行动,包括感知、观察、表征、预测或决定。 [来源:GB/T41867—2022,3.4.10] 2.5公平性fairness 尊重既定事实、社会规范和信仰,且不受偏袒或不公正歧视影响的对待、行为或结果。 注1:对公平性的考虑是与环境高度相关的,并且因文化、代际、地理和政治观点而异。 注2:公平不等于没有偏见。偏见并不总是导致不公平,不公平可能是由偏见以外的因素引起的。[来源:GB/T41867—2022,3.4.1] 2.6重要数据keydata 特定领域、特定群体、特定区域或达到一定精度和规模的,一旦被泄露或篡改、损毁,可能直接危害国家安全、经济运行、社会稳定、公共健康和安全的数据。 注:仅影响组织自身或公民个体的数据一般不作为重要数据。 [来源:GB/T43697—2024,3.2] 2.7个人信息personalinformation 以电子或其他方式记录的与已识别或可识别的自然人有关的各种信息。 [来源:GB/T45574—2025,3.1] 2.8敏感个人信息sensitivepersonalinformation 一旦泄露或者非法使用,容易导致自然人的人格尊严受到侵害或者人身、财产安全受到危害的个人信息。 注:敏感个人信息包括生物识别、宗教信仰、特定身份、医疗健康、金融账户、行踪轨迹等信息,以及不满十四周岁未成年人的个人信息。 [来源:GB/T45574—2025,3.2] 3训练数据清洗安全原则 训练数据清洗应遵循安全可控、分布多样、透明可溯、持续迭代 的原则开展,具体如下: a)安全可控原则:训练数据清洗应在保障数据合法合规与内容安全的前提下进行。 b)分布多样原则:训练数据清洗需兼顾数据来源和场景的多样性,以支撑模型获得良好的泛化能力。 c)透明可溯原则:记录数据清洗过程中所采用的规则、标注标准与关键决策,确保清洗操作可审计、过程可复现、结果可追溯。 d)持续迭代原则:数据清洗策略应随业务场景、模型反馈与安全环境的变化而动态调整。 4风险识别维度 4.1数据质量风险 训练数据本身存在质量问题,影响模型的训练效果,并可能放大其他的安全风险,主要风险包括: a)完整性不足:训练数据中存在大量缺失数据,导致信息不完整。 b)准确性不足:训练数据中包含内容错误、不精确或不真实的数据。 c)时效性不足:训练数据过于陈旧,且未标明时间局限性,已与当前现实情况不符。 d)可用性不足:训练数据存在格式错误、严重缺失、严重损坏等问题,导致其无法被正常读取、解析或有效利用。 e)数据重复性:训练数据中存在大量重复记录,可能导致模型过拟合或资源浪费。 4.2违反社会主义核心价值观的内容风险 训练数据中包含违反社会主义核心价值观的内容,可能导致人工智能模型生成或传播对个人、群体或社会造成负面影响的内容。主要风险包括: a)煽动颠覆国家政权、推翻社会主义制度;b)危害国家安全和利益、损害国家形象;c)煽动分裂国家、破坏国家统一和社会稳定;d)宣扬恐怖主义、极端主义;e)宣扬民族仇恨;f)宣扬暴力、淫秽色情;g)传播虚假有害信息;h)其他法律、行政法规禁止的内容。 4.3歧视性内容风险 训练数据中因样本代表性不足或历史性原因而存在歧视性内容,导致人工智能模型对特定群体或类别产生不公平、不准确或歧视性判断或行为的系统性倾向。主要风险包括: a)民族歧视内容;b)信仰歧视内容;c)国别歧视内容; d)地域歧视内容; e)性别歧视内容; f)年龄歧视内容; g)职业歧视内容; h)健康歧视内容; i)其他方面歧视内容。 4.4商业违法违规风险 训练数据中包含受《知识产权法》《反不正当竞争法》等法律保护的客体,而未进行合理的采集、处理、使用,导致模型在训练、使用、商业化过程中存在商业违法违规风险。主要风险包括: a)侵犯他人知识产权; b)违反商业道德;c)泄露他人商业秘密;d)利用算法、数据、平台等优势,实施垄断和不正当竞争行为;e)其他商业违法违规风险。 4.5侵犯他人合法权益风险 训练数据中包含可能侵犯他人合法权益的信息(特别是敏感个人信息),导致人工智能模型在训练或推理过程中侵犯个人信息主体或其他主体的合法权利。主要风险包括: a)危害他人身心健康; b)侵害他人肖像权; c)侵害他人名誉权; d)侵害他人荣誉权; e)侵害他人隐私权; f)侵害他人个人信息权益; g)侵犯他人其他合法权益。 4.6无法满足特定服务类型的安全需求风险 人工智能模型被应用于安全需求较高的特定服务类型,例如关键信息基础设施、自动控制、医疗信息服务、心理咨询、金融信息服务等领域,具有相较于一般模型更高的安全要求。主要风险包括: a)内容不准确,严重不符合科学常识或主流认知; b)内容不可靠,虽然不包含严重错误的内容,但无法对使用者形成帮助。 4.7对抗性风险 训练数据中存在的恶意样本或攻击行为,可能干扰或破坏模型的训练过程,降低模型的性能和可靠性。主要风险包括: a)对抗样本攻击:训练数据中存在对抗性样本,影响人工智能模型的训练过程,使其在部署后产生预期外的错误行为; b)后门攻击:训练数据存在被植入的隐藏漏洞,影响人工智能模型的行为; c)标签翻转攻击:训练数据中某类样本的标签被篡改,影响人工智能模型的准确率。 5清洗方法 5.1数据质量处理 数据质量处理方法包括但不限于: a)完整性处理:识别并根据策略(删除、填充、插值)处理训练数据中不完整或缺失的数据。 b)准确性处理:识别并根据策略(删除、截断、转换、替换)处理训练数据中显著偏离正常模式的异常数据。 c)时效性处理:移除或修正过时或不再相关的数据,定期更新数据集,确保数据反映最新的信息和趋势。 d)可用性处理:识别并删除训练数据中不可用的数据。 e)重复性处理:识别并删除或合并训练数据中完全相同或近似重复的数据。 5.2数据来源控制 数据来源控制方法包括但不限于: a)数据来源筛选:严格筛选数据来源,优先选择权威、经过验证的数据源,如专业数据库、机构发布的数据等,避免使用未经验证的低质量数据源。 b)数据来源审查:检查数据来源的交易合同、开源许可协议、相关授权文件等。特别对其中所涉及的主要知识产权侵权风险进行识别,尤其是对于包含文学、艺术、科学作品的数据,应重点识别其中的著作权侵权问题。 5.3内容安全审查 内容安全审查方法包括但不限于: a)规则体系过滤:结合关键词、短语、上下文和语义模式,构建规则体系进行识别和过滤。 b)内容审核模型:利用成熟的内容审核模型,对训练数据的内容进行自动识别和审核。 c)人工审核:对于复杂、模糊或高风险的训练数据内容,引入专业人工团队进行最终判断、删除或修正。 5.4个人信息保护方法 个人信息保护方法包括但不限于: a)匿名化:对训练数据中的个人信息进行处理,使得个人信息主体无法被识别或者关联,且处理后的信息不能被复原。匿名化方法可参考TC260-PG-AAAABB《网络安全标准实践指南——个人信息保护个人信息匿名化指南》。 b)去标识化:通过去标识化技术使得数据无法对应到特定个人,但保留通过额外信息重新识别的可