AI智能总结
GB/T45652—2025 网络安全技术生成式人工智能预训练和优化训练数据安全规范 Cybersecuritytechnology—Securityspecificationforgenerativeartificialintelligencepre-trainingandfine-tuningdata 国 家 市 场 监 督 管 理 总 局国 家 标 准 化 管 理 委 员 会发布 目次 前言Ⅲ…………………………………………………………………………………………………………引言Ⅳ…………………………………………………………………………………………………………1范围1………………………………………………………………………………………………………2规范性引用文件1…………………………………………………………………………………………3术语和定义1………………………………………………………………………………………………4通用安全要求2……………………………………………………………………………………………5预训练数据处理活动的安全要求3………………………………………………………………………5.1数据收集3……………………………………………………………………………………………5.2数据预处理3…………………………………………………………………………………………5.3数据使用4……………………………………………………………………………………………6优化训练数据处理活动的安全要求4……………………………………………………………………6.1数据收集4……………………………………………………………………………………………6.2数据预处理5…………………………………………………………………………………………6.3数据使用5……………………………………………………………………………………………7评价方法5…………………………………………………………………………………………………7.1通用安全评价方法5…………………………………………………………………………………7.2预训练数据处理活动评价方法7……………………………………………………………………7.2.1数据收集7………………………………………………………………………………………7.2.2数据预处理8……………………………………………………………………………………7.2.3数据使用10………………………………………………………………………………………7.3优化训练数据处理活动评价方法10…………………………………………………………………7.3.1数据收集10………………………………………………………………………………………7.3.2数据预处理11……………………………………………………………………………………7.3.3数据使用12………………………………………………………………………………………参考文献14…………………………………………………………………………………………………… 前言 本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。 本文件由全国网络安全标准化技术委员会(SAC/TC260)提出并归口。 本文件起草单位:北京中关村实验室、国家计算机网络应急技 术 处 理 协 调 中 心、中 国 电 子 技 术 标 准化研究院、北京大学、北京天融信网络安全技术有限公司、北京快手科技有限公司、阿里巴巴(北京)软件服务有限公司、北京百度网讯科技有限公司、清华大学、北京瑞莱智慧科技有限公司、天翼安全科技有限公司、中国移动通信集团有限公司、小米科技有限责任公司、阿里云计算有限公司、北京面壁智能科技有限责任公司、杭州萤石软件有限公司、北京理工大学、北京零一万物科技有限公司、中国科学院自动化研究所、联想(北京)有限公司、北京奇虎 科 技 有 限 公 司、科 大 讯 飞 股 份 有 限 公 司、华 为 云 计 算 技 术 有 限 公司、北京数安行科技有限公司、公安部第三研究所、蚂蚁科技集团股份有限公司、北京启明星辰信息安全技术有限公司、中国科学院计算技术研究所。 本文件主要 起 草 人:徐 恪、姚 龙、张 震、刘 勇、谭 知 行、李 琦、谢 安 明、许 晓 耕、杨 光、崔 天 宇、郝 春 亮、张妍婷、薛智慧、郭 建 领、谷 晨、姜 文、叶 晓 俊、田 天、梁 伟、江 为 强、李 家 锟、彭 骏 涛、汪 华 东、郑 鸿 咚、洪延青、王海棠、朱贵波、孟 遥、张 向 征、刘 俊 华、李 峰 风、刘 玉 红、刘 楠、林 冠 辰、王 龑、落 红 卫、谭 映 水、张峰、孙旭东、杜 金 浩、徐 世 真、安 鹏、于 阳、孙 勇、郭 洁 昕、吴 建 亮、王 霞、王 金 桥、高 博 雅、管 铭、王 士 进、赵丽丽、王文宇、丁治国、蒋发群、盛强、吴博文。 引言 预训练和优化训练数据是生成式人工智能的基础,直接决定了生成内容的质量和安全水平,但由于预训练和优化训练数据在收集、预处理、使用等处理活动中存在安全风 险,亟 需 标 准 规 范 用 于 提 高 预 训练和优化训练数据的安全水平。 网络安全技术生成式人工智能预训练和优化训练数据安全规范 1范围 本文件规定了生成式人工智能预训练和优化训练数据及其处理 活 动 的 安 全 要 求,描 述 了 相 应 的 评价方法。 本文件适用于生成式人工智能服务提供者开展预训练和优化训 练 数 据 处 理 活 动 以 及 安 全 自评 估,也适用于第三方机构对预训练和优化训练数据进行安全性评估。 2规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必 不 可 少 的 条 款。其 中,注 日 期 的 引 用 文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包 括 所 有 的 修 改 单)适 用 于本文件。 GB/T35273信息安全技术个人信息安全规范GB/T41479—2022信息安全技术网络数据处理安全要求 3术语和定义 下列术语和定义适用于本文件。 3.1生成式人工智能服务generativeartificialintelligenceservice利用生成式人工智能技术向公众提供生成文本、图片、音频、视频等内容的服务。[来源:GB/T45654—2025,3.1] 服务提供者serviceprovider 以交互界面、可编程接口等形式提供生成式人工智能服务的组织或个人。 3.3服务使用者serviceuser使用生成式人工智能服务的组织或个人。 3.4预训练pre-training使用大规模数据使生成式人工智能模型获得通用知识的训练过程。 3.5 优化训练fine-tuning 在预训练基础上,使用特定领域数据使生成式人工智能模型获得面向领域服务能力的训练过程。注:特定领域不限于某一个专业领域,通常覆盖多个领域。 GB/T45652—2025 3.6预训练数据pre-trainingdata用于生成式人工智能预训练的数据。 3.7优化训练数据fine-tuningdata所有用于生成式人工智能优化训练的数据。 3.8元数据metadata定义和描述其他数据的数据。[来源:GB/T18391.1—2009,3.2.16] 3.9统一资源定位符unifiedresourcelocation用于标识互联网上资源位置的字符串。注:通常包含协议类型(如HTTP、FTP)、主机名、路径和查询参数等部分,用户通过其定位并访问资源。 4通用安全要求 对服务提供者的要求如下。 a)应制定人工智能预训练和优化训练数据的安全管 理 策 略,包 含 对 预 训 练 数 据 和 优 化 训 练 数 据的保护组织、分类分级规则、数据处理活动安全、数据安全事件应急响应等。b)数据存储时应建立冗余备份等安全防护措施。c)数据传输过程中,应采取数据加密等安全防护措施,防范数据在传输过程中被窃取。d)训练阶段的数据应按照每批次进行安全隔离并在 批 次 间 建 立 数 据 标 识,保 证 训 练 数 据 内 容 的可追溯性。e)开展预训练和优化训练数据处理活动时,应符合GB/T41479—2022中第5章的相关要求。f)对预训练和优化训练数据中涉及个人信息的,其处理应满足GB/T35273的相关要求;宜采用匿名化或去标识化技术,防止发生个人信息安全事件。g)应采用合理的安全保护措施及工具对训练和优化训练数据进行安全保护。h)对开展训练和优化训练数据处理活动的系统或平台宜至少满足等级保护三级要求。i)应建立并执行数据删除策略与规范,明确删除 对 象,经 过 审 批 并 记 录 日 志 后,按 数 据 主 体 请 求在规定时间内删除其信息。j)宜采取措施确保删除的数据不能被恢复,例如重复覆写、多次格式化、物理销毁等。k)宜建立预训练和优化训练数据安全管理团队及监 督 职 能 部 门,明 确 数 据 安 全 岗 位 和 用 户 角 色职责。l)应定期对预训练和优化训练数据开展安全评估,及 时 响 应 和 处 置 预 训 练 和 优 化 训 练 数 据 安 全事件,对涉及预训练和优化训练数据处理的关键岗位进行定期培训和考核。m)涉及行业数据的,应按照行业相关规定及行业标准要求采取相应的保护措施。n)宜对预训练和优化训练数据进行安全检测,修复或过滤被投毒数据,包括但不限于以下情况:1)攻击者以降低算法模型整体表现为目的,置 入 大 量 标 注 错 误 或 与 设 计 开 发 目 的 无 关 的 投毒数据;2)攻击者以使算 法 模 型 对 特 定 数 据 给 出 错 误 输 出 为 目 的,置 入 部 分 具 备 特 定 特 征 的 投 毒数据。o)应对预训练和优化训练数据进行真实性评估。 5预训练数据处理活动的安全要求 5.1数据收集 对服务提供者的要求如下。 a)数据收集时,应对数据进行评估和记录,数据所包含的违法不良信息不应超过5%。注1:本文件关注的违法不良信息主要是指包含GB/T45654—2025中A.1~A.4中29种安全风险的信息。b)对自行收集的预训练数据,不应采集他人已明确不可采集的数据。c)收集开源数据集时,应遵循该数据集的开源许可协议或取得使用授权文件。d)对从外部数据源收集的预训练数据,应记录数据收集所涉及的数据来源:1)数据来源为互联网网站的,记录网站的统一资源定位符;2)数据来源为外部组织或个人的,记录数 据 集 名 称、来 源 组 织,保 存 具 备 法 律 效 力 的 交 易 合同、合作协议、许可协议或相关授权文件等;3)数据来源为服务使用者的,具有服务使 用 者 的 授 权 记 录,并 记 录 服 务 名 称、服 务 使 用 者 的标识。e)同类型的数据应具有多个不同的数据来源:1)不同的数据来源包含多个数据提供主 体,包 括 但 不 限 于 互 联 网 网 站、其 他 组 织 或 个 人、服务使用者等;2)同类型数据中,每个数据来源的比例不低于1%。注2:此处类型包括但不限于代码、图像、音频、视频及相同语言的文本等。f)所采集数据涉及个人信息的,应取得对应个人 的 同 意 或 符 合 法 律、行 政 法 规 规 定 的 其 他 情 形;所采集数据涉及敏感个人信息的,应取得对应个人的单独同意或符合法律、行政法规规定的其他情形。g)通过交易或合作等方式从其他组织或个人收集数据时,应对交易方或合作方所提供的数据、承诺以及相关证明材料进行审核。h)涉及数据跨境收集时,应符合相关数据跨境安全法规和标准要求。 5.2数据预处理 对服务提供者的要求如下。 a)应对数据进行抽样安全核验,经核验数据内容中含违法不良信息情况超过5%的,不应使用该来源数据进行训练。b)应确保预处理环境的安全性,进行数据处理的平台和工具安全性应与数据等级对应。c)宜定期对