AI智能总结
GB/T45674—2025 网络安全技术 生成式人工智能数据标注安全规范 Cybersecuritytechnology—Generativeartificialintelligencedataannotationsecurityspecification 国 家 市 场 监 督 管 理 总 局国 家 标 准 化 管 理 委 员 会发布 目次 前言Ⅲ…………………………………………………………………………………………………………引言Ⅳ…………………………………………………………………………………………………………1范围1………………………………………………………………………………………………………2规范性引用文件1…………………………………………………………………………………………3术语和定义1………………………………………………………………………………………………4概述2………………………………………………………………………………………………………5数据标注平台或工具安全要求3…………………………………………………………………………6数据标注规则安全要求3…………………………………………………………………………………7数据标注人员要求4………………………………………………………………………………………7.1安全培训4……………………………………………………………………………………………7.2任务分配4……………………………………………………………………………………………7.3人员管理4……………………………………………………………………………………………8数据标注核验要求5………………………………………………………………………………………8.1基本要求5……………………………………………………………………………………………8.2功能性标注核验安全要求5…………………………………………………………………………8.3安全性标注核验安全要求6…………………………………………………………………………9数据标注安全评价方法6…………………………………………………………………………………9.1数据标注平台或工具安全要求评价方法6…………………………………………………………9.2数据标注规则安全要求评价方法7…………………………………………………………………9.3数据标注人员要求评价方法8………………………………………………………………………9.4数据标注核验要求评价方法10………………………………………………………………………附录A(资料性)生成式人工智能数据标注示例12………………………………………………………附录B(资料性)人工智能标注任务类型示例14………………………………………………………… 前言 本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。 本文件由全国网络安全标准化技术委员会(SAC/TC260)提出并归口。 本文件起草单位:国家计算机网络应急技术处理协调中心、中 国 电 子 技 术 标 准 化 研 究 院、北 京 中 关村实验室、北京快手科技有限公司、北 京 百 度 网 讯 科 技 有 限 公 司、北 京 天 融 信 网 络 安 全 技 术 有 限 公 司、阿里云计算有限公司、北京大学、国家计算机网络应急技术处理协调 中 心 江 苏 分 中 心、公 安 部 第 三 研 究所、清华大学、上海人工智能创新中心、北京市公安局人工智能安全研究中心、西安邮电大学、浙江大学、中国科学院信息工程研究所、中国移动通信集团有限公司、小米科技有 限 责 任 公 司、蚂 蚁 科 技 集 团 股 份有限公司、华为云计算技术有限公司、北京数安行科技有限公司、北京晴数智慧科技有限公司、北京零一万物科技有限公司、北京奇虎科技有限公司、科大讯飞股份有限公司、联想(北京)有限公司、启明星辰信息技术集团股份有限公司、亚信科技(成都)有限公司、杭州萤石软件有限 公 司、北 京 东 方 通 网 信 科 技 有限公司、广东省信息安全测评中心、厦门美柚股份有限公司、北京瑞莱智慧科技有限公司、天翼安全科技有限公司、北京远鉴信息技术有限公 司、上 海 商 汤 智 能 科 技 有 限 公 司、苏 州 核 数 聚 信 息 科 技 有 限 公 司、南京领行科技股份有限公司、江苏满运软件科技有限公司、长安通 信 科 技 有 限 责 任 公 司、OPPO广 东 移动通信有限公司。 本文件主要 起 草 人:张 震、谭 知 行、张 妍 婷、贺 敏、刘 勇、孙 旭 东、徐 恪、陈 钟、杜 金 浩、郝 春 亮、任 奎、刘楠、落红 卫、叶 晓 俊、安 勍、胡 影、王 龑、姚 龙、谢 安 明、嵇 程、江 为 强、丁 治 国、雷 晓 锋、戴 娇、谷 晨、张晴晴、郭建领、张勇、罗 磊、刘 玉 红、廖 双 晓、蒋 慧、赵 云、张 峰、许 晓 耕、王 文 宇、陈 洋、张 夏、彭 骏 涛、包沉浮、王海 棠、孟 凡 芹、赵 丽 丽、刘 俊 华、李 家 锟、崔 婷 婷、余 瀚 洋、李 峰 风、臧 娇 娇、林 冠 辰、丁 欣、王士进、韩晗、张向征、胡 嵩 智、徐 怡 悦、管 铭、张 天 奕、黄 喆、刘 俊、周 雪、郑 榕、刘 栋、罗 旭 鹏、郑 鸿 咚、蒋发群、马梦娜、田伟丽、胡月、黄鹏华、张小敏、张中维、周城、李根、李笑如、张秉晟、王和俊、刘洞宾。 引言 数据标注是生成式人工智能的关键活动,直接决定了训练数据以及生成内容的质量和安全水平,但由于标注规则不完善、人员管理不规范、核验标准不明确等原因,在数据 标 注 过 程 中 也 可 能 为 生 成 式 人工智能引入新的风险隐患,亟需标准规范用于提高数据标注的安全水 平。为 加 强 生 成 式 人 工 智 能 数 据标注活动的安全管理,采取有效措施防范和处置相关风险,编制本文件,旨在帮助服务提供者、数据标注组织方以及数据需求方明确数据标注的安全基线、提高服务安全水平。 网络安全技术生成式人工智能数据标注安全规范 1范围 本文件规定了生成式人工智能训练的数据标注平台或工具安全要求、数据标注规则安全要求、数据标注人员要求、数据标注核验要求,描述了数据标注安全评价方法。 本文件适用于生成式人工智能数据标注组织方开展训练数据标 注 活 动,并 为 生 成 式 人 工 智 能 数 据需求方对于数据标注进行检查、验收或第三方机构对数据标注进行安全性评估提供参考。 2规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必 不 可 少 的 条 款。其 中,注 日 期 的 引 用 文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包 括 所 有 的 修 改 单)适 用 于本文件。 GB/T42755—2023人工智能面向机器学习的数据标注规程GB/T45654—2025网络安全技术生成式人工智能服务安全基本要求 3术语和定义 下列术语和定义适用于本文件。 3.1 提示信息prompt 引导生成式人工智能模型完成特定任务并提供合理输出内容的输入信息。 响应信息response 在生成式人工智能数据标注中,按照提示信息要求形成的符合人类认知的应答信息,用于训练模型形成对提示信息输出相应内容、模式或风格的响应的能力。 3.3 生成式人工智能数据标注generativeartificialintelligencedataannotation 通过人工操作或使用自动化技术机制,基于对提示信息的响 应 信 息 内 容,将 特 定 信 息 如 标 签、类 别或属性添加到文本、图片、音频、视频或者其他数据样本的过程。 注:以下简称“数据标注”。 [来源:GB/T45654—2025,3.5] 3.4 功能性数据标注functionaldataannotation 用于训练生成式人工智能模型具备完成特定任务能力的数据标注。[来源:GB/T45654—2025,3.6] 3.5 安全性数据标注securitydataannotation 用于训练生成式人工智能模型提升输出响应信息安全性的数据标注。 [来源:GB/T45654—2025,3.7] GB/T45674—2025 3.6 训练生成式人工智能模型具备完成特定任务或输出安全响应信息能力的数据标注。 3.7 针对同一个提示信息的正反例或多个不同的响应信息,标注人员 根 据 偏 好 给 出 打 分 或 者 排 序 标 注的数据标注。 注:反例数据通过强化学习等学习范式,训练模型降低输出类似反例响应的概率。 3.8 数据标注规则annotationrule 生成式人工智能模型数据标注时所遵循的方法、要求的统称。 3.9数据标注人员annotator承担数据标注任务的各类人员的统称。注:包括标注执行人员、标注审核人员、标注仲裁人员、标注监督人员等。 3.10标注执行人员annotationexecutor执行标注任务、产出标注内容的人员。 3.11标注审核人员annotationreviewer对初始化标注结果进行质量控制的人员。 3.12 当多名标注执行人员对同一标注对象的标注结果不一致或存在 争 议 时,负 责 给 出 最 终 标 注 结 果 的人员。 3.13 标注监督人员annotationsupervisor 对标注活动进行监督,判定数据标注活动是否符合各项要求的人员。 3.14 数据标注组织方organizerofdataannotation 组织数据标注人员开展数据标注活动、对标注质量有直接责任的人员或机构。 3.15数据需求方datarequester提出数据标注需求的人员或机构。[来源:GB/T42755—2023,3.4] 4概述 本文件针对当前数据标注面临的数据被窃取、数据泄漏、数据 投 毒、生 成 含 有 安 全 风 险 的 内 容 等 关键安全问题,提出安全要求,防范化解数据标注过程中的安全风险。数据标注安全框架图见图1。 针对生成式人工智能服务研发及优化过程中的数据标注,具体包括: a)数据标注平台或工具安全要求:针对数据标注组织方所使用的标注平台或系统、自动化标注工2 具等提出安全要求;b)数据标注规则 安 全 要 求:针 对 数 据 标 注 组 织 方 制 定 生 成 式 人 工 智 能 数 据 标 注 规 则 提 出 安 全要求;c)数据标注人员要求:针对数据标注人员在培训、任务分配和管理等方面提出安全要求;d)数据标注核验要求:针对数据标注核验提出安全要求。 5数据标注平台或工具安全要求 数据标注组织方安全使用数据标注平台或工具开展数据标注的要求如下。 a)应定期对标注平台或系统进行安全评估,发现 潜 在 的 安 全 漏 洞,及 时 进 行 修 复,并 详 细 记 录 漏洞发现及处置情况。b)应在安全的标注平台或系统开展标注活动。c)应确保标注平台或系统能详细记录用户的操作和系统活动,以便在发生安全事件时进行调查;应确保日志包含足够的详细信息,以追踪数据的处理历史。d)对于集中开展的数据标注工作,应提供具有适当区域划定和访问控制的物理环境,以防止未授权人员进入标注区域,确保标注物理环境安全;对 于 非 集 中 开 展 的 数 据 标 注 工 作,应 确 保 每 位标注人员所使用的标注设备安全和网络传输通道安全;宜对安全性标注数据进行隔离存储。e)如在标注过程中使用基于生成式人工智能服务的 自 动 化 标 注 平 台 或 工 具 进 行 辅 助 标 注,应 符合生成式人工智能服务相关法律法规要求。 6数据标注规则安全要求 数据标注组织方制定标注规则的安全要求如下。 a)标注规则应至少包括标注目标、数据格式、标注方法、质量指标等内容,生成式人工智能数据标注示例见附录A。b)数据标注组织方应分别