您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[上海人工智能实验室&安远AI]:前沿人工智能风险管理框架(1.0版) - 发现报告

前沿人工智能风险管理框架(1.0版)

AI智能总结
查看更多
前沿人工智能风险管理框架(1.0版)

执⾏摘要 我们对可信AGI的发展愿景 当前⼈⼯智能(AI)技术正以前所未有的速度取得突破性进展,各类系统在众多领域已达到或超越 ⼈类⽔平。这些突破性进展为我们解决⼈类⾯临的重⼤挑战提供了历史机遇⸺从推动科学发现、提升医疗质量和⼈的健康福祉,到促进经济⽣产⼒的提升。但与此同时,快速发展的技术也带来了前所未有的⻛险。随着先进⼈⼯智能的研发与部署速度超越了关键安全措施的发展速度,建⽴完善的⻛险管理机制已成为全球科技发展的当务之急。 作为我国⼈⼯智能领域的新型科研机构,上海⼈⼯智能实验室致⼒于打造“突破型、引领型、平台型”⼀体化的⼤型综合性研究基地,推动⼈⼯智能技术的安全有益发展。为积极应对技术发展带来的挑战,推动全球在⼈⼯智能安全领域的良性竞争,实验室提出了AI-45°平衡律1,作为实现可信AGI的发展路线图。 前沿⼈⼯智能⻛险管理框架 上海⼈⼯智能实验室联合安远AI2,正式发布《⼈⼯智能前沿⻛险管理框架(1.0版)》(以下简称“框架”),旨在为通⽤型⼈⼯智能(General-PurposeAI)模型研发者提供全⾯的⻛险管理指导 ⽅针,主动识别、评估、缓解和治理⼀系列对公共安全和国家安全构成威胁的严重⼈⼯智能⻛险,保障个体与社会的安全。 本框架旨在为通⽤型⼈⼯智能模型研发者管理其通⽤型⼈⼯智能模型可能带来的严重⻛险提供指导。框架充分借鉴了安全攸关型⾏业的⻛险管理标准与最佳实践,涵盖⻛险管理的六⼤核⼼流程: ⻛险识别、⻛险阈值、⻛险分析、⻛险评价、⻛险缓解及⻛险治理。 ●1.⻛险识别:本章节聚焦通⽤型⼈⼯智能模型可能引发的严重⻛险,明确四⼤核⼼⻛险类型:滥⽤⻛险、失控⻛险、意外⻛险及系统性⻛险。我们计划通过持续更新⻛险分类体系,动态应对未知与新兴⻛险。 ●2.⻛险阈值:本章节明确了⼀系列不可接受的⻛险结果(红线)以及触发更⾼级别安全保障措施的早期预警指标(⻩线)。我们针对可能威胁公共安全和国家安全的⼏个关键领域设定阈值,其中包括:⽹络攻击、⽣物威胁、⼤规模说服和有害操控,以及失控⻛险。 1Yang,C.etal.,"TowardsAI-45°Law:ARoadmaptoTrustworthyAGI,"arXivpreprint,2024,https://arxiv.org/abs/2412.14186 2安远AI(ConcordiaAI)是⼀家AI安全与治理领域第三⽅研究和咨询机构,同时是⽬前该领域中国唯⼀的社会企业。 ●3.⻛险分析:本章节建议在⼈⼯智能全⽣命周期中贯穿实施动态⻛险分析,以判断模型是否越过⻩线⸺即达到触发更⾼级别安全措施的早期预警指标。我们建议AI研发者在研发前和部署前进⾏系统性评估,以便为关键的部署决策提供参考。同步应建⽴部署后持续监测机制,为新⼀代系统研发提供安全指引。与本框架同时发布的还有⼀份针对⼀系列通⽤型 ⼈⼯智能模型的⻛险评测技术报告。 ●4.⻛险评价:建⽴三级⻛险分级体系:绿⾊区域(基于常规措施可安全部署)、⻩⾊区域 (需强化安全防护与授权)、红⾊区域(需特殊措施,如限制部署或限制研发)。我们建议对缓解措施实施后的剩余⻛险进⾏迭代评估,进⼀步采取降低⻛险的措施直⾄⻛险达到可接受⽔平。 ●5.⻛险缓解:构建全⽣命周期纵深防御⻛险缓解策略,包含三种⻛险缓解措施:安全训练措施、部署缓解措施及模型安保措施,并根据模型处于绿⾊区域、⻩⾊区域或红⾊区域设定不同的保障级别。我们呼吁全球持续加⼤AI安全基础研究投⼊,当前技术⼿段尚难以充分保障先进AI系统的安全性。 ●6.⻛险治理:提出监督和调整整个⻛险管理流程的治理路径。建⽴四维治理体系:内部治理机制、透明度与社会监督、应急管控机制、政策定期更新和反馈机制,并根据模型处于绿⾊区域、⻩⾊区域或红⾊区域设定不同的保障级别。 AI安全作为全球公共产品 上海⼈⼯智能实验室坚信AI安全是⼀项全球公共产品3。我们率先提出这份前沿AI⻛险管理框架,汇集了现阶段对重⼤AI⻛险的认知与应对思路。我们倡导前沿AI研发机构、政策制定者及相关⽅采⽤兼容的⻛险管理框架。AI技术的跃迁⽇新⽉异,唯有尽快在当下采取集体⾏动,才能让变⾰性AI真正造福⼈类,并避免灾难性后果。我们诚邀各⽅就框架落地开展合作,并承诺以公开透明的⽅式分享实践成果。只有当关键组织同步落实同等强度的防护措施,社会层⾯的⻛险管控才能⽣效。⾯对 ⻛险与机遇并存的全新局⾯,唯有以协同共治、系统施策的思维,⽅能凝聚合⼒、破局前⾏。 3上海⼈⼯智能实验室治理研究中⼼、清华⼤学产业发展与环境治理研究中⼼、上海交通⼤学国际与公共事务学院等,《⼈⼯智能安全作为全球公共产品研究报告》,2024,https://www.sipa.sjtu.edu.cn/show/5646; 安远AI、⽜津⻢丁⼈⼯智能治理倡议和卡内基国际和平研究院,《⼈⼯智能安全作为全球公共产品:影响、挑战与研究重点》(ExaminingAISafetyasaGlobalPublicGood:Implications,Challenges,andResearchPriorities),2025 https://oms-www.files.svdcdn.com/production/downloads/academic/Examining_AI_Safety_as_a_Global_Public_Good.pdf?dm=1741767073 贡献与致谢 科学总监:周伯⽂ 主要撰稿⼈:谢旻希†、⽅亮*、徐甲*、段雅⽂*、邵婧* 贡献者:张杰、刘东瑞、王伟冰、程远、俞怡、郭嘉轩、陆超超 感谢安远AI伙伴刘顺昌等⼈对本报告内容的贡献。 †表⽰第⼀作者 *表⽰等同贡献 版本与更新计划 《前沿⼈⼯智能⻛险管理框架》旨在成为⼀份持续迭代的动态⽂档。我们将定期审阅并评估本框架的内容及其实⽤性,以适时进⾏更新。关于《前沿⼈⼯智能⻛险管理框架》的任何意⻅或建议,均可随时通过电⼦邮件发送⾄主要撰稿⼈,我们将每半年进⾏⼀次集中审阅和整合。 如何引⽤本报告:上海⼈⼯智能实验室,安远AI,《⼈⼯智能前沿⻛险管理框架(1.0版)》,2025 ⽬录 执⾏摘要.......................................................................................................................... 框架总览1 ⼈⼯智能⻛险管理的六个阶段1 部署环境、威胁源和使能能⼒三位⼀体2 1.⻛险识别3 1.1⻛险识别范围3 1.2⻛险分类框架4 1.3滥⽤⻛险5 1.3.1⽹络攻击⻛险5 1.3.2⽣物化学⻛险5 1.3.3⼈⾝伤害⻛险6 1.3.4⼤规模说服与有害操控⻛险6 1.4失控⻛险7 1.5意外⻛险7 1.6系统性⻛险8 2.⻛险阈值10 2.1定义AI发展的“⻩线”和“红线”10 2.2具体红线建议12 2.2.1⽹络攻击⻛险13 2.2.2⽣物安全⻛险15 2.2.3⼤规模说服与有害操控⻛险17 2.2.4失控⻛险18 3.⻛险分析20 3.1规划与研发阶段的⻛险分析技术20 3.2部署前的⻛险分析技术21 3.3部署后的⻛险监测技术22 4.⻛险评价23 4.1缓解前的⻛险处置选项23 4.2缓解后剩余⻛险评估与部署决策24 4.3部署决策的外部沟通25 5.⻛险缓解26 5.1⻛险缓解措施概述26 5.2安全预训练和后训练措施27 5.3模型部署缓解措施28 5.3.1针对模型滥⽤的缓解措施28 5.3.2针对智能体安全的缓解措施28 5.4模型安保措施29 5.4.1针对模型泄漏⻛险29 5.4.2针对模型失控⻛险30 5.5全⽣命周期的“纵深防御”策略31 6.⻛险治理32 6.1⻛险治理措施概述32 6.2内部治理机制32 6.3透明度和社会监督机制34 6.4应急管控机制34 6.5定期更新政策35 附录⼀:术语定义36 附录⼆:具体基准测试建议38 ⽹络攻击38 ⽣物威胁40 化学威胁42 附录三:模型能⼒、倾向和部署特征44 关键能⼒(Capabilities)44 关键倾向(Propensities)45 关键部署特征(DeploymentCharacteristics)46 框架总览 ⼈⼯智能⻛险管理的六个阶段 本框架将既有的⻛险管理原则应⽤于通⽤型⼈⼯智能(General-PurposeAI)研发,并与包括ISO31000:2018、ISO/IEC23894:2023和GB/T24353:2022在内的标准保持⼀致4。本框架构建了六个相互关联的阶段,形成了贯穿⼈⼯智能全⽣命周期不断演进的持续⻛险管理循环,如图1所⽰: ●⻛险识别(RiskIdentification):系统性识别和分类潜在严重⻛险的过程,重点聚焦前沿AI的先进能⼒所引发的⻛险。随着AI能⼒的进步和新威胁场景的出现,识别过程不断将新兴 ⻛险反馈到循环中。 ●⻛险阈值(RiskThresholds):定义不可接受结果(“红线”)和升级安全保障措施的早期预警指标(“⻩线”)的过程。这些阈值基于从⻛险分析、评价结果和缓解有效性中汲取的经验不断完善,形成⼀个持续校准阈值的反馈机制。 ●⻛险分析(RiskAnalysis):通过定量和定性评估⽅法研究特定AI⻛险场景和分析⻛险的过程。基于已识别的⻛险和既定阈值,这⼀阶段对整个AI研发⽣命周期进⾏综合评估,包括研发前、部署前和部署后分析。分析结果直接为后续的⻛险评价阶段提供信息,同时也提供可能揭⽰需要识别的新⻛险的⻅解。 ●⻛险评价(RiskEvaluation):通过与既定阈值对⽐判定⻛险等级,以指导⻛险缓解和模型部署决策的过程。这⼀阶段采⽤三区分类体系(绿⾊区域、⻩⾊区域、红⾊区域)对⻛险进⾏分类并确定适当的响应。当模型⻛险突破可接受阈值时则触发缓解阶段,⽽模型⻛险处于可接受的区域使则可在治理措施下推进部署。 ●⻛险缓解(RiskMitigation):通过全⾯的应对措施主动减少和响应不同类型安全⻛险的过程。这⼀阶段实施涵盖整个AI⽣命周期的纵深防御⽅法,缓解策略根据⻛险区域分类⽽有所不同。缓解措施实施后,过程回到⻛险识别环节以评估剩余⻛险并确定是否需要额外措施,从⽽形成⼀个⻛险降低和验证的迭代循环。 ●⻛险治理(RiskGovernance):将⻛险管理整合到更⼴泛的组织和社会治理结构中的过程。这⼀阶段涵盖整个⻛险管理循环,提供监督、透明度和问责机制。治理过程确保从每个阶段汲取的经验教训系统性地纳⼊框架改进、政策更新和组织学习中,同时促进内部利益相关者和外部监督机构之间的协调。 4术语、概念、流程主要参考:GB/T24353:2022《⻛险管理指南》、GB/T23694:2013《⻛险管理术语》、ISO/IEC23894:2023 《⼈⼯智能⻛险管理指南》、ISO31000:2018《⻛险管理指南》、ISO/IEC42001:2023《⼈⼯智能管理体系》、国家⽹络安全标准化技术委员会《⼈⼯智能安全标准体系》1.0版、《国际⼈⼯智能安全报告》3.1章⻛险管理。 图1:⼈⼯智能⻛险管理的六个阶段 部署环境、威胁源和使能能⼒三位⼀体 本框架通过三个相互关联的分析维度来评估⻛险,这些维度共同⽤于综合评估潜在危害的发⽣可能性及其严重程度: ●部署环境(DeploymentEnvironment;E):指AI模型部署运⾏的具体场景和约束条件。例如部署领域、操作参数、监管要求、⽤⼾群体特征、依赖的基础设施以及现有的监督机制等。即使是相同的⼈⼯智能能⼒,在不同部署环境下可能呈现出显著差异的⻛险特征。 ●威胁源(ThreatSource;T):指可能通过与AI模型交互引发有害后果的源头或主体。例如外部攻击者(恶意⽤⼾、敌对势⼒)、内部缺陷(模型⽬标偏离、训练数据偏差)、操作失误(⼈为错误、系统集成故障),以及AI与复杂环境互动时产⽣的涌现⾏为。 ●使能能⼒(EnablingCapabili