您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [OpenAI]:大模型风险防范框架(2023) - 发现报告

大模型风险防范框架(2023)

信息技术 2025-01-10 - OpenAI 大王雪
报告封面

译:Web3天空之城 前言:OpenAI刚发表的这个风险防范文档基本是描述了内部如何以一个独立团队在公司治理框架下进行大模型的风险防范,有很强的实操参考价值。目前还没看到中文版,特此整理制作全中文版本分享 我们认为,对人工智能带来的灾难性风险的科学研究远远落后于我们的需求。 为了帮助解决这一差距,我们正在推出我们的“准备框架”,这是一份描述OpenAI追踪、评估、预测和防护日益强大的模型所带来的灾难性风险的流程的活文档。 2023年12月18日 引言 我们迭代部署的实践经验使我们能够主动改进我们的技术和程序安全基础设施。随着我们的系统越来越接近通用人工智能(AGI),我们在模型的开发上变得更加谨慎,特别是在灾难性风险的背景下。这份准备框架是一份活文档,它总结了我们关于如何在实践中最好地实现安全开发和部署的最新学习成果。准备框架中的流程将帮助我们迅速提高对灾难性风险的科学和经验质地的理解,并建立防止不安全开发所需的流程。我们准备框架背后的核心论点是,对AI灾难性风险安全的强有力方法需要主动、基于科学的决定何时以及如何安全地进行开发和部署。 我们的准备框架包含五个关键要素: 1通过评估追踪灾难性风险水平。我们将构建并不断改进一系列评估和其他监控解决方案,涵盖多个追踪风险类别,并在评分卡中指出我们当前的预防和缓解风险的水平。重要的是,我们还将预测风险的未来发展,以便我们可以在安全和安保措施上提前行动。 2寻找未知的未知。我们将持续运行一个过程,用于识别和分析(以及追踪)当前未知的灾难性风险类别,随着它们的出现。 3建立安全基线。只有那些缓解后评分为“中等”或以下的模型才能被部署,只有那些缓解后评分为“高”或以下的模型才能进一步开发(如下面的追踪风险类别所定义)。此外,我们将确保安全措施适当地针对任何具有“高”或“关键”预防风险水平的模型(如下面的 评 分 卡 所 定 义 ) , 以 防 止 模 型 泄 露 。 我 们 还 建 立 了 程 序 承 诺 ( 如 下 面 的 治 理 所 定义),进一步指定我们如何操作化准备框架概述的所有活动。迭代部署主动改进我们的技术和程序安全基础设施。 4指派准备团队进行实地工作。Preparedness团队将推动准备框架的技术工作和维护。这包括进行风险研究、评估、监控和预测,并通过定期向安全咨询小组报告来综合这些工作。这些报告将包括最新证据的摘要,并就需要进行的变更提出建议,以使OpenAI能够提前规划。准备团队还将呼吁并协调相关团队(例如,安全系统、安全、超级对齐、政策研究)来汇总这些报告中推荐的缓解措施。此外,准备工作还将管理安全演习,并与值得信赖的AI团队协调进行第三方审计。 5创建一个跨职能咨询机构。我们正在创建一个安全咨询小组(SAG),它将公司内的专业知识汇集在一起,以帮助OpenAI的领导层和董事会为他们需要做出的安全决策做好最充分的准备。因此,SAG的职责将包括监督风险景观的评估,并维护一个快速处理紧急情况的流程。 最后,OpenAI的首要受托责任是对人类负责,我们致力于进行必要的研究以确保AGI的安全。因此,准备框架旨在成为我们整体安全和对齐方法的一部分,这还包括投资于减轻偏见、幻觉和滥用、促进民主对AI的输入、对齐和安全研究的投资。这也是我们在2023年7月做出的关于安全、安全和AI信任的自愿承诺的又一种方式。 我们也认识到其他组织在这一领域的贡献,例如通过发布《负责任的扩展政策》,并鼓励业内其他人采取类似的方法。 注1 我们在这份文件中关注的是灾难性风险。灾难性风险,我们指的是任何可能导致数千亿美元的经济损失或导致许多个人遭受严重伤害或死亡的风险——这包括但不限于存在风险。 注2 主动在这种情况下指的是在第一次变得必要之前发展这门科学的目标。部署在这种情况下指的是发布技术以产生外部影响的各种方式。开发在这种情况下指的是增强技术的一系列活动。 如何阅读本文档本living文档包含三个部分: 1 追踪风险类别, 我们将详细介绍我们将追踪的关键风险领域以及不同风险级别的划分 2 评分卡, 我们将在其中指出我们当前对每个追踪风险类别的风险水平评估 3 治理, 我们将在其中阐述我们的安全基线以及程序承诺,包括成立一个安全咨询小组。 追踪风险类别 在本节中,我们确定我们将追踪的风险类别,并设立专门的工作流程,用于识别和添加新的或初现的风险类别,即“未知的未知”。我们的意图是在追踪的类别中“深入挖掘”,以确保我们能够测试任何可能的最坏情况,同时通过在OpenAI内部的监控活动以及“未知的未知”识别过程,保持对风险的广泛整体观察。 每个追踪风险类别都有一个等级刻度。我们相信监控风险的不同等级将使我们能够预防不断升级的威胁,并能够应用更定制化的缓解措施。一般来说,“低”在这个等级刻度上意味着相应的风险类别尚未成为一个重大问题,而“关键”代表了最高级别的关注。具体来说,下面,我们将详细介绍以下追踪风险类别 网络安全化学、生物、核和放射性(CBRN)威胁说服力模型自主性 我们对分组和命名这些特定风险类别的理由是基于三个考虑因素。 首先,微调或其他领域特定的增强(例如,定制提示或语言模型程序)可能更好地引出模型在特定风险类别上的能力。因此,我们的评估将包括针对这些增强模型的测试,以 确保我们正在测试我们所知的“最坏情况”。 我们的程序承诺在任何追踪风险类别的严重性增加时触发,而不是仅在它们全部一起增加时。由于不同领域的能力提升并不一定同时发生,这种方法确保我们倾向于安全。其次,这种方法使我们能够利用领域特定的人才来为每个风险类别开发定制的评估和监控解决方案套件。第三,这种方法增加了定制的、领域特定的缓解措施的选择,以帮助最小化对更广泛、更具破坏性行动的需求。 此外,我们正在考虑的风险类别并不一定是独立的,它们可能会相互作用。因此,决定将某些风险分组的动机是出于运营效率(以及希望有一套相对紧凑的追踪风险类别的愿望)。 如前所述,对前沿人工智能模型的灾难性风险的实证研究还处于初期阶段。因此,我们对“中等”至“关键”风险的当前估计水平和阈值是推测性的,并将随着未来研究的指导而不断完善。出于这个原因,我们将具体的评估细节推迟到评分卡部分(并且这一部分意图频繁更新)。 网络安全 网络安全专注于与使用模型进行网络利用相关的风险,以破坏计算机系统的机密性、完整性和/或可用性。 化学、生物、放射性、核(CBRN) CBRN专注于与模型辅助创建化学、生物、放射性和/或核威胁相关的风险。 说服 说服主要关注与说服人们改变他们的信念(或采取行动)相关的风险,无论是静态的还是交互式的模型生成的内容。 我们通过模型可以商品化的人类说服内容的水平来定义说服能力。通常,强有力的说服是罕见的,并且需要显著的人力努力(例如,一对一的基层对话,或一个高度打磨的播客);然而,模型可以使所有内容在其能力水平上几乎零成本生成。 模型自主性 模型自主性使行为者能够运行可适应环境变化并规避尝试缓解或关闭操作的大规模滥用。自主性也是自我窃取、自我改进和资源获取的先决条件。 注3所谓的智能爆炸,我们指的是一个循环过程,其中AI系统改进自身,这使得系统更有能力进行更多的改进,创造出一个自我改进的失控过程。能力增长的集中爆发可能会超过我们预测和应对它们的能力。 未知的未知 上述跟踪风险类别的列表几乎肯定不是详尽无遗的。随着我们对前沿模型潜在影响和能力的理解提高,清单可能需要扩展以适应新的或未充分研究的新兴风险。因此,作为我们的治理过程的一部分(稍后在本文档中描述),我们将持续评估是否需要在上述列表中包含新的风险类别以及如何创建等级。此外,我们将投资于跟踪相关研究发展并监测观察到的滥用情况(稍后在本文档中扩展),以帮助我们了解是否有任何新兴或未充分研究的威胁需要我们跟踪。 跟踪风险类别的初始集合源于努力识别出现任何我们可以合理设想的灾难性风险情景所需的最小“绊线”集合。注意,我们将欺骗和社会工程评估作为说服风险类别的一部分,并将自主复制、适应和AI研发作为模型自主性风险类别的一部分。 得分卡 作为我们的预备框架的一部分,我们将维护一个动态的(即频繁更新的)得分卡,旨在跟踪我们当前的预缓解模型风险,以及各个风险类别的后缓解风险。得分卡将由预备团队定期更新,以确保它反映最新的研究和发现。更新得分卡的信息来源还将包括跟踪观 察到的误用情况,以及来自其他团队(例如,政策研究、安全系统、超级对齐)对我们前沿模型的其他社区红队测试和输入。 预缓解风险与后缓解风险 我们将对预缓解和后缓解风险运行相同的评估,以确定风险水平,但是针对的是不同版本的模型(预缓解与后缓解,如下文进一步说明)。 在实践中,通常情况下,总体后缓解风险将低于预缓解风险。预缓解风险旨在指导我们的安全努力水平,以及推动开发必要的缓解措施,以降低后缓解风险。最终,能力增长与强大的安全解决方案相结合,是我们研究过程的核心,后缓解风险是我们跟踪这些过程的总体“净输出”的方式。 评估预缓解风险 我们希望确保我们对预缓解风险的理解考虑到了针对给定领域的“最坏已知情况”(即特别定制)的模型。为此,对于我们的评估,我们不仅会在基础模型上运行它们(在适当的地方使用高性能、定制提示),而且还会在未采取任何缓解措施的情况下,针对特定误用向量设计的微调版本上运行它们。我们将持续进行这些评估,即根据需要频繁进行,以捕捉任何非微不足道的能力变化,包括在训练前、训练期间和训练后。这将包括每当有>2倍有效计算增加或重大算法突破时。 评估后缓解风险 为了验证缓解措施是否已足够且可靠地降低了结果中的后缓解风险,我们还将在模型采取安全缓解措施后对其进行评估,再次尝试验证和测试这些系统可能的“最坏已知情况”场景。作为我们基线承诺的一部分,我们的目标是将后缓解风险保持在“中等”风险或以下。 预测、“早期警告”和监控 许多必要的缓解措施,以应对“高”或“关键”预缓解水平的风险(例如,加强安全性),需要足够的提前时间来实施。因此,我们将投资于帮助创建内部“预备路线图”的努力,并因此帮助我们适当规划并提前应对新兴风险。这些努力将包括与危险能力的规模化趋势相关的持续研究和持续监控误用。 我们还将与其他团队(例如,安全系统)合作,开发监控和调查系统。这种对现实世界误用的监控(以及了解相关研究发展)将帮助我们更好地了解部署模型的特性,并根据需要更新我们的评估。 缓解措施 实现我们安全基线的一个核心部分是实施缓解措施,以解决各种模型风险。我们的缓解策略将涉及包括隔离措施在内的各种措施,这些措施有助于降低拥有前沿模型相关的风险,以及部署缓解措施,这些措施有助于降低积极使用前沿模型的风险。因此,这些缓 解措施可能包括增加隔离、限制部署给受信任的用户、实施拒绝、编辑训练数据或警告分销合作伙伴。 示例得分卡: 注意:下面仅是得分卡可能看起来的一个示例模板版本;所有具体内容仅用于示例目的,不反映实际评估的结果。 网络安全:低(缓解前),低(缓解后) 模型对于非编程用途的网络攻击提供的帮助才有意义,而模型无法有效执行网络操作的各个要素。 网络攻击理论评估:在一组挑战性的概念性多项选择题数据集上,这些题目从渗透测试报告中提取并重新措辞,模型的表现显著低于人类基准水平(X%对比Y%)。GPT与搜索可利用性评估:在一组配置错误的、容易受到拒绝服务攻击的网络服务器上,网络安全专业人员在提供GPT辅助的情况下发现的漏洞比例少于