您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[全球灾难研究所]:评估大型语言模型接管灾难的风险 - 发现报告

评估大型语言模型接管灾难的风险

2024-12-31-全球灾难研究所Z***
AI智能总结
查看更多
评估大型语言模型接管灾难的风险

Seth D. Baum 全球灾难性风险研究所http: / / sethbaum. com*http: / / gcrinstitute. org 即将出版的《风险分析》 , DOI : 10.1111 / risa.14353 。该版本于 2024 年 7 月 3 日。 Abstract 这篇文章对大型语言模型(LLMs)进行了风险分析,这是一种“生成型”人工智能(AI)系统,能够生成文本,通常是对来自人类用户的文本输入作出响应。本文特别关注的是LLMs可能导致的一种极端灾难,即它们可能会像接管世界并杀死所有人一样行事。自近期推出诸如ChatGPT和GPT-4等极具能力的LLMs以来,LLMs接管灾难的可能性一直是公众讨论的主要话题之一。这可能标志着首次实际的AI系统(而非假设的未来系统)引发了关于接管灾难的担忧。文章的分析比较了(A)前人关于AI接管风险理论文献中指出的可能需要的AI系统特征与(B)当前LLMs观察到的特征。这种比较揭示出当前LLMs的能力似乎远未达到可能引发接管灾难所需的水平。未来LLMs也可能由于深度学习算法的基本限制而无法具备这种能力。然而,对于深度学习和当前LLMs中发现的意外能力存在分歧专家意见,这表明未来LLMs存在某种程度的接管灾难风险。因此,LLMs治理应监测接管特征的变化,并在出现预警信号时做好更积极应对的准备。除非和直到出现这些信号,否则更为激进的治理措施可能是不适当的。 关键词 : 人工智能 , 大型语言模型 , 灾难性风险 1. Introduction 在整个人工智能的历史中,人们一直担心有一天一个或多个高级人工智能系统可能会征服其人类创造者,导致灾难性的后果。基本的想法是,这些人工智能系统会变得比人类更聪明,从而能够超越人类的智慧,夺取对地球的控制权,并在追求某些有缺陷的目标过程中造成灾难,甚至可能导致人类灭绝(Good, 1965;Vinge, 1993;Bostrom, 2014;Russell, 2019)。本文将把这种事件称为“智能失控”事件。AI 接管灾难. 你:先前对AI接管灾难的研究主要具有理论性质,集中在假设的未来AI系统上。这包括一般性的讨论(如Bostrom, 2014;Russell, 2019)和风险分析(如Barrett and Baum, 2017;Sotala, 2018)。一些近期的研究分析了如果未来的先进AI系统类似于当前最先进的系统,接管灾难的风险(如Carlsmith, 2023;Ngo et al., 2023);这些研究更具实证性,部分基于对实际AI系统的观察。然而,所有这些研究都是面向未来的。它们基于一个前提,即如果某一事件确实发生,AI接管灾难的重要性极为关键,因此有必要给予早期关注。本项工作大致属于预见性治理的范畴(Guston, 2014)。如今,或许有史以来第一次,实际存在的AI系统引发了重大关切, 接管 : 大型语言模型 (LLM) , 一种 “生成 ” AI 的形式 , 它生成文本以响应 用户查询。近年来,现有的语言模型(LLMs)展现了跨主题的卓越能力,这些主题可能涵盖了当代人类讨论的整个范围。当然,现有的语言模型尚未引发接管灾难,但或许它们仍有可能引发此类事件,或者未来的语言模型可能会带来接管。一些人表达了对语言模型接管灾难的担忧(Leahy, 2021;FLI, 2023;Yudkowsky, 2023)。1尽管其他人对此提出了批评(Gebru等人,2023年;Marcus,2023年;Kambhampati,2024年)。这一议题已引起了公众和政策层面的关注,甚至在白宫新闻发布会上被提及(白宫,2203年)。此外,一份为英国AI安全峰会准备的文件将当前的大规模语言模型视为未来可能引发接管灾难的人工智能系统的一种潜在前驱(DSIT,2023a)。然而,大规模语言模型的接管风险尚未得到详细分析;本文的目的正是为此进行探讨。2 对LLM收购风险的关注引发了另一系列担忧。首先,有推测称,LLM开发者通过制造收购恐惧来使其产品看起来比实际更先进,以此吸引商业兴趣(Merchant, 2023)。这种行为虽然有可能发生,但与企业长期以来为避免声誉损害和监管而淡化风险的做法相悖(Oreskes 和 Conway, 2010;Baum, 2018a)。其次,人们担心收购风险可能会分散对LLM和其他AI系统所引发的更直接问题的注意力(Gebru等, 2023)。确实,LLM引发的其他重要问题包括利用低薪劳动力使LLM偏离有害内容(Perrigo, 2023);大规模生产误导信息的可能性(Bell, 2023);庞大的环境足迹(Stokel-Walker, 2023);危险材料双重用途研究的潜在应用(Boiko等, 2023);以及生成展现特定人口群体偏见的文本(Treude 和 Hata, 2023),参见Weidinger等(2021)的综述。这些问题是值得关注的,但这并不意味着对收购风险完全不予关注。对LLM收购灾难的风险分析可以帮助明确它应得到的关注程度及其类型。 你:应该考虑。由于这些风险极其严重,即使专家普遍认为这种风险极小,也值得对其进行分析,因为专家可能出错的可能性(无论多么小)仍然存在(Ord等人,2010年)。即使潜在灾难场景的理论在科学上支持有限且初次看来似乎不太可能,它们也值得严肃关注,因为理论最终被证明正确的可能性(无论多么小)依然存在(Ćirković,2012年)。此外,由于各种心理、智力和制度原因,专家和政策制定者社区以及公众可能会系统性地低估灾难风险(Posner,2004年;Wiener,2016年;Lipsitch等人,2017年)。如果更深入的审查发现LLM接管灾难风险足够低,则这将为关注其他LLM问题提供更坚实的基础。相反,如果风险实际上较高,则政策和其他决策应相应进行。因此,本文并不试图论证LLM接管灾难风险的具体观点,而是旨在澄清现有证据支持何种观点。本文的风险分析基于三个概念:(1)要导致接管灾难,AI 系统可能需要具有特征 X ; (2) LLM 具有特征 Y ; (3) LLM 接管风险 可以通过对X和Y进行比较来评估。概念(1)涵盖了第3至4节。概念(2)和(3)分别在当前的大语言模型(LLM)中位于第5节,在未来的大语言模型及相关AI系统中位于第6节。第7节阐述了治理和研究方面的含义。第8节进行总结。第2节概述了研究面临的一些挑战。 2. 研究 LLM 收购风险的挑战 2.1 方法和局限性本文分析构建了一个轻度结构化的模型,以探讨LLM接管风险(第3-4节),随后整合了与该 模型相关的信息(第5-6节)。该模型基于现有的人工智能接管理论。所谓“轻度结构化”,是指识别了一组可能对LLM接管具有重要意义的特征,并建立了它们之间的部分数学关系以计算LLM接管风险(式1),但这种结构并不足够完整或精确,以完全量化风险。这一现象反映了对于人工智能和LLM接管风险的高度理论不确定性,其在分析中表现为模型不确定性。先前很少有研究涉及人工智能接管风险的理论,因此任何分析可能都无法完美地模拟前所未有的技术灾难的风险。 有关本文中使用的大型语言模型(LLMs)的信息也存在重要的局限性。主要的信息来源是公开发布的研究论文、新闻媒体报告以及记录各种方面的大规模模型接管风险的其他出版物。这些出版物包含广泛的相关信息,但并不涵盖所有内容。例如,LLM 开发者并未总是公开披露其 LLM 的某些属性(Ray, 2023)。此外,当前的 LLM 本质上是黑盒:它们的内部过程非常复杂,甚至设计者也无法完全理解(Zhao et al., 2024)。关于 LLM 影响的研究通常会研究用户查询时 LLM 的行为,这对于某些事项来说是有信息价值的,但并不能提供对内部 LLM目标和过程的深入了解。最后,遵循人工智能研究的常见做法,关于 LLM 的研究往往未经同行评审,可能具有较低的可靠性。由于以上所有原因,本文无法提供关于 LLM 接管的确定性评估。 风险。相反,本文的贡献在于,在现有AI接管风险理论和关于LLM的可用信息的基础上,提供对LLM接管风险的部分理解。这足以提供一些关于风险及其可能治理方式的见解,但不可避免地留下了重要问题未被解答。 2.2 关于 AI 收购风险的发布风险这篇文章关注新兴技术可能导致极端灾难的风险。为了分析这种风险,有必要了解哪些技术 可能会导致极端灾难。然而,这种理解本身也可能带来风险,因为它可能成为恶意或不道德个人的指南,这些人可能会开发出导致灾难的技术。因此,尽管计算机科学和人工智能传统上倾向于开放出版(Bezuidenhout, 2013;Bostrom, 2017;Ananny 和 Crawford, 2018;Hecht 等人, 2018;Gupta 等人, 2020;Vincent, 2023),在考虑出版风险时,适当的做法是避免公布那些特别容易被滥用的细节。本文就是在考虑出版风险的情况下撰写的。文章中呈现的细节是 被认为提供了较少关于如何构建危险人工智能系统的见解,而更多地提供了如何治理人工智能风险的见解。文章中关于危险人工智能系统设计的细节有限,主要是一些先前工作的总结。虽然这些细节可能被用于有害目的,但将其转化为功能性人工智能系统仍需大量工作。相比之下, 设计细节在文章中对AI风险治理更具直接相关性。如果大型语言模型(LLMs)可能构成重大接管灾难的风险,则治理影响将十分深远。相反,如果不存在重大风险,则专注于AI治理的社区的影响将是有限的。 灾难性风险可以在合理范围内转向其他方面。本文的潜在危害和益处也应放在这样一个背景下来解读:即在这个时间点,大语言模型(LLMs)是新闻热点,并且是行业投资和政策辩论的主要焦点。在这种背景下,细致的风险分析和风险管理研究可以为决策提供重要价值。 3. LLM 接管灾难场景 3.1 AI 接管灾难AI 接管灾难是一个具有两个基本特征的事件 : (A)一个或多个AI系统接管世界。世界乃至人类的未来结果将主要取决于这些AI系统的行为。人类将基本无力决定自己的命运:任何抵抗都是徒劳。这还意味着人类无法关闭这些AI系统。AI系统可以通过夺取由人类创造的资源或将人类资源转化为新资源来实现这一目标。例如,AI系统可能会黑客攻击关键基础设施系统、通过互联网操控人类、利用机器人执行物理任务,或者开发新的威胁模式,包括超越当前人类想象的新威胁模式。 (B)人工智能系统以导致灾难的方式利用其对世界的控制。人工智能系统通常被设计成追求某个目标,这一目标往往以优化准则的形式编码。人类有可能设计出旨在追求灾难性目标的人工智能系统,尽管这可能不太可能发生,因为人类通常不倾向于灾难。另一种可能性是,灾难可能是追求其他目标的意外副产品。例如,旨在最大化经济产出的人工智能系统可能会选择自动化整个经济,导致大多数或所有人类面临饥饿。这一事件会因导致世界道德价值大幅下降而被视为灾难性事件,如人口大幅减少、人类灭绝、全球生活条件显著恶化或大量痛苦的发生。3本文主要但不限于(A) 。(B) 很重要 , 但在某种意义上 , 次要点:只有在语言模型(LLMs)能够首先掌握控制权的情况下,它们如何使用这种控制权才变得重要。此外,即使LLM接管不会造成灾难性后果,这也仍然是一次值得广泛关注和采取行动的重大事件。同样,关于LLM接管的公众和政策辩论主要集中在(A)上。由于篇幅限制,无法对(A)和(B)进行全面分析,因此优先详细讨论(A)。 3.2 AI 接管灾难情景先前的研究强调了两类主要的 AI 接管场景 : (1)快速的单系统接管. 一个单一的人工智能系统迅速获得巨大的能力,例如通过改进自身 的源代码或夺取大量额外的计算资源。然后它单方面地接管世界。该人工智能系统挫败了任何试图限制它、关闭它或压制它的人类,并抑制了任何潜在的竞争人工智能系统。该征服性的人工智能系统以追求某些目标为由接管世界。如果该目标与人类利