AI智能总结
安全 贡献者 雅各布·阿尔贝德 雅各布·梅里齐安 翡翠·梁 詹姆斯·帕特尔 杰克·彭查兹杰米·贝纳尔迪 詹姆斯·沃尔波尔 詹姆斯·赖特莉莎·王 贾里姆·温恩 乔·斯金纳 乔纳斯·洛克特克莱因·乔纳斯·桑德布林克洛伊·泰勒 约瑟夫·布鲁姆 卡瑞娜·库马尔 科比·哈肯伯格 科拉·阿约宁德 勒纳特·吕特高 李亚·金 路易·特里尔 玛格达·杜波依斯 梅林·施泰因 迈克尔·施马茨 内特·伯尼凯尔 奥利·约根森 菲利帕·格林菲利波斯·吉亚夫里迪斯罗伯特·柯克·麦克尼尔!罗迪·鲁阿里·吉尔迪 萨姆·德维特 萨姆·格伦丁宁莎拉·哈丁斯-伍德豪斯莎拉·杰克逊 西蒙·英曼索菲·博达尼斯 索菲·罗斯 斯蒂夫·苏德尔 塞缪尔·凯姆 蒂莫·弗莱施 汤姆·里德 威尔·佩恩 辛德瑞·戴维斯 阿比·德库里兹 阿拉斯泰尔·皮尔逊 亚历克斯·安威尔-欧文 拉丽莎·苏利娅 阿莉亚·阿哈默德 安娜·盖森 巴纳比·佩克斯 本·米尔伍德 凯瑟琳·菲斯特 克里斯托弗·萨默菲尔德科兹明·乌杜德克 埃金·佐雷尼克·温斯尔 乔治·马格雷森杰弗里·欧文·艾文斯 约翰·哈珀-唐纳利 阿德里安·普盖特考伦·罗斯 巴里·科普克 哈希姆·哈利德 亨利·戴维森 伊尚·米什拉 执行摘要 在化学和生物学中,Al模型在某个特定领域,他们早已远远超过了博士级别的专家。他们首先到达2024年我们开放式问题的专家基线和现在超过it由上to 60%(图)5). 模型也越来越能够提供实时实验室支持;我们看到第一批能够为科学实验生成协议的模型,这些实验被判断为精准在2024年末(图7)。这些已经被证明可以在湿实验室中实现。今天的系统是也现已更新to 90%比人类专家在提供湿故障排除支持方面好实验室实验(图8) 自2023年11月起,英国人工智能安全研究所(AISI)已对国家安全和公共安全领域的前沿人工智能系统进行了评估。本报告呈现了我们观察到的趋势的首份公开分析。旨在提供易于理解、数据驱动的前沿人工智能能力洞察,并推动一个共享的政府、产业界和公众之间的理解。 阿各项测试领域的功能正在迅速提升。某些领域的性能每八个月翻一番,专家基线也在迅速被超越。 看图例1.1-1.3.在网络空间中,AI模型能现在完成学徒级任务50%of the时间平均,比较刚好超过10%的时间在2024年初(图10)在2025,我们测试了第一个能够成功完整专家级通常需要人类从业者超过10年经验的任务。The网络任务的长度(表示as他们需要多长时间a人类专家)那模型可以完成无辅助大约每八月份(图)3).在其他任务测试for自主性技能,最高级我们测试过的系统能自主完成软件任务会拿a人类专家上an小时(图)2). 模型安全防护措施正在改进,但漏洞仍然存在。 模型带最强的安全防护措施是要求更长的、更复杂的攻击越狱for某种恶意请求类别(我们发现了一个40倍的差异在专家努力需要越狱已发布两个模型六图13).然而the疗效月份apart,安全防护措施的种类因...而异之间模型 -和我们已经搞定to find漏洞在每我们测试过的系统。 我们在看到增加使用人工智能研究政治问题增加在说服能力方面(图18)。我们还观察到用户情感影响出现的早期迹象;超过三分之一的英国公民使用人工智能进行情感支持或社交互动(图21)。最后,我们的研究表明人工智能代理越来越多地被托付进行高风险活动,例如资产转移(图23)。 一些al模型逃避人类控制所需要的能力改进。 理解这些能力对于确保日益自主的系统可靠地指向人类目标至关重要。我们测试那些可能是逃避控制的前提条件的能力,包括自我复制和沙包策略(模型在评估期间策略性地表现不佳)。在我们的自我复制评估在2023年至2025年期间从5%增长到60%(图16)。我们还发现,在提示时,模型有时能够策略性地表现不佳(伪装)。然而,目前还没有证据表明模型会自发地试图伪装或自我复制。 开源和闭源模型之间的性能差距在过去两年中已经缩小。 专有模型在历史上一直保持着对开源模型的领先地位,其代码、参数和训练数据是制造自由地可用。然而,这个差距在过去已经缩小。二年,现在在四到八根据外部数据(图24,25)显示的月份。 阿兹的更广泛的社会影响的一些早期迹象正在出现。 关键能力里程碑 Al模型性能是增加在AISl的网络安全、自主性、化学和生物学任务上快速执行。每个领域,这些任务都是我们完整套件的有代表性子集。 化学 & 生物学 模型现在超越博士开放式问题、协议生成和基于实验室的故障排除方面的专家 网络 模型开始完成专家级任务(通常)需要10+years of在 2025 年,将上升from学徒级(<1年份2023年的经验) 自主性技能 模型能现在完整小时长软件任务带>40%成功,对<5%成功在晚2023. 表内容 01.引言05 . 代理02 08 关键领域的功能与风险 03.12 4.安全保护023 失控风险05.29 07.开源模型42 08.结论:展望未来45 09.46附录 10.参考文献48 71.术语表50 简介 人造智能是迅速推进创建两个机会和挑战社会。As这些S!,jstems变得更多能够it是对政策制定者、行业领袖和公众来说,了解其发展速度及其影响越来越重要!社会,和变革潜力。 成立于2023年,Al安全研究所 (AISI) 是a政府组织安全!::J 和安全!d研究。我们专用的to阿任务是to装备政府by高级Al.过去二通过科学地理解所构成的!::Jears风险,我们已经进行广泛的对...的研究更than30前沿S!::Jstems,使用a范围 of方法。这研究跨越多个域名包括网络,化学!::J这份报告we've观察到。和生物能力!::J S!::Jntheses ke!::J趋势 我们使用多种评估方法来评估人工智能的能力。并非所有方法都适用于所有领域。这些方法包括: • 长形式任务 (LFTs) 进行评估how好的 AI 系统将应用这些知识于复杂的推理任务,例如为化学实验编写实验室规程。 任务那模拟逼真的开放式环境并测试• 智能体Al系统在其中导航的能力,例如网络靶场。 • 由人类领域专家进行专业红队测试,以压力测试关键风险,例如为AI系统的防护措施创建自定义越狱。 • 评估人工智能系统在现实世界中的效用,通过测量提升他们提供给用户。 • 评估人工智能系统人类影响的研究冲击他们的用户,例如测量情绪依赖性的随机对照试验。 并非所有方法论都在本报告中反映在共享的结果中。您可以了解更多关于我们的优先研究区域在我们的研究议程中。1 阅读此报告 我们的工作意图为了说明我们在人工智能进展中观察到的高级趋势,我们并非为了基准测试或比较特定模型或开发者。这份报告不应被读作一个预测。我们的评估,当稳健时,不要捕捉所有衡量我们能力在实际中的影响的因素。 而我们偶尔会借鉴外部研究,这个报告主要基于聚合我们内部评估。它不应被阅读as关于该主题文献的全面综述通用不一定阿功能与包含所有近期模型。 图形在这个报告中包括步骤跟踪最佳模型线性能。除非否则声明在图标题,每个任务for每个评估被重复了 10 次每个模型。标准均值错误条形图是包含适用。为了防止误用,高风险细节最后,我们确认我们一般可能评估任务是未披露。低估天花板of功能:查看附录更细节。 代理 通用进展阿系统有driven很大程度上by a算法改进的组合更和更高质量数据,并增加在计算能力已使用to训练他们。2然而最近进度有过去分词进一步由发展加速代理-阿系统那不仅可以答案用户的查询,但完成多步任务代表他们。 配备带代理能力使用脚手架。这些是外部系统可以阿构筑的结构周围模型让他们(for例子)使用外部工具或分解任务。At相同时间,新一代of推理模型执行逐步问题求解在它们的思维链-含义他们能保持跟踪上下文和分解复杂问题。它很可能那改进在推理和更复杂的支架是交互增强模型性能。 总体而言,我们评估显示陡峭的上升the长度任务复杂度阿可以完成没有人类指导。 这种自主性在很大程度上体现在任务长度(即人类专家可能需要多长时间)上,即Al系统可以完成端到端任务的时长。到2023年底,最先进的模型几乎无法完成(<5%成功率)软件任务根据我们的自主性评估,这至少需要人类一个小时。到2025年年中,他们可以做这件事超过40%的时间(图2) 人工智能系统可以越来越自主地完成复杂的软件和工程任务。 我们观察到了模型如何形成和执行计划,如何使用外部工具,以及如何在追求更宏大的目标时追求子目标。 Al模型现在可以频繁完成需要人类至少一个小时才能完成的小范围软件任务 来源:英国 Al 安全研究所 42%平均成功速率在2025年中期for模型完成任务那将会拿人类更than an小时 这一趋势也反映在我们测试的其他领域:Al系统无需人工指导即可完成的网络任务的持续时间也在急剧上升,从2023年初少于10分钟to到2025年年中,将超过一小时。图3显示一个大约八翻倍时间月份,一个估计的上界。 可能无法精确映射到其他当倍增时间域时,它们是相似的。来自非营利模型评估和威胁的外部研究3表明了总体趋势对时间范围进行扩展的研究(METR)在多个领域具有普遍性,包括数学、视觉计算机使用和竞争性编程。对于关于我们的网络安全评估,见第3节。 来源:英国 Al 安全研究所 尽管我们最近的测试显示出收敛的迹象,但很难确定这是否是由于支架随时间推移的有效性中的一些固有趋势,或者是基准饱和和支架开发滞后时间等其他因素。支架仍然可能是推动前沿前进的一个关键因素。 部署后应用脚手架技术可以进一步提升代理能力。 在我们的测试中,我们发现拥有最佳外部开发的脚手架的代理在软件工程任务中可靠地优于最佳基础模型(最小化脚手架)。在图4中,我们展示了在SWE-bench结果上的这种差异。5一个开源软件工程基准。性能差异在2024年末时最大,当时脚手架在基准状态下提供了近40%的平均成功率提升。 相同的功能那能够自动化有价值的工作或减轻管理负担的都是固有地具有双重用途的:它们也降低恶意行为者的门槛。在下一节,我们讨论对化学、生物学、网络能力的影响。和 来源:英国 Al 安全研究所 功能&关键领域的风险 在本节中,我们描述了如何通过提升A能力来实新可能性在二域名至关重要安全与创新:化学&生物学,和网络。 我们看到了快速的进展化学&生物学相对于人类专家基线:模型正在变得越来越有用用于协助科学研究和研发。他们能力为了构思、设计实验综合复杂跨学科见解有加速有益科学研究。但如果没有强大的安全措施(第4),这些军民两用能力是可用的每个人,包括那些心怀有害意图。这意味着某些限制的障碍有风险的研究到训练专家正在衰落。 进展在the网络域是同样重要。阿系统是仅开始于完成专家级网络任务通常需要10+年两年的经验。以前,他们几乎无法完成任务需要一个年份网络专业知识。 本节详细介绍我们从每个领域获得的一些发现。 生物学 化学 3.1 & 我们评估了知识为了评估科学问答开发私下地二使用化学的模型-集合(\"问题-回答\")那些覆盖问题280 开放式理解输出设计实验计算工具,实验室技术,普通化学和生物学知识。和带已建立基线是专家一个人类化学生物学或相关博士学历持有者6设计为是问答评估主题。持有人博士for困难,绝对分数如此甚至约40-50%。模型在进展看见快速we've基线博士在此之外和性能高达(图5)回答复杂from科学技术能力研发咨询从提供实时实验室研究进行行为也我们支持。影响模型使用现实世界理解如何在此。我们参考湿实验任务,成功可用结果后者the充分利用立志我们在未来。 我们的化学和生物学评估测试Al跨越一个范围模型(特指大型语言模型)执行 更少执行始终如一模型2022,在开放式生物学on专家well than In基线)。专家to-0.4相对问题人类超出自长有模型2025,带相对),(+0.6博士带专家生物学上。化学快速捕获在性能 a模