AI智能总结
安全 贡献者 梅林·斯廷 迈克尔·施马茨 帕特·伯尼克·埃尔 菲利普·乔治森 菲利帕·格林 菲利波斯·贾维里迪斯罗伯特·柯克·麦克尼尔!罗迪·鲁阿里·吉尔德亚 萨姆·德维特 萨姆·格兰登宁 莎拉·埃斯汀-伍德豪斯 莎拉·杰克逊 西蒙·英曼 萨拉·博达尼斯 萨拉·罗斯 斯蒂夫·萨德勒 斯蒂文·凯普 提莫·弗莱施汤姆·里德 威尔·佩恩 泽德·戴维斯 雅各布·阿贝德 雅各布·梅里兹扬 翠莲·梁 扎伊尔·帕特尔 杰克·彭查尔兹 杰米·贝纳尔迪 詹姆斯·沃尔波尔 詹姆斯·赖特 詹姆斯卡·王 乔舒亚·温恩 乔·斯金纳 乔纳斯·洛克特 克莱因·乔纳斯·桑布林克 约旦·泰勒 约瑟夫·布卢姆 卡琳娜·库马尔 科比·哈肯伯格 科拉·阿约宁德 莱纳特·吕特高 李亚·金 路易·特里尔 马格达·杜波依斯 艾比·德·克鲁兹 阿拉斯泰尔·皮尔逊 亚历克斯·安威尔-欧文 内莉·苏利娅 阿莉亚·阿汉德 安娜·高森 巴纳比·佩尔克斯 本·米尔伍德 凯瑟琳·菲斯特 克里斯托弗·萨默菲尔德科兹明·乌杜德 艾金·佐勒 埃里克·温瑟 乔治·马格利斯恩理查德·欧文 贾维斯·哈珀-唐纳利 阿德里安·普热 高 Hannah Rose Kirk Harry Coppock 哈希姆·哈利德 亨利·戴维森 lshan Mishra 执行摘要 在化学和生物学中,Al模型在某个特定领域的专业知识上,他们早已远远超过了博士级别的专家。他们首先达到我们2024年开放式问题的专家基线和现在超过它由 up to 60%(图)5). 模型也越来越能够提供实时实验室支持;我们看到首批能够为科学实验生成协议的模型,这些实验被判定为精确在2024年末(图7)。这些此后已被证明可在湿实验室中实施。当今的系统是也现在更新to 90%比人类专家在提供湿故障排除支持方面更好实验(图8) 英国人工智能安全研究所(AISI)自2023年11月起,已在涉及国家安全和公共安全的多个领域对前沿人工智能系统进行了评估。本报告呈现了我们对所观察到的趋势首次公开分析。旨在提供易于理解、数据驱动的前沿人工智能能力洞察,并促进共享政府、行业和公众之间的理解。 阿耳各测试领域的功能都在迅速提升。某些领域的性能每八个月翻一番,专家基线也在迅速被超越。 见图例1.1-1.3.在网络领域,AI模型能现在完成学徒级任务50%of他时间上平均,比较超过10%的时间in 2024年初(图10)In 2025,我们测试了第一个能够成功完成专家级通常需要人类从业者超过10年经验的任务。The网络任务长度(表示as他们需要多长时间a人专家)那模型可完成无辅助正在大约每八月(图)3).在其他任务测试for自主性技能,最高级我们测试过的系统能自主完成软件任务会拿a人专家over an小时(图)2). 模型安全防护措施正在改进,但漏洞仍然存在。 模型with最强安全措施是需要更长、更复杂的攻击越狱for某些恶意请求类别我们发现了一个40倍的差异在专家努力中需越狱发布了两款模型六图13).然而他有效性月apart,保障措施的数量各不相同之间模型 -和我们已成功处理找到漏洞in每我们测试过的系统。 我们在看到增加使用人工智能研究政治问题,以及增加在说服能力方面(图18)。我们还观察到对用户情绪影响的早期迹象;英国超过三分之一的公民使用人工智能进行情感支持或社交互动(图21)。最后,我们的研究表明人工智能代理越来越多地被赋予高风险活动,如资产转移(图23)。 一些 Al 模型需要规避人类控制所必须具备的功能提升。 理解这些能力对于确保日益自主的系统可靠地朝着人类目标发展至关重要。我们测试那些成为控制规避前提条件的能力,包括自我复制和沙包策略(其中模型在评估期间策略性地表现不佳)。在我们的自我复制评估在2023年至2025年期间,从5%增长到60%(图16)。我们还发现,在提示下,模型有时能够策略性地表现不佳(沙袋)。然而,目前还没有证据表明模型试图沙袋或自发自我复制。 开源和闭源模型之间的性能差距在过去两年中已经缩小了。 专有模型历来领先于开源模型,其代码、参数和训练数据是做自由地可用。然而,这个差距在过去已经缩小。两多年,现在在四到八根据外部数据(图24,25),计算月份。 阿勒的更广泛的社会影响已初现端倪。 关键能力里程碑 Al模型性能是增加在AISl的网络安全、自主性、化学和生物学任务上迅速进行。每个领域,这些任务是我们完整套件的代表性子集。 化学 & 生物学 模型现在超越博士开放式问题、协议生成和基于实验室的故障排除方面的专家水平 网络 模型开始完成专家级任务需要10+years of在2025年,达到从学徒级(<1年份2023年)的体验) 自主性技能 模型能现在完整小时长软件任务with>40%成功versus<5%成功in晚2023. 表内容 01.引言05 . 代理02 08 关键领域的能力与风险 03. 12 4.保护措施023 失控风险05.29 07.开源模型42 08.结论:展望未来45 09.附录 46 10.参考文献48 71.术语表50 引言 人造智能是快速发展,创建都机会和挑战社会。作为这些S!,jstems变得更加有能力,它是日益重要对于政策制定者、行业领袖和公众理解其发展步伐、社会,和变革潜力。 成立于2023年,Al安全研究所(AISI)是a政府组织safet!::J和securit!d研究。我们专注to阿耳任务是to装备政府由高级Al. 在过去两通过科学理解所构成的 !::Jears 的风险,我们已经进行广泛的研究 on更多than30边界S!::J系统,使用a范围方法。这研究跨越域名包括网络,化学!这份报告我们已观察到的。和生物能力!::J S!::Jn合成论ke!::J趋势 我们使用多种评估方法来评估人工智能能力。并非所有方法都适用于所有领域。这些包括: • 用于衡量人工智能系统特定领域知识和技能的自动评分任务集,例如问答(QA)套件或夺旗(CTF)比赛。 任务那模拟逼真的开放式环境并测试• 代理Al系统在其中的导航能力,例如网络靶场。• 评估人工智能系统在实际应用中的效用,通过测量提升他们提供给用户。• 评估Al系统如何影响人类的研究影响他们的用户,例如测量情绪依赖性的随机对照试验。• 长形式任务(LFTs)进行评估如何好的,人工智能系统将知识应用于复杂的推理任务,例如为化学实验编写实验室协议。• 专家级红队演练,利用领域专家进行压力测试,以验证关键风险,例如为AI系统的安全防护机制创建定制化越狱漏洞。 并非所有方法论都反映在本报告中分享的结果。您可以了解更多我们优先研究的区域在我们研究议程中。1 我们的工作意图为了说明我们在人工智能进展中观察到的高级趋势,并非基准或比较特定模型或开发者。这份报告不应该被读作一个预报。我们的评估,而虽然稳健,但不要捕获全部影响我们衡量能力的实际影响的因素。 阅读这份报告 而我们偶尔会参考外部研究,这报告主要基于聚合我们内部评估。它不应该被读取as关于该主题的文献综述通用可能不阿耳功能和包含全部最新模型。 图形在本报告中包括步骤跟踪最优模型的线性能。除非否则声明in图字幕,每个任务for每评估被重复了10次每模型。标准均值错误条目是包含在适用。为了防止误用,高风险详情最终,我们承认我们一般可以评估任务是未披露。低估天花板of能力:请查看附录更多具体细节。 代理 通用性进展阿耳系统无已被驱动很大程度上由a算法改进的组合更多和更高质量数据,并增加in计算能力使用to训练他们。2然而近期进度无已进一步由...的发展加速代理程序-阿耳系统那不仅答案用户的查询,但完整的多步骤任务代表他们。 配备with代理能力使用脚手架。这些是外部系统可以被阿耳建造的结构周围模型让他们(用于)示例)使用外部工具或分解任务。At相同时间,新一代of推理模型执行逐步问题求解in他们的思维链-含义他们能保持跟踪上下文和分解复杂问题。它很可能那改进in推理和更多复杂的支架是交互增强模型性能。 总体而言,我们评估展示急剧上升他长度任务复杂度阿耳可完成没有人类指导。 这种自主性主要体现在任务长度上(即人类专家可能需要多长时间),Al系统可以完成端到端。2023年底,最先进的模型几乎无法完成(<5%成功率)软件任务根据我们的自主性评估,这至少需要一个人一个小时的时间。到2025年年中,他们可以在超过40%的时间内完成这项工作(图2) 人工智能系统可以越来越自主地完成复杂的软件和工程任务。 我们观察到模型如何形成和执行计划,使用外部工具,并在实现更大的目标的过程中追求子目标。 Al模型现在能经常完成人类至少需要一小时才能完成的范围明确的软件任务 来源:英国AL安全研究所 42%平均成功速率in 2025年中for模型完成任务那会拿人类更多than an小时 这种趋势也反映在我们测试的其他领域:Al系统无需人类指导即可完成的网络任务持续时间也在急剧上升,从2023年初小于10分钟to到2025年年中,将超过一个小时。图3显示了一个大约八翻倍时间个月,一个估计上界。 可能无法精确映射到其他虽然这些双倍时间域是相似的,但它们的外部研究来自非盈利的模型评估和威胁3表明了总体趋势研究(METR)扩展时间范围可以泛化到许多领域,包括数学、视觉计算机使用和竞技编程。对于关于我们的网络安全评估,参见第3节。 来源:英国AL安全研究所 部署后的脚手架技术可以进一步提高代理能力。 虽然我们最近的测试显示出收敛的迹象,但很难判断这是否是由于支架在效果上随时间推移存在某种固有趋势,或者其他因素,如基准饱和度和支架开发滞后时间。支架有可能仍然是推动前沿向前发展的关键因素。 在我们的测试中,我们发现具有最佳外部开发脚手的代理在软件工程任务中可靠地优于最佳基础模型(最小化脚手架)。在图4中,我们展示了SWE-bench结果上的这种差异。5一个开源软件工程基准。性能差异在2024年末最大,当时脚手架在基准状态下使得平均成功率几乎增加了40%。 相同的功能那可自动化有价值的工作或减少管理负担的是具有内在双重用途的:它们也可能降低恶意行为者的门槛。在下一节,我们讨论对化学、生物、网络能力的影响。和 来源:英国AL安全研究所 功能&关键领域的风险 在本节中,我们描述了Al能力改进如何使新可能性在两域名关键在于安全和创新:化学&生物学,和网络。 我们看到了快速的进展化学&生物学相对于人专家基线:模型正在变成日益有用用于协助科学研究和研发。他们能力为了构思、设计实验,和合成复杂,跨学科见解有加速有益科学研究。但如果没有强大的保护措施(第4),这些军民两用能力是可用的所有人,包括那些怀着有害的意图。这意味着某些限制...的障碍之一是有风险的研究到训练专家正在流失。 进度in他网络域是同样显著。阿耳系统是就开始完成专家级网络任务通常需要 10+年of experience. 两年以前,他们简直无法完成任务需要一个年份网络专业知识。这些网络能力具有潜能帮助加固防御但也可以被滥用。我们的评估测试这些军民两用技能的模型,通过,为示例,评估他们的能力找到代码漏洞或绕过密码学校验。 本节剩余部分详细介绍了我们从每个领域获得的一些发现。 生物学 化学 3.1 & 我们的化学和生物学评估测试 Al跨越一个范围模型(特指LLMs)执行回答复杂从科学能力关于研发咨询提供实时实验室研究进行行为也我们支持。影响模型使用现实世界理解这里。我们参考湿实验室任务,结果成功可用后者他充分利用力求我们在未来。 下方,我们展示了我们研究结果的一个子集,以便援助领域知识远在协议生成设计代理生物学这些功能一起以及LLMs的故障排除挑战军民两用说明科学。in al模型在化学和生物知识方面持续改进,远超专长。博士级 更少执行始终如一模型2022,In开放式生物学在专家好于baseline)。专家to(-0.4相对问题人超出既然长有模型2025,w