AI智能总结
首次关键更新新能力及风险影响 贡献者 主席 Nicole Wheeler,英国高级研究与发明局 (ARIA)DanielPrivitera(2026年临时主管),欧盟人工智能研究中心Sören Mindermann(2026 年临时主管),独立 Yoshua Bengio 教授,蒙特利尔大学/LawZero/Mila -魁北克人工智能研究所 专家顾问小组 高级顾问 专家 顾 问 小 组 是 一 个 国 际 顾 问 机 构,就 报 告 内 容向主席提供建议。专家顾问小组仅提供技术反馈。报告及其专家顾问小组并未认可任何特定的政策或监管方式。 Daron Acemoglu,麻省理工学院Thomas G. Dietterich,俄勒冈州立大学Fredrik Heintz,林雪平大学Geoffrey Hinton,多伦多大学Nick Jennings,拉夫堡大学Susan Leavy,都柏林大学Teresa Ludermir,伯南布哥联邦大学Vidushi Marda,AI 协作Helen Margetts,牛津大学John McDermid,约克大学Jane Munga,卡内基国际和平基金会Arvind Narayanan,普林斯顿大学Alondra Nelson,普林斯顿高等研究院Clara Neppel,电气电子工程师学会 (IEEE)Sarvapali D.(Gopal) Ramchurn,英国负责任人工智能 (Responsible AIUK)Stuart Russell,加利福尼亚大学伯克利分校Marietje Schaake,斯坦福大学Bernhard Schölkopf,欧洲学习与智能系统实验室Alvaro Soto,智利天主教大学Lee Tiedrich,马里兰/杜克大学Gaël Varoquaux,法国国家信息与自动化研究所姚期智,清华大学张亚勤,清华大学 小组由来自 30 个国家、联合国 (UN) 、欧盟 (EU) 和经济合作与发展组织 (OECD) 的代表组成。请点击此处 [插入相关网页超链接] 查看 2026 年国际人工智能安全报告专家顾问组的成员名单。 首席撰稿人StephenClareCarina Prunkl 撰稿团队 Maksym Andriushchenko,欧洲人工智能网络德国图宾根大学分部Ben Bucknall,牛津大学Philip Fox,欧盟人工智能研究中心胡天成,剑桥大学Cameron Jones,石溪大学Sam Manning,人工智能治理中心Nestor Maslej,斯坦福大学Conor McGlynn,哈佛大学Malcolm Murray,SaferAIShalaleh Rismani,Mila - 魁北克人工智能研究所Charlotte Stix,Apollo ResearchLucia Velasco,马斯特里赫特大学 秘书处 英国人工智能安全研究所:Lambrini Das、Claire Dennis、Arianna Dini、FreyaHempleman、PatrickKing、Samuel Kenny、Hannah Merchant、Jamie-DayRawal、Rose WoolhouseMila - 魁北克人工智能研究所:Jonathan Barry、Marc-Antoine Guérard、Claire Latendresse、CassidyMacneil、Benjamin Prud’homme 致谢 秘书处和撰稿团队感谢 Jean-Stanislas Denain、Marius Hobbhahn、José Hernández-Orallo、Vera Liao 及 RayPerrault 提供的支持、意见和反馈,同时感谢 José Luis León Medina 在质量控制和引文格式、以及 AmberAce 在文稿编辑方面提供的协助。此翻译版本由 Acolad 团队完成,并由安远 AI提供额外技术语言审核支持。 © Crown 版权所有2025 除 非 另 有 说 明 ,否 则 ,本 出 版 物 根 据《 开 放 政 府许可协议》第3.0版的条款授权。要查看此授权,请访问nationalarchives.gov.uk/doc/open-governmentlicence/version/3,或写信至 InformationPolicy Team, The National Archives, Kew, LondonTW9 4DU,或发送电子邮件至psi@nationalarchives.gsi.gov.uk。 免责声明 本报告不代表主席、撰写或顾问小组中任何特定个人的观点,亦不代表支持其编制工作任何政府的观点。本报告综合了现有关于先进人工智能能力与风险的研究成果。报告主席对报告负有最终责任,并全程监督了报告的编制过程。 研究系列编号:DIST 2025/033 对于我们已标识的任何第三方版权信息,您需要向相关版权持有人获取许可。 有关本出版物的任何查询请发送至:secretariat.AIStateofScience@dsit.gov.uk。 前言 前言 人工智能领域的发展速度过快,单凭一年一度的出版物难以跟上其步伐。重大变化可能在数月甚至数周的时间尺度上发生。正因如此,我们推出《关键更新》:这份简短而聚焦的报告旨在突出《国际人工智能安全报告》完整版本发布期间最重要的进展。通过这些更新,我们旨在为政策制定者、研究人员和公众提供最新信息,以支持他们就人工智能治理做出明智决策。 这份首次关键更新重点关注了自 2025 年 1 月以来发生重大变化的领域:通用型人工智能系统能力的进步,以及对若干关键风险的影响。新型训练技术使人工智能系统能够逐步推理并延长自主运行时间,从而能够处理更多种类的工作。但是,这些技术进步同时也带来了新的挑战,包括生物风险、网络安全以及人工智能系统自身的监督。 《国际人工智能安全报告》旨在帮助读者评估、预判和管理通用型人工智能系统带来的风险。这些关键更新可确保在该领域快速发展的过程中,重要进展能够得到及时关注。 Yoshua Bengio教授蒙特利尔大学/LawZero/Mila - 魁北克人工智能研究所兼主席 要点 要点 —自首份《国际人工智能安全报告》发布以来,新型训练技术推动了人工智能能力的显著提升。后训练方法会教导人工智能系统进行更多“思考”并运用逐步“推理”†,而这已被证明具有极高成效。以往模型通过基于训练数据预测最可能的延续来生成即时回复,而这些“推理模型”则会在给出最终答案前生成一系列延伸的中间推理步骤链。当获得额外的算力来生成回复时,这有助于它们针对更复杂的问题得出正确答案。 —因此,通用型人工智能系统在数学、编程和科学研究领域取得了重大进展,但依然存在可靠性问题。目前最先进的模型已能解决国际数学奥林匹克竞赛金牌级别的题目,在收录了真实软件工程任务的“SWE-bench Verified”数据库中解答出超过 60 %的题目,并日益协助科研人员完成文献综述和实验方案。但是,在更贴近现实的工作任务中,成功率仍然偏低,这凸显了基准测试表现与实际应用效果之间的差距。 —人工智能能力的提升,促使开发者们采取了更强有力的安全防护措施作为预防性措施。多家领先开发机构近期发布了其最先进的模型,并增加了额外的安全保障和缓解措施,以防止这些模型的化学、生物、放射性和核知识被滥用。 —尽管人工智能应用广泛,但其对劳动力市场的总体影响仍然有限。在一些知识型工作任务(特别是编程)中,人工智能的应用已相当广泛,但就业岗位和薪资水平的关键数据还变化甚微。 —在受控实验条件下,某些人工智能系统在评估过程中展现出“策略性行为”,这可能带来监督方面的挑战。有少数研究指出,有的模型能够察觉到自己正在被测试,并生成误导评估者的输出,以掩盖其真实能力或训练目标。这给监测和监督工作带来了新的挑战。但是,这些证据主要来自实验室环境,对于实际部署场景的影响仍存在显著不确定性。 导言 自首份《国际人工智能安全报告》发布以来,人工智能在关键领域的能力持续提升。通用型人工智能模型如今已能够解决复杂的数学难题,完成某些耗费人类数小时的软件工程任务,并协助开展科学研究。教导人工智能系统进行逐步推理的新训练技术和推理时间的改进是推动这些进步的主要原因,而不仅仅是训练更大的模型。因此,人工智能系统能够完成从科学研究到软件开发等领域的一系列复杂的多步骤任务,但依然存在可靠性问题-系统在某些任务上表现出色,而在其他任务上却完全失败。 自主运行能力带来了新的监督挑战。人工智能系统正日益被网络空间中的恶意行为者和防御者所采用。实验室研究表明,人工智能系统正越来越擅长影响人类信念和决策。与此同时,尽管知识工作领域已广泛采用该技术,但迄今为止其对劳动力市场的整体影响仍有限。 本次更新首先审视了自首份报告发布以来人工智能能力的进步,随后聚焦关键风险领域 - 这些领域因大量新证据涌现而需要更新评估。本文记录的发展对政策制定者具有重要意义,因为它们展示了在某些领域的能力进步 - 而理解当前人工智能的表现正是制定明智政策决策的关键所在。 这些能力提升对多个风险领域产生了影响,而这些领域已受到政策制定者的关注。更复杂的推理能力和 能力 关键信息 —通用型人工智能系统在数学、科学和软件工程等多个领域的能力均已得到提升。推动这些进步的是通过强化学习教导人工智能系统逐步推理的训练技术,而非由开发者构建更大规模的模型 - 后者曾推动了之前的进步。以往的模型能立即给出答案,而新型的“推理模型”则利用更强大的算力,在生成输出结果前先推导出中间步骤。 —在特定标准化测试中,数学和逻辑推理能力的提升尤为显著。在短短一年内,多个模型从表现不稳定发展到能在国际数学奥林匹克竞赛题和研究生级别的科学问题上取得高分。值得注意的是,这些评估主要考察人工智能系统在范围较窄的多项选择题和证明题上的表现,而非类似现实世界问题的更开放式任务。 —人工智能系统正日益具备一定程度的自主行动能力。这些更先进的系统(通常被称为智能体)如今能够执行某些多步骤任务,使用工具,并在较少人工监督下运作,但在现实环境中的复杂应用场景中,其性能仍存在局限。 —在某些基准测试中,人工智能辅助编程能力已取得快速进步。通用型人工智能系统在某些编程任务上已能达到50%的成功率,而这些任务若由人类完成则需耗时两小时以上。多数软件开发人员表示使用人工智能辅助工具,但在更现实的工作环境中,对生产力影响的评估结果却不尽相同 - 部分原因在于人工智能编写的软件可能带来更高的维护成本。 —基准测试结果与实际效果之间的性能差距依然存在。人工智能系统在多数标准化评估中持续取得进步,但在更贴近现实的工作任务中表现出较低的成功率。 —科学家们越来越多地利用人工智能系统来辅助完成各种研究任务。初步证据表明,研究人员正利用人工智能助手来优化算法(例如 AlphaEvolve 等方法),编纂文献综述,并协助设计实验方案,尤其在计算机科学和生命科学领域。但是,不同领域中的实践存在差异,这些系统仍只是人类研究者的补充而非替代品。 能力 过去一年间,尽管在许多实际场景中仍面临挑战,但通用型人工智能系统在基准测试表现以及能够完成的现实世界任务的范围和复杂性方面持续提升。尽管评估通用型人工智能系统能力的评估方法仍在进化且存在已知缺陷(1、2、3),且系统在现实场景中仍易出错且存在性能局限(4、5、6、7),但人工智能系统仍取得了重大突破。它们现在能够解决国际数学奥林匹克竞赛金牌级别的题目,从零开始创建能正 常工作的应用程序,修复计算机代码中的错误,通过互联网搜索编写详尽的文献综述,并完成一些需要人类数小时的软件工程任务(8、9、10、11、12*)。截至2025 年 8 月,最先进的模型能够正确回答“人类终极考试”中约 26% 的问题,该数据集包含了数千道超过100个领域的全新专家级问题。20