您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:国际人工智能安全报告:第二次关键更新 - 发现报告

国际人工智能安全报告:第二次关键更新

信息技术2025-11-01-未知机构郭***
AI智能总结
查看更多
国际人工智能安全报告:第二次关键更新

第二次关键更新技术安全防护和风险管理 贡献者 约书亚·本吉奥教授, 蒙特利尔大学 / LawZero / Mila - 魁北克人工智能研究院 达龙·阿西莫格鲁, 麻省理工学院托马斯·G·迪特里希,俄勒冈州立大学弗雷德里克·海因茨, 林雪平大学杰弗里·辛顿, 多伦多大学尼克·詹宁斯, 洛夫堡大学苏珊·利维都柏林大学学院特蕾莎·卢德米尔, 佩内布拉乌联邦大学维杜希·马尔达, 人工智能协同海伦·马格丽特斯牛津大学约翰·麦克德米德约克大学简·蒙加卡内基国际和平基金会阿维нд·纳拉扬普林斯顿大学阿隆德拉·尼尔森, 高等研究院克拉拉·内펠, IEEESarvapali D.(戈帕尔)拉姆昌, 负责任的AI英国斯图尔特·拉塞尔加州大学伯克利分校玛丽亚杰特·沙凯,斯坦福大学伯恩哈德·施奥克opf, 艾利斯学院图宾根阿尔瓦罗·索托, 智利天主教大学李蒂德里奇马里兰大学 / 杜克大学盖埃尔·瓦鲁瓦克斯, InriaAndrew Yao清华大学张亚琴清华大学 专家顾问小组 专家咨询小组是一个向主席就报告内容提供建议的国际咨询机构。专家咨询小组仅提供技术反馈。报告——及其专家咨询小组——不认可任何特定的政策或监管方法。 该专家组由来自30个国家的代表、联合国(UN)、欧盟(EU)和经济合作与发展组织(OECD)的代表组成。此处为2026年国际人工智能安全报告专家咨询组的成员名单。 首席作家 斯蒂芬·克莱尔, 独立卡里娜·普伦克尔Inria 写作组 马克西姆·安德鲁申科, 艾利斯学院图宾根本·巴克纳尔牛津大学菲利普·福克斯, KIRA中心内斯托·马谢莱,斯坦福大学康纳·麦格伦, 哈佛大学马尔科姆·默里, SaferAI沙拉莱赫·里斯曼尼,米拉 -魁北克人工智能研究所斯蒂芬·卡珀, 麻省理工学院杰西卡·纽曼,加利福尼亚大学伯克利分校丹尼尔·普里维特拉(2026年临时负责人), KIRA中心索伦·明德曼 (2026年临时负责人), 独立 秘书处 英国人工智能安全研究所:阿里安娜·迪尼,弗里娅·亨普尔曼,塞缪尔·肯尼,帕特里克·金,汉娜·梅商,杰米-戴·劳尔,贾伊·苏德,罗斯·伍尔豪斯Mila -魁北克人工智能研究所:乔纳森·巴里,马尔科·安托万·格勒,克莱尔·拉坦德雷,凯西·麦克尼尔,本杰明·普鲁多姆 致谢 秘书处和写作团队感谢马库斯·安德尔吕昂、托宾·南和利奥·施温的支持、评论和反馈,以及何塞·路易斯·莱昂·梅迪纳在引文质量控制和格式方面的协助,以及安珀·艾斯在校对方面的协助。 © 皇冠所有 2025 免责声明 本出版物根据《开放政府许可协议》v3.0的条款进行许可,除非另有说明。要查看此许可,请访问https://www.nationalarchives.gov.uk/doc/open-government-licence/version/3/,或写信给信息政策团队,大英图书馆,伦敦,基威,TW9 4DU,或发送电子邮件:psi@nationalarchives.gsi.gov.uk。 本次更新是对现有关于技术和非技术风险管理实践的研究的综合。本次更新不一定代表主席、写作或咨询小组中的任何特定个人,也不代表支持其发展的任何政府的观点。报告主席对报告负有最终责任,并从始至终监督了其发展。研究系列编号:DSIT 2025/042 就本出版物相关的任何查询都应发送至:secretariat.AIStateofScience@dsit.gov.uk。 前言 这是2025年国际人工智能安全报告的第二版关键更新。第一版关键更新(1)讨论了通用人工智能模型和系统能力的发展以及相关风险。本次关键更新涵盖了研究人员、公司、政府等各方如何应对人工智能的风险管理和技术缓解措施。 过去一年在人工智能风险管理方面取得了重要进展,包括更好的训练更安全模型和监测其输出的技术。虽然这代表着切实的进步,但仍存在显著差距。目前措施在预防危害方面的有效性往往不确定,并且有效性随时间和应用而变化。有许多机会进一步强化现有的保护技术和发展新的技术。 本关键更新概述了自2025年1月发布人工智能安全报告以来,风险管理实践和技术风险缓解方面的重要发展,重点介绍了取得的进展和存在的差距。最重要的是,旨在支持政策制定者、研究人员和公众应对快速变化的环境,帮助他们就通用人工智能的治理做出知情和及时的决策。 约书亚·本吉奥教授 蒙特利尔大学 / LawZero / Mila——魁北克人工智能研究所 & 主席 重点 —开发者正在采用一种被称为纵深防御为了限制单个安全防护失效的影响。结合训练、部署和部署后监控阶段的安全措施,可以加强对误用和故障的整体保护。 —2025年,训练模型以抵抗恶意攻击的方法持续改进,提示注入攻击的成功率随着时间的推移而下降。然而,测试表明,当给予10次尝试时,熟练的攻击者仍然有一半的时间可以绕过安全措施。 —开权模型落后于顶尖闭权模型不到一年,改变了风险格局。更大的开放可以支持透明度和创新,但也使得控制模型如何被修改和使用的难度加大。 —只要训练数据中插入250个恶意文档,攻击者就可以用特定的提示触发模型的非预期行为。有研究表明,此类数据中毒攻击无论模型大小,都需要相对较少的资源来实施。 —研究人员已开发出新的工具来标记、识别和追踪人工智能生成的内容,尽管实施仍然不一致。在正确使用和一致应用的情况下,诸如水印、内容检测和模型识别等技术可以帮助研究人员研究AI模型和系统的传播,追踪它们的输出,并验证人类创建的内容。 —2025年,拥有前沿人工智能安全框架的AI公司数量翻了一番以上:现在至少有12家公司拥有此类框架。这些框架描述了人工智能开发者计划在他们的模型变得越来越强大时实施的测试和风险缓解措施。 引言 这份2025年国际人工智能安全报告的第二版更新评估了过去一年通用人工智能风险管理的新进展。它紧随首次关键更新之后,首次关键更新考察了关于人工智能能力和风险的新证据。首次关键更新强调了数学推理、编码和自主运行方面的人工智能进展,并讨论了新兴的生物风险、网络攻击风险以及在监管日益复杂的模型时面临的挑战(1).本更新考察了研究人员、公共机构和人工智能开发者如何应对通用人工智能的风险管理,包括使通用人工智能更可靠和抗滥用的政策和技巧。 除此之外,在过去一年中,在使人工智能模型和系统更加可靠和抗滥用的技术方面,还出现了一系列其他进展。这些包括对抗性训练、数据管理和监控系统的新方法。同时,开始出现将这些技术能力操作化和规范化的制度框架:发布前沿人工智能安全框架的公司数量‡到 2025 年增长了两倍以上,政府和国际组织已为数不多针对通用人工智能的治理框架,主要关注透明度和风险评估。 本更新分为两部分考察这些发展。第二部分回顾了从模型训练到部署后监控的全AI生命周期中提高鲁棒性和可靠性的技术方法。第三部分考察了制度框架如何开始将这些技术方法转化为正式指南,包括通过透明度要求、评估标准和风险管理程序。整个过程中,本更新记录了自2025年国际AI安全报告发布以来发生的变化,并确定了当前方法存在的关键不确定性。 随着近期能力的提升促使了更强大的风险管理,这项工作获得了新的意义。例如,在最近几个月里,三家领先的AI开发者†对自己的新模型应用了增强的安全措施,因为他们的内部预部署测试无法排除这些模型被误用以帮助制造生物武器的可能性(1为此,作为预防措施,这些开发者报告称他们采用了更强的保护措施,包括增强的安全措施、部署控制以及实时监控2*,3*,4*). 提高可靠性和防止滥用的技术方法 关键信息 —研究人员改进了训练方法,使模型更可靠且更能抵抗滥用。改进的技术可以纠正有偏见的用户反馈,并为评估人员提供检测错误的工具。它们的有效性因部署环境和用例而异。随着复杂的对手继续寻找绕过防御的方法,更广泛的攻防格局仍然在不断变化。 —开发者和部署者可以通过监控人工智能模型和系统的行为来识别和阻止某些不良行为,但这些方法存在重大局限性。监控可应用于硬件、输入提示、内部计算和模型输出。 —新的溯源和数字水印工具可以帮助追踪人工智能生成的内容。然而,这些信号仍然可以通过相对简单的后期处理或操纵被移除、伪造或退化。 —由于个体技术存在局限性,人工智能开发者实施了多重保护措施,这一策略被称为纵深防御.叠加防护意味着即使一层失效,也可以防止有害事件。 技术保障措施构成通用人工智能风险管理的一个方面。这些机制通常支持两个相关的目标:防止滥用(例如通过训练模型拒绝危险请求),以及防止故障(例如通过检测模型何时产生事实性错误的输出)或限制其造成的潜在损害。 关于其真实世界有效性的重要证据差距仍然存在(5,6). 这些差距部分源于模型开发和部署的快速发展,这使得在真实条件下评估安全防护措施并收集其有效性的系统数据变得困难。安全防护措施是在人工智能模型和系统的构建方式、人们对其工作原理的了解程度以及攻击者或恶意用户寻求滥用它们的方式不断变化的过程中开发的。这种不断变化的威胁环境表明,需要对安全防护措施进行持续的开发、测试和改进。 2025年,人们继续研究训练模型拒绝有害请求、防止危险能力出现以及保持对日益自主系统的人类控制的技术。然而 —第一层防御可能涉及培训干预例如,在开发初期,可以使用人类反馈强化学习(下文将讨论)或其他安全设计方法来限制不期望的行为。 本节考察了人工智能生命周期三个阶段的技术保障发展: —模型训练:在训练和设计过程中应用的方法,例如向模型提供特定类型的反馈(7)或者阻止它们生成有害响应(8). — 第二层添加部署干预, 例如分类器或护栏,这些会使用户生成潜在的 harmful 输出更加困难。 —产品部署:当一个或多个AI模型集成到产品中时应用的 方法,例如检测有害输出的 工具9*)或者试图绕过安全防护(10). — 部署后,第三层 部署后监控工具,例如水印和内容溯源系统,可以帮助检测滥用。 —部署后监控:用于监控部署后人工智能系统使用情况的工具,例如用于追踪人工智能生成内容的水印技术。 — 最后一层(此处为全面起见所述)已超越技术措施,包含社会 韧性措施社会系统抵抗、恢复或适应危害的能力。本更新不讨论韧性措施,尽管它们将在即将发布的2026年国际人工智能安全报告中予以探讨。 这些方法可以通过分层实施多重防护措施来使其更加稳健,这一原则被称为纵深防御(图1)。使用多个防护措施依次部署有助于降低危害发生的概率:如果其中一个防护措施失败,其他措施仍可能成功。图1展示了这种方法如何覆盖人工智能生命周期: 可能产生有害内容,遵循危险指令,或表现出不可预测的行为。 训练安全措施:限制非期望行为 一种常见的训练 AI 模型以展现期望行为的方法称为人类反馈强化学习 训练技术有时可以防止模型发展有害功能 (RLHF) (19*). 它涉及人类评估者对模型输出进行评分,并训练模型从中学习。该技术已经非常成熟,但它存在一个事实,即人类反馈可能不一致、系统性地有缺陷或是不完整的(20,21)。在2025年,RLHF方法持续发展,研究人员完善了收集、解释和应用人类反馈的方式。近期的研究探索了检测和纠正可能降低训练有效性的误导性人类反馈模式()。22).其他研究则集中于通过为评估者——或人工智能模型本身——提供工具来提高反馈的质量,以便更好地检测和纠正模型响应中的错误(23*,24). 同时,开源项目正在发布数据集、代码和训练配方,以促进RLHF的新改进,扩大研究社区的透明度、可重复性和共享实验(25*,26). 使人工智能模型和系统更抵抗滥用的一个方法,是通过从预训练数据中移除有害知识,从一开始就防止它们发展出不受欢迎的能力(11,12*,13). 这些技术很有前景,尽管越来越多的证据表明它们在预防复杂有害行为方面可能更有效,例如协助武器开发。13), 比起消除更简单的非期望功能, 例如生成攻击性文本(14在这种情况下,也很难确保所有有害的训练材料都已被从开发人员用于训练领先模型的训练数据集中移除(15)。