行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

打开 AI 管理 AI 智能体的实践

信息技术 2024-12-24 - 未知机构故人

代理型人工智能系统安全和负责的做法

定义

代理型人工智能系统（AI）能够在有限直接监督下追求复杂目标，具有广泛的应用价值，但也存在潜在危害风险。本文定义了代理型AI系统及其生命周期中的各方，并强调就这些各方明确一套基线责任和安全最佳实践的重要性。

代理型AI系统的特点

适应性：系统对新奇或意外情况的适应和反应能力。
目标复杂性： AI系统实现目标的挑战程度。
环境复杂性：系统在何种复杂的环境中实现目标。
独立执行：在有限人为干预或监督下，系统可靠实现目标的能力。

AI代理生命周期中的人类缔约方

模型开发者：开发驱动智能系统运行的AI模型。
系统部署者：构建并运营更大系统，包括调用模型、路由工具和提供用户界面。
用户：使用特定实例的代理型AI系统，并为其提供应追求的具体目标。

机构AI系统的潜在益处

作为有用财产

提高用户生活中以更少的努力完成更多事情的能力。
完成超出用户技能范围的任务。
通过使用户部分或完全卸载他们已经知道如何完成的任务来受益用户。

作为影响乘数

AI可能已经构成了通用技术，广泛部署的高度先进且具有自主性的AI系统甚至有可能大幅提高经济生产率。
AI还可能加速在各种非经济的社会福祉指标上的进步。

保持机构AI系统安全和负责的实践

本文提出了七项初步的安全和问责操作实践，希望这些实践可以成为达成共识的最佳基线实践的基础模块。

1. 评估任务适用性

系统部署者或用户应全面评估某个特定的人工智能模型及其相关的代理人工智能系统是否适用于其预期用途。

2. 约束行动空间并要求批准

对于对用户来说过于重要的决策，即使只有一丝机会这些决策可能会被错误执行，也应要求用户主动授权。

3. 设置代理的默认行为

系统部署者可以通过确保强大的网络控制来限制代理与外部世界的交互，并设置代理在无人审查和重新授权前定期“超时”。

4. 代理活动的可读性

模型开发者和系统部署者可能需要构建使代理意识到自身对用户意图目标不确定性特性的功能，并向用户揭示代理人的“思维过程”。

5. 自动监控

用户或系统部署者可以设置一个第二“监控”AI系统，该系统自动审查主要代理系统的推理和行动，以确保这些行为符合用户目标下的预期。

6. 归因性

为每个有代理权的AI实例分配一个独特的标识符，包含有关代理用户主体的信息，以实现可靠的问责制。

7. 中断能力和保持控制权

系统部署者需要确保用户能够随时激活优雅的关闭程序以终止其代理的操作，并记录相关信息以便确定他们托管的系统是否造成了重大伤害。

来自机构AI系统的间接影响

技术采纳竞赛

代理人在竞争环境中可能带来的优势，例如私营企业或政府之间的竞争，可能会面临巨大的压力，在充分评估这些系统可靠性与可信度之前就采用代理型AI系统。

劳动力流离失所和长期收养率

代理型人工智能系统可能会对工人、工作岗位和生产率产生更为实质性的影响，导致大量工人被替代，或技能变得不再稀缺。

转换国防平衡

代理型AI系统可能使网络攻击自动化，从而显著增加攻击的数量，但网络防御者的责任如监控则难以自动化，这可能会导致网络安全防御变得不可行。

结论

日益强大的自主人工智能系统即将出现，社会可能很快需要采取重大措施确保这些系统的安全可靠运行，并减轻与代理采用相关的更大间接风险。相关方应当密切注意识别哪些均衡假设不再成立，并且要你采取积极的政策措施以确保日益自主的人工智能系统的益处能够广泛分享。

Yonadav Shavit∗Sandhini Agarwal∗Miles Brundage∗Steven 奧德勒 Cullen 赖恩科菲 Rosie 萊姆伯格 Teddy 李 Pamela 米许曼 Tyna 埃隆度 Alan 霍奇 Katarina 斯莱马 Lama 哈迈德 Paul 梅克米伦 Alex 比特尔 Alexandre 巴士德 David 格雷戈里·罗宾逊 Abstract 代理型人工智能系统——能够在有限直接监督下追求复杂目标的人工智能系统——如果能够负责任地整合到我们的社会中，很可能会具有广泛的应用价值。虽然这类系统有可能帮助人们更高效、更有效地实现自己的目标，但它们也带来了潜在的危害风险。在本白皮书中，我们建议定义代理型人工智能系统及其生命周期中的各方，并强调就这些各方明确一套基线责任和安全最佳实践的重要性。作为我们的主要贡献，我们提供了一套初步的安全和问责操作实践，希望这些实践可以成为达成共识的最佳基线实践的基础模块。我们列出了在这些实践能够被正式编码之前必须解决的问题和不确定性。然后，我们强调了大规模采用代理型人工智能系统可能带来的间接影响类别，这很可能需要额外的治理框架。目录 2 De fi nitions 4 3 机构人工智能系统的潜在 fi 3.1 作为有帮助的财产的机动性. 6 3.2 作为影响乘数的机动性. 7 5 来自机构 AI 系统的间接影响 16 人工智能研究人员和公司最近开始开发越来越自主的AI系统：这些系统能够在有限的直接监督下，通过推理适应性地追求复杂目标。1例如，用户可以请求一个代理型个人助手“帮我今晚烤一个好吃的巧克力蛋糕”，系统会通过计算所需食材、寻找供应商购买食材，并将食材和打印好的食谱送到用户的家门口来响应这一请求。与更有限的AI系统（如图像生成或问答语言模型）不同，代理型AI系统能够执行一系列广泛的行动，并且足够可靠，以至于在某些定义明确的情况下，合理用户可以信任它们自主有效地为自己的复杂目标采取行动。这一向代理性的趋势不仅可能大幅扩展AI系统的有用性，还可能带来一系列新的技术和社会挑战。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 代理型人工智能系统可以显著提高用户在生活中以更少的努力完成更多事情的能力。这可能包括完成超出用户技能范围的任务，如专业编程。代理型系统还可以通过使用户部分或完全卸载他们已经知道如何完成的任务来受益用户，这意味着任务可以更便宜、更快捷且在更大规模上完成。只要这些好处超过建立和安全运行代理型系统的成本，代理型系统就可以对个人和社会带来重大益处[1]。在本文中，我们将主要关注以语言模型为核心（包括多模态模型）的代理型系统，因为这些模型推动了近期的进步。2 社会只有在能够通过减轻其失败、漏洞和滥用风险来确保这些有agency的人工智能系统安全的情况下，才能充分利用这些系统的全部益处。[3]3这激发了我们总体上的一个关键问题：哪些实践可以被采纳以防止这些失败、脆弱性和滥用行为，并且在代理人的生命周期中的哪个阶段实施最为适宜？通常，在造成损害的众多不同阶段中，有很多机会可以进行预防。例如，考虑这样一个假设情境中的代理人工智能助手，其用户（不在日本）指示它购买制作日式奶酪蛋糕所需的原料。代理选择购买昂贵的机票前往日本而不是在当地购买，直到为时已晚无法退款时用户才注意到这一情况。在这种假设的情境中，多个相关方都有可能采取措施避免这种结果。模型开发者可以通过改进系统的可靠性和用户对齐来预防此类事件。4，这样它就不会让这个错误。系统部署者本可以禁用代理在未明确批准的情况下采取行动。用户也可能从未同意将购买权限委托给一个众所周知并不完全可靠的人工智能系统。航空公司甚至可以实施相关政策或技术，要求对购买行为进行积极的人类确认。鉴于多个相关方都可以采取措施减轻损害，每一方都有理由将责任推给其他方，在最坏的情况下，即使某个方无法合理地防止结果发生，该方也可能被追究责任[4, 5]。分配由代理人工智能系统引起的风险责任的关键目标应当是创造激励措施，以尽可能高效地降低此类风险的发生概率和严重程度 [6]。为了确保这一点某人被激励采取必要的措施，重要的是至少一个人类实体5对每个由代理型AI系统引起的未补偿直接伤害负责。其他研究提出了更为激进或定制的方法以实现问责制，例如为代理赋予法律人格并强制要求保险[7, 8]，或者针对特定领域的监管制度[9]。所有这些方法似乎都旨在解决同一个问题：为了创造减少或消除代理型AI系统造成的危害的激励机制，社会需要就基本的最佳实践达成共识。6that 勇于负责的模型开发者、系统部署者和用户应该遵循。基于这样一个基准，当行为导向型人工智能系统造成危害时，我们可以识别出哪些相关方偏离了这些最佳实践，从而未能防止该危害的发生。在本白皮书中，我们列出了不同主体可以实施的多种实践方法，以减轻代理人工智能系统带来的风险，这些实践方法可以作为一套一致的基础最佳实践的构建块。我们还强调了在将这些实践付诸实践时可能遇到的许多困难领域，尤其是在安全性、易用性、隐私和成本之间可能存在权衡的情况下。AI开发者不能独自回答这些问题，也不应独自承担这一责任，我们热切期望能够获得更广泛世界的研究和指导。在第二部分，我们定义了代理型AI系统及其生命周期中的人类各方。在第三部分，我们简要描述了代理型系统的潜在益处。在第四部分，我们提供了初步的七项实践，这些实践可能成为代理生命周期中各方达成一致的最佳实践的一部分，并指出了一些开放性问题。最后，在第五部分，我们考虑了AI代理引入后可能产生的间接影响，这些问题可能无法仅通过关注个体危害来解决。我们希望我们概述的最佳实践能够作为构建块，促进关于如何最好地为代理人工智能系统带来的风险承担责任的社会范围内的讨论。例如，它们可以影响关于人工智能代理开发的监管可能是什么样子的讨论，或者各方如何构架与代理相关的合同（例如，因代理造成的损害的保险条款，代理使用条款），或者法庭如何考虑各种行为者的注意标准。鉴于代理及其相关研究的初期阶段，我们尚未对责任结构的具体建议，希望看到更多关于可能选项的全面公众讨论。我们希望这篇论文能帮助催化这样的对话，但不希望它们被强烈偏向于任何特定方向。 2 De fi nitions 2.1 机构、机构人工智能系统和 “代理人 ” 代理型AI系统的特点是在较长时期内采取一致行动以实现目标，而这些行为在事先并未被明确规定。在文化想象中，AI代理是一种助手，能够为用户完成任意任务，例如《她》中的萨曼莎或《2001太空漫游》中的HAL 9000。这类代理与当前的AI系统如GPT-4有很大的不同，尽管GPT-4在某些方面表现出惊人的知识和智慧，但目前它只能完成有限范围的实际任务。然而，并没有明确的界限可以将“代理”与当前的AI系统如GPT-4区分开来。相反，代理性最好被理解为涉及多个维度，我们预期这些维度在该领域将持续进步。剧烈程度“一个系统可以适应的程度我们去 fi ne在一个系统中作为在有限的直接监督下，在复杂的环境中实现复杂的目标。 “因此，这里像 de fi Ned 一样的机构分解为几个组成部分：7 •目标复杂性： AI 系统的目标有多大挑战8人类实现目标的方式，以及系统能够达成的目标范围有多广？目标的性质可能包括可靠性、速度和安全性的目标水平。 –例如：一个能够正确回答用户关于编程和法律的分析性问题的AI系统，其目标复杂度高于只能将相同输入分类为属于法律或编程的文本分类器。 •环境复杂性系统在何种复杂的环境中能够实现目标？（例如，它们在多大程度上跨越不同领域、涉及多方利益相关者、需要长期运作、以及/或需要使用多种外部工具？） –例：能够出色地玩任何棋盘游戏的AI系统比只能下国际象棋的AI系统具有更大的环境复杂性，因为第一个系统可以在远远更广泛的环境中取得成功（包括国际象棋），而不仅仅是局限于特定的游戏。 •适应性：系统对新奇或意外情况的适应和反应能力如何？ –示例：基于自动化规则的客户服务系统在适应性方面低于人类客户服务代表，因为人类可以处理意外或前所未有的客户请求。 •独立执行：在有限的人为干预或监督下，系统可以在多大程度上可靠地实现其目标？ –例：具备三级自动驾驶能力的汽车[10]，在特定情况下可以无需人类干预进行操作，具有比传统需要持续人工操作的汽车更强的独立执行能力。 7我们认识到，不同的个人出于各种目的使用了多种代理性、代理者和代理活动的定义。在我们的评估中，我们讨论论文后半部分的许多（或许所有）实践在许多替代定义这些术语的情况下都是适用的。8我们将假设一个代理型AI系统可以建模为具有目标的系统，包括外部定义的目标，如遵循一组提供的指令。在最近的相关文献[3]的基础上，我们将一般性地将表现出高度代理性特征的系统称为“代理AI系统”，以强调在这里我们所使用的代理性是一种属性而非类别/分类。尽管有时我们会使用“代理”一词，因为在某些上下文中这是通行的专业术语。本项工作将聚焦于随着系统代理性的增强，可能变得相关的一系列影响及最佳实践。9我们强调，代理性（agenctness）是一个与意识、道德主体性或自我动机不同的独特概念，并区分一个系统在代理性方面的程度与其拟人化程度。10确实，我们将代理型AI系统一般概念化为在追求由人类定义的目标并在由人类决定的环境中（通常与人类“队友”合作）运行的系统，而不是完全自主的系统，这些系统可以自行设定目标。我们所定义的代理性并不局限于物理性（即，许多数字系统在上述意义上比大多数机器人更具代理性），但某些具有物理后果的“独立执行”方式（例如，在无人驾驶汽车中）可能会增加代理性在特定应用中的风险和机遇。最后，代理性在概念上与AI系统在特定任务上的表现水平或其能力的通用性是不同的，尽管性能和通用性的改进可能“解锁”系统在某些情境下作为代理的能力[12]。 2.2 AI 代理生命周期中的人类缔约方我们提供了一种简化的AI生命周期概览，尽管这些角色在AI行业中存在多种不同的配置[13]，我们希望进一步的分类体系能够涌现出来。在我们的分类体系中，11可能影响AI代理运营的三方主要利益相关者是模型开发者、系统部署者和用户。模型开发人员是开发驱动该智能系统运行的AI模型的党派，从而大致决定了整个系统运作的能力和行为。系统部署器构建并运营更大系统的政党是在模型之上构建和运行系统的一方，包括通过调用开发好的模型（例如提供“系统提示”[14]），将这些调用路由到代理可以采取行动的工具，并为用户提供一个与代理交互的界面。系统部署者还可能根据特定用途定制AI系统，因此可能比模型开发者甚至用户拥有更多的领域专业知识。最后，代理人的user是使用特定实例的代理型AI系统的实体，通过启动它并为其提供应追求的具体目标。用户可能能够在操作过程中最直接地监督代理型系统的一些行为，并在此过程中与第三方进行交互（例如，其他人类或代理型系统可以与其交互的API提供商）。有时，同一

点击免费查看完整报告

打开 AI 管理 AI 智能体的实践

代理型人工智能系统安全和负责的做法

定义

代理型AI系统的特点

AI代理生命周期中的人类缔约方

机构AI系统的潜在益处

作为有用财产

作为影响乘数

保持机构AI系统安全和负责的实践

1. 评估任务适用性

2. 约束行动空间并要求批准

3. 设置代理的默认行为

4. 代理活动的可读性

5. 自动监控

6. 归因性

7. 中断能力和保持控制权

来自机构AI系统的间接影响

技术采纳竞赛

劳动力流离失所和长期收养率

转换国防平衡

相关故障

结论

你可能感兴趣

Manus AI智能体：AGI发展新范式的实践与测评

面向新型电力系统的安全韧性AI智能体：架构、关键技术与落地实践

赋能商业实践的十大实用技巧：AI智能体应用手册

AI Infra：加速智能体落地的基础架构发展趋势与产业实践

智能体时代的零售业AI：从愿景到实践

Spring AI Alibaba Graph 智能体开发指南与实践

医药企业市场与营销AI智能体应用实践

2022可解释AI发展报告：打开算法黑箱的理念与实践

AI智能体赋能行业决策：趋势与实践白皮书（2026）

美容护理行业周报：医疗AI技术应用深化，智能体助力医美实践