行业研究公司研究宏观策略财报招股书会议纪要海南封关低空经济 DeepSeek AIGC 大模型

未来就在这里，深入了解自主代理

文化传媒2024-10-28宋恺涛全球人工智能开发与应用大会G***

AI智能总结

AI 智能体的崛起与构建

AI 智能体的起

自治代理人的崛起

定义：自治代理是一个系统，位于内部和一部分环境，随着时间的推移，感知环境并对其采取行动，追求自己的议程从而影响未来的感觉。其目标是自主完成来自现实世界场景的任何复杂用户指令，系统可以像人类一样完成用户目标，执行各种动作，模仿人类行为以解决复杂任务，并模拟人类在现实环境中的感知、交互和反馈行为。

自治代理人为何崛起：主要归因于大型语言模型（LLM）的崛起。从2022年ChatGPT的出现到2023年3月HuggingGPT、AutoGPT、VisualChat GPT、AgentGPT、BabyAGI、LLAMA等模型的相继问世，以及2023年8月G精力充沛 Agent、SuperAGI、ChatDev、MetaGPT等模型的推出，LLM的进化技术推动了从LLM到代理的转变。

LLM vs 代理商：代理设计基于基础模型（如大规模语言模型或超大规模语言模型）构建，并将其能力扩展到现实世界的应用场景中。

如何构建智能体

拥抱 GPT

背景：AGI意味着agent/AI应该像人类一样思考，以解决未来任何复杂的AI任务。然而，LLM仍存在一些限制：主要应用于处理文本数据，缺乏处理复杂资讯（如视觉和语音）的能力；需要详细的任务规划，而当前LLMs的能力范围有限；在零样本或少样本设置中表现出色，但在某些专家模型面前仍然相对较弱。

动机：通过结合语言作为界面，LLMs可以被视为大脑管理AI模型（如规划、调度、合作），从而桥接LLM和外部模型之间的连接。

Example：通过设计功能指南指令，LLM可以更有效地使用工具。

EasyTool

背景：构建基于LLM的代理通常需要开发许多提示，带来大量令牌消耗；扩展AI代理的任务范围需要连接大量额外工具，并输入许多工具文档，效率低下；工具文档可能不一致、冗余和不完整。

解决方案：EasyTool通过重新组织原始工具文档，删除无关信息，仅保留功能指南说明，并设计功能指南指令以供LLM使用，提高效率。

EvoAgent

背景：现有的代理系统严重依赖手工设计，限制了其可扩展性和功能。

解决方案：EvoAgent通过进化算法自动将代理扩展到多代理系统，将代理生成公式化为进化算法，每个代理被视为能够在其多代连续世代中繁殖其种群的个体，系统设置（如角色、技能、提示）被视为进化的变量。

结果：EvoAgent可以大大提高NLP知识和推理任务中的LLM性能，并在每个LLM之间提供一致的改进；可以推广到现实世界的场景，支持制定不同的计划策略以满足不同的用户偏好。

如何评估智能体

TaskBench

背景：使用基于LLM的代理处理用户请求的过程可以被视为任务自动化，但衡量LLM在任务自动化中的能力面临挑战：如何分析用户请求并将其分解为可能的任务？如何为每个可能的任务选择最合适的解决方案？如何确定每个解决方案的参数？

解决方案：TaskBench通过反向指示进行分析和评估。

未来

观点：自动代理可以被视为AGI的一种预览形式；代理的增长归因于LLMs emergent 的能力；代理设计应当满足通用性、多样性以及实践性（praxology）；提高基础模型、组件（如规划、工具、记忆）和环境将提升代理性能；如何支持AI Agent的持续增长/进化？如何为AI Agent建立社区？如何部署可控、可操纵的AI Agent？

演讲人：宋恺涛微软亚洲研究院高级研究员 CONTNTS目E录 01 AI 智能体的起 02如何构建智能体 03如何评估智能体 04总结 AI 智能体的起自治代理人的崛起什么是自治代理？自治代理是一个系统位于内部和一部分环境随着时间的推移，感知环境并对其采取行动，追求自己的议程从而影响未来的感觉。 - 富兰克林和格雷泽 •目标 • 自主完成来自现实世界场景的任何复杂用户指令。 •定义 • 系统可以像人类一样完成用户目标。它可以执行各种动作，模仿人类行为以解决复杂任务。 • 此外，它还可以模拟人类在现实环境中的感知、交互和反馈行为。自治代理人为何崛起？ LLM 的崛起时间线 2023.3 •H uggingG P T•一个 utoG P T•V Isual C hat GP T•A gentg P T•B abyA G I•LLA M A•… 2023.8 •G 精力充沛 A gent•S uperA G I•C hatD ev•M etaG P T•… 2022 - ChatGPT 大型语言模型的进化技术。ChatGPT - LLM 从 LLM 到代理从该 ROADMAP 中可以看出，Agent 基于基础模型（例如，大规模语言模型或超大规模语言模型）构建，并将其能力扩展到现实世界的应用场景中。 LLM vs 代理商代理设计 AI 智能体的架构构建拥抱 GPT 背景 AGI 意味着 agent / AI 应该像人类一样思考，以解决未来任何复杂的 AI 任务。 • However, LLM still remains some限制: • 在实际应用场景中，AI 应该能够处理任何复杂的资讯（如视觉和语音）。但目前来看，大语言模型（LLMs）主要应用于处理文本数据。 • 在实际场景中，一些复杂的任务通常由多个子任务组成，因此需要详细的任务规划，而这些任务规划超出了当前语言模型（LLMs）的能力范围。 • 对于一些具有挑战性的任务，大语言模型（LLMs）在零样本或少样本设置中表现出色，但在某些专家模型（例如微调模型）面前仍然相对较弱。背景 • 我们可以像人类大脑一样行动，先进行思考，然后与外部模型协调，利用它们的优势来解决复杂的AI任务。•LLM ^ AGI ，但可能是。 • 那么，如何桥接 LLM 和外部模型之间的连接？语言是 LLM 连接外部模型的通用接口！ •语言作为界面， LLM 作为控制器 / 大脑。通过结合这些模型描述进入提示，LLMs可以被认为是大脑管理AI 模型如规划,调度, and合作. One（强大)模型做什么?✘One（强大)模型来管理任何东西！✔ 动机拥抱 GPT Example How? AI 智能体的架构构建 EasyTool 背景 • 要构建基于 LLM 的代理，通常需要我们开发许多提示，从而带来大量的令牌消耗。 • 如果我们想要扩展AI代理的任务范围，将需要连接大量的额外工具，并且需要输入许多工具文档，这将是低效的。 • 此外，这些工具文档也可能不一致，冗余和不完整。如何提高效率？问题 EasyTool •工具说明生成• 重新组织原始工具文档，删除无关信息，仅保留功能指南说明。 • 我们进一步设计了一套功能指南指令以供LLM使用，并通过提供参数和LLM使用的示例来进一步完善工具文档。 EasyTool Results Results AI 智能体的架构构建 EvoAgent 背景骆驼现有的代理系统严重依赖手工设计。 • 即使对于现有的范式（例如，AutoAgents、SPP），它们仍然依赖于人工设计的干预措施，这限制了其可扩展性和功能。 • 我们可以设计一种通用方法来通过进化算法自动将代理扩展到多代理系统吗？我们可以模拟代理的进化算法吗？ • 为了使人类社会保持一致，可以将代理生成公式化为进化算法。 • 每个代理可以被视为能够在其多代连续世代中繁殖其种群的个体。 • EvoAgent 可以被视为一种从专门化代理开始的一次性代理生成方法，其系统设置（例如，角色、技能、提示）可以被视为进化的变量。 EvoAgent • 选择一个预定义的框架作为初始化• Initialization • Conduct evolutionary operator to generate new agent• 交叉和突变 • 选择机制 • 质量检查，以保证每个代理可以保证特性和支持差异 • 更新结果 Results • EvoAgent 可以大大提高 NLP 知识和推理任务中的 LLM 性能 · EvoAgent 可以在每个 LLM 之间提供一致的改进。 TravelPlanner 上的结果 • EvoAgent • 可以推广到现实世界的场景，包括烹饪体验，交通等。 • 它还支持我们制定不同的计划策略，以满足不同的用户偏好。 AI 智能体的点评 TaskBench 背景 •使用基于LLM的代理处理用户请求的过程可以被视为任务自动化。但当我们想要衡量LLM在任务自动化中的能力时： • 如何分析用户请求并将其分解为可能的任务？ • 如何为每个可能的任务选择最合适的解决方案？ • 如何确定每个解决方案的参数？ TaskBench 反向指示 Results 未来 • 自动代理可以被视为AGI的一种预览形式，能够自主完成任何来自现实世界场景的复杂用户指令。 • 代理（Agent）的增长归因于大型语言模型（LLMs） emergent 的能力。因此，代理设计应当满足通用性、多样性以及实践性（praxology）。 • 通常，代理=基础模型+组件（例如，规划、工具、记忆）+环境。因此，提高这些部分将对提升代理性能非常重要。 • 如何支持 AI Agent 的持续增长 / 进化？如何为 AI Agent 建立社区？ • 如何部署可控、可操纵的 AI Agent ？谢谢智能来，智索 AI 无限可能智能未来，探索 AI 的无限可能性

点击免费查看完整报告