[谷歌]：智能体伴侣

Agents Companion 总结

简介

生成式 AI 代理代表了从传统独立语言模型的一次飞跃，为问题解决和交互提供了一种动态方法。代理是一种设计为通过感知其环境并战略性地使用可用工具来实现特定目标的应用程序。代理的关键原则在于其推理、逻辑和外部信息访问的合成，使其能够执行任务和做出超出底层模型固有能力的决策。这些代理具有自主操作的能力，可以独立追求目标并主动确定后续行动，通常无需明确指示。未来属于代理。

代理架构

代理的架构由三个基本元素组成：

模型：语言模型（LM）作为中央决策单位，采用基于指令的推理和逻辑框架。模型可以是通用、多模态或微调的。
工具：用于连接代理的内部和外部能力与外部世界，促进与外部数据和服务的交互。这些工具使代理能够访问和处理真实世界的信息。
编排层：一个循环过程，决定了代理如何同化信息、进行内部推理并利用推理来指导后续行动或决策。该层负责维护内存、状态、推理和计划。

代理操作（AgentOps）

代理操作（AgentOps）是生成式 AI（GenAI）操作的一个子类别，专注于代理的高效操作。其主要附加组件包括内部和外部工具管理、代理大脑提示（目标、配置文件、指令）和编排、内存和任务分解。

AgentOps 需要版本控制、通过 CI/CD 进行的自动部署、测试、日志记录、安全和（关键地）指标等能力。所有这些“Ops”都是人们、流程和技术的和谐融合，共同有效地将机器学习解决方案部署到生产环境中。

代理成功指标

指标对于构建、监控和比较代理的修订版本至关重要。业务指标（如收入或用户参与度）可能超出了代理本身的范围，但这些指标应该是代理的“北极星”指标。

代理设计围绕完成目标，因此目标完成率是一个要跟踪的关键指标。类似地，目标可以分解为几个关键任务或关键用户交互。每个关键任务和交互都应该独立地进行仪器和测量。

除了这些指标之外，人类反馈也是一项至关重要的指标。一个简单的“赞”或用户反馈表，在代理或任务的上下文中，可以极大地帮助了解代理做得好的地方和需要改进的地方。

代理评估

为了在概念验证和生产就绪的 AI 代理之间架起桥梁，一个强大且自动化的评估框架至关重要。代理评估可以分为三个组成部分：

评估代理能力：评估代理的核心能力，例如理解指令和逻辑推理的能力。
评估轨迹和工具使用：分析代理为达到解决方案而采取的步骤，包括其工具选择、策略和方法的效率。
评估最终响应：评估代理最终输出的质量、相关性和正确性。

评估方法

人类评估：捕捉微妙的行为，考虑人类因素，但主观、耗时、昂贵且难以扩展。
LLM 作为法官：可扩展、高效、一致，但可能会忽略中间步骤，并且受 LLM 能力的限制。
自动指标：客观、可扩展、高效，但可能无法捕捉全部能力，并且容易受到游戏的影响。

多代理及其评估

多代理系统是多个专业代理协同工作以实现复杂目标。每个代理都是一个独立实体，可能使用不同的 LLM，并具有其独特的作用和上下文。代理进行沟通和协作以实现共同目标。这种方法与传统的单代理系统不同，在传统的单代理系统中，一个 LLM 处理所有方面的任务。

多代理系统相对于单代理系统有几个优点：

提高准确性：代理可以相互检查彼此的工作，从而得出更准确的结果。
提高效率：代理可以并行工作，加快任务完成速度。
更好地处理复杂任务：大型任务可以分解成更小、更易于管理的子任务，每个代理专注于特定的方面。
提高可扩展性：通过添加具有专业能力的更多代理，系统可以很容易地进行扩展。
提高容错性：如果一个代理失败，其他代理可以接管其职责。
减少幻觉和偏差：通过结合多个代理的视角，系统可以减少幻觉和偏差的影响，从而得出更可靠和值得信赖的输出。

多代理架构

与传统的单体 AI 系统不同，多代理架构将问题分解为由专业代理处理的特定任务。每个代理都具有定义的角色，并与其他代理动态交互以优化决策、知识检索和执行。这些架构支持更结构化的推理、去中心化的问题解决和可扩展的任务自动化，为单代理工作流程带来了范式转变。

多代理设计模式及其商业影响

为了设计有效的多代理架构，已经出现了特定的设计模式。这些模式定义了交互协议、委托机制和角色分配，允许企业以结构化的方式实施 AI 驱动的自动化。

常见的多代理系统类型包括：

顺序代理：代理按顺序工作，每个代理完成其任务，然后将输出传递给下一个代理。
分层代理：代理按分层结构组织，一个“管理”代理协调工作流程并将任务委托给“工人”代理。
协作代理：代理协同工作，共享信息和资源以实现共同目标。
竞争代理：代理可能相互竞争以获得最佳结果。

代理的重要组成部分

交互包装器：代理与其环境之间的接口，管理通信并适应各种输入和输出模态。
内存管理：包括短期工作内存、缓存和会话。它还可以包括长期存储，用于学习模式和经验，例如事件、示例、技能或参考数据。
认知功能：通常由思维链（CoT）、ReACT、推理、思考或规划子系统支撑，它允许代理将复杂任务分解为逻辑步骤并进行自我纠正。
工具集成：使代理能够利用外部工具，将其能力扩展到自然语言处理之外。
流/路由：管理与其他代理的连接，促进动态邻居发现和多代理系统内的有效通信。
反馈循环/强化学习：通过处理交互结果来促进持续学习和适应，并改进决策策略。
代理通信：代理之间有效沟通对于多代理系统的成功至关重要。
远程代理通信：组织内代理到代理的通信至关重要，允许代理共享消息、任务和知识。
代理和工具注册表（网格）：随着工具或代理数量的增加，需要一个强大的系统来管理其能力、本体和性能。

多代理系统中的挑战

任务通信：今天大多数代理框架通过消息而不是结构化的异步任务进行通信。
任务分配：有效地将复杂任务分配给不同的代理可能具有挑战性，反馈循环通常由开发人员来实现。
协调推理：让代理有效地辩论和推理需要复杂的协调机制。
管理上下文：跟踪所有信息、任务和代理之间的对话可能令人望而生畏。
时间和成本：多代理交互可能计算成本高且耗时。
复杂性：与微服务架构类似，每个微服务提供了更多的灵活性和简单性，整个系统通常变得更加复杂。

多代理评估

多代理评估与评估单个代理类似，但分析的复杂性更高。需要考虑以下独特问题：

合作和协调：代理如何协同工作并协调其行动以实现共同目标？
规划和任务分配：我们是否制定了正确的计划，并且是否坚持了该计划？子代理是否偏离了主计划或陷入了死胡同？
代理利用率：代理如何选择正确的代理并选择将其用作工具、委托后台任务或将用户转交给代理？
可扩展性：随着更多代理的添加，系统的质量是否提高？延迟是否降低？我们是否变得更有效率或更有效率？

Agentic RAG

Agentic RAG（检索增强生成）是检索增强生成（RAG）和 AI 代理自主性的高级方法。传统 RAG 系统从外部知识源检索相关信息以增强 LLM 响应。Agentic RAG 通过利用智能代理来协调检索过程、评估检索到的信息并就如何最好地利用它做出决策，将这种优势提升了一个层次。

Agentic RAG 提供了几个优于传统 RAG 的优势：

提高准确性：代理可以评估检索到的信息的质量，并就哪些来源值得信赖做出决策，从而得出更准确和可靠的响应。
增强上下文理解：代理可以考虑用户的查询上下文和检索到的信息上下文，以生成更相关和更有意义的响应。
提高适应性：代理可以适应不断变化的信息需求，并动态调整其检索策略以提供最新和最相关的信息。

企业中的代理

代理正在改变我们工作的方式，使我们变得更加富有成效，以及自动化可以完成的方式。知识工作者将越来越多地管理代理群，并会出现新的用户体验。Google Agentspace 是一个强大的工具，允许在公司的数据和工作流程之上构建和部署企业搜索、AI 和 AI 代理。

代理到承包商

为了使代理达到可靠性和实用性的下一个级别，我们需要提高任务的定义，使其成为具有明确交付成果、验证机制和协商模糊性的合同，类似于我们从其他公司那里承包工作的方式。

未来方向

AI 代理领域正在经历快速演变。正在进行研究和开发的关键领域包括：

高级评估方法：开发更强大和可扩展的评估技术，包括基于过程的评估（侧重于推理）、AI 辅助评估和标准化基准。
多代理协调：改进多代理系统内部的协调和通信机制，以实现更有效的协作、任务处理和推理。
现实世界适应：创建能够在动态、不可预测的现实世界环境中适应和学习的代理。
可解释性和可解释性：使代理行为更加透明和易于理解，允许开发人员和用户深入了解其决策过程。
长期记忆和学习：开发更复杂的记忆机制，允许代理在较长时间内保留和利用信息，从而实现持续学习和适应。
代理通信协议：更好地定义代理如何共享任务、知识和消息，特别是在跨远程系统时。
从代理到承包商：为了使代理达到可靠性和实用性的下一个级别，我们需要提高任务的定义，使其成为具有明确交付成果、验证机制和协商模糊性的合同，类似于我们从其他公司那里承包工作的方式。