行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

智能体伙伴

信息技术 2025-04-08 谷歌林菁｜Jade

Agents Companion 总结

概述

生成式 AI 代理代表了从传统独立语言模型的重要飞跃，提供了一种动态的方法来解决问题和进行交互。代理被定义为一种应用程序，旨在通过感知其环境并战略性地使用可用工具来实现特定目标。代理的核心原则在于推理、逻辑和外部信息访问的综合，使其能够执行任务和做出超越底层模型固有能力的决策。这些代理能够自主运行，独立追求其目标并主动确定后续行动，通常无需明确指令。未来属于代理。

代理架构

代理的架构由三个基本元素组成：

模型：指作为中央决策单元的语言模型 (LM)，采用基于指令的推理和逻辑框架。模型可以是通用型、多模态或微调型，具体取决于代理的特定需求。
工具：用于弥合代理内部能力和外部世界之间的差距，促进与外部数据和服务的交互。这些工具使代理能够访问和处理真实世界的信息，例如扩展、函数和数据存储。
编排层：是一个循环过程，规定了代理如何整合信息、进行内部推理并利用推理来指导后续行动或决策。该层负责维护内存、状态、推理和规划，并采用提示工程框架来引导推理和规划，从而更有效地与环境交互并完成任务。

AgentOps

AgentOps 是一种专注于代理高效运营的 GenAIOps 子类别。其主要附加组件包括内部和外部工具管理、代理大脑提示（目标、配置文件、指令）和编排、内存和任务分解。

AgentOps 需要版本控制、通过 CI/CD 进行的自动部署、测试、日志记录、安全和（关键）指标等能力。所有这些“Ops”都是人、流程和技术的和谐融合，共同有效地将机器学习解决方案部署到生产环境中。

代理成功指标

指标对于构建、监控和比较代理的修订版本至关重要。业务指标（如收入或用户参与度）可能超出了代理本身的范围，但这些应该是代理的“北极星”指标。

目标完成率：是跟踪的关键指标，因为大多数代理都是围绕完成目标而设计的。
关键任务和交互：每个关键任务和交互都应独立进行仪器和测量。
人类反馈：是更关键要跟踪的指标之一，例如简单的“赞”或用户反馈表单。
详细的可观察性：对于代理构建也非常重要，能够看到和理解代理正在做什么以及为什么这样做。

代理评估

为了在概念验证和生产就绪的 AI 代理之间架起桥梁，一个强大且自动化的评估框架至关重要。代理评估可以分为三个组成部分：

评估代理能力：评估代理的核心能力，例如理解指令和逻辑推理的能力。
评估轨迹和工具使用：分析代理为达到解决方案而采取的步骤，包括其工具选择、策略和方法的效率。
评估最终响应：评估代理最终输出的质量、相关性和正确性。

评估方法

公共基准：例如 Berkeley Function-Calling Leaderboard (BFCL) 和 PlanBench，可以提供对核心能力和局限性的见解。
自动化轨迹评估：例如精确匹配、顺序匹配、任何顺序匹配、精确度、召回率和单工具使用，可以作为分析和调试代理轨迹的不同视角。
评估最终响应：使用自动评分器（LLM 作为法官）根据用户提供的标准评估响应。
人工评估：对于需要主观判断或创造性解决问题的任务，人工评估非常有价值。

多代理系统

多代理系统是 AI 系统的一个重要发展方向，其中多个专门代理协同工作以实现复杂目标。每个代理都是一个独立实体，可能使用不同的 LLM，并具有其独特的作用和上下文。代理之间进行沟通和协作以实现共同目标。

多代理系统相对于单代理系统具有 several 优势，包括提高准确性、改进效率、更好地处理复杂任务、增加可扩展性、提高容错能力和减少幻觉和偏差。

多代理架构设计模式

顺序代理：代理按顺序工作，每个代理完成其任务，然后将输出传递给下一个代理。
分层代理：代理按分层结构组织，一个“管理”代理协调工作流程并将任务委托给“工人”代理。
协作代理：代理协同工作，共享信息和资源以实现共同目标。
竞争代理：代理可能相互竞争以获得最佳结果。

代理的重要组成部分

交互包装器：作为代理与其环境之间的接口，管理通信并适应各种输入和输出模态。
内存管理：包括短期工作内存、缓存和会话，以及长期存储以存储学习到的模式和经验。
认知功能：通常由思维链 (CoT)、ReAct、推理、思考或规划子系统支撑，允许代理将复杂任务分解为逻辑步骤并进行自我纠正。
工具集成：使代理能够利用外部工具，将其功能扩展到自然语言处理之外。
流/路由：管理与其他代理的连接，促进动态邻居发现和多代理系统内的有效通信。
反馈循环/强化学习：通过处理交互结果来改进决策策略，实现持续学习和适应。
代理通信：代理之间的有效沟通对于多代理系统的成功至关重要。
远程代理通信：在组织内部的代理之间进行通信，允许代理共享消息、任务和知识。
代理和工具注册表（网格）：随着工具或代理数量的增加，需要一个强大的系统来发现、注册、管理、选择和利用“网格”中的工具或代理。

多代理系统面临的挑战

任务通信：目前大多数代理框架通过消息进行通信，而不是结构化的异步任务。
任务分配：有效地将复杂任务分配给不同的代理可能具有挑战性，反馈循环通常由开发人员来实现。
协调推理：让代理有效地辩论和推理需要复杂的协调机制。
管理上下文：跟踪所有信息、任务和代理之间的对话可能令人不知所措。
时间和成本：多代理交互可能计算成本高且耗时。
复杂性：与微服务架构类似，每个微服务提供了更多的灵活性和简单性，但整个系统通常变得更加复杂。

多代理评估

多代理评估是评估单个代理系统评估的清晰进展。代理成功指标没有改变，业务指标作为“北极星”指标，目标、关键任务成功指标、应用程序遥测指标（如延迟和错误）。使用跟踪对多代理系统进行仪器化将有助于调试和理解在复杂交互期间发生的事情。

Agentic RAG

Agentic RAG（检索增强生成）是检索增强生成 (RAG) 的进步，它结合了 RAG 的优势与 AI 代理的自主性。Agentic RAG 引入自主检索代理，这些代理根据迭代推理主动改进其搜索。这些代理通过以下方式增强了检索：

上下文感知查询扩展：代理生成多个查询改进，以检索更相关和全面的结果。
多步骤推理：代理将复杂查询分解为更小的逻辑步骤，按顺序检索信息以构建结构化响应。
自适应源选择：代理根据上下文动态选择最佳知识源。
验证和更正：评估代理交叉检查检索到的知识以消除幻觉和矛盾，然后再将其集成到最终响应中。

企业中的代理

企业将开发和使用代理来协助员工执行特定任务或在后台自主运行以执行自动化。业务分析师可以毫不费力地发现行业趋势并创建引人入胜的、数据驱动的演示文稿，由 AI 生成的见解提供支持。人力资源团队可以彻底改变员工体验，通过简化的入职流程来处理复杂的任务，例如 401k 选择。软件工程师可以主动识别和解决错误，使他们能够更有效地构建和迭代，并加速部署周期。营销人员可以解锁更深入的性能分析，优化内容推荐，并微调活动，而无需费力即可获得更好的结果。

从代理到承包商

为了将代理提升到下一代可靠性水平，需要将任务定义提升为合同，具有明确的交付成果、验证机制以及协商模糊性的能力，类似于我们从其他公司外包工作。

Google Co-Scientist 案例研究

Google 的 AI co-scientist 是一个应用于科学研究的多代理 LLM 系统的典型案例。该系统利用一个由专门代理组成的团队，每个代理都具有其自己的角色和专业知识，以加速科学发现的步伐。这些代理协同工作，生成、评估和改进假设，反映了科学探究的迭代过程。

汽车人工智能：多代理架构的实际应用

让我们通过检查一个为汽车对话式 AI 设计的综合多代理系统来阐明多代理概念如何在实践中体现，其中几个专门代理协同工作，以提供直观且无缝的车载体验。

代理构建器

Vertex AI Agent Builder 是一个包含产品和服务的集合，用于开发人员。它提供了一个全面的平台，用于构建和连接代理。Vertex AI Agent Engine 简化了开发，依赖于 Google 工程与流行的开源代理库的托管集成。Vertex AI Eval Service 提供了本文档中讨论的所有评估工具，以及更多。

总结

AgentOps 对于构建成功的代理至关重要。
指标驱动改进，从业务级 KPI 开始，然后跟踪与关键任务、用户交互和代理操作相关的详细指标。
自动化评估对于评估代理能力、轨迹和最终响应至关重要。
人工评估对于提供必要的上下文至关重要，特别是对于难以量化的方面，例如创造力、常识和细微差别。
多代理系统为复杂任务提供了 several 优势。
Agentic RAG 改进了相关性。
搜索优化是 RAG 的基础。
代理和工具注册表很重要。
安全性至关重要。
代理正在改变我们工作的方式，使我们更加高效，以及自动化可以完成的方式。
Google Agentspace 是一个强大的工具，允许在公司的数据和工作流程之上构建企业搜索、AI 和 AI 代理。

未来方向

高级评估方法
多代理协调
真实世界适应
可解释性和可解释性
长期记忆和学习
代理通信协议
从代理到承包商

作者：Antonio Gulli, Lavi Nigam, Julia Wiesinger,Vladimir Vuskovic, Irina Sigler, Ivan Nardini, Nicolas Stroppa, Sokratis Kartakis, Narek Saribekyan,Anant Nawalgaria, Alan Bount 致谢编辑与策展人Anant Nawalgaria 内容贡献者史蒂文·约翰逊希南·奇诺伊设计师Michael Lanning 目录 33代理RAG：检索增强生成的一次关键演进汽车AI：多智能体架构的实战应用 54 54545556575758专业代理对话导航代理对话式媒体搜索代理消息组成代理车辆手册代理通用知识代理使用模式 58596163656667686974层次模式钻石图案点对点协作模式响应混合代理自适应回路模式多智能体架构在汽车人工智能中的优势代理构建者摘要脚注人工智能的未来是具有代理性的。引言生成式AI代理标志着从传统独立语言模型向前进的一大步，提供了动态的解决问题和互动方式。根据原始《代理》论文的定义，代理是一种通过感知其环境和利用其拥有的工具战略性地采取行动以实现特定目标的应用程序。代理的基本原理在于其综合推理、逻辑和访问外部信息的能力，使其能够执行任务和做出超越底层模型固有能力的决策。这些代理具有自主运行的能力，独立追求其目标，并主动确定后续行动，通常无需明确指令。代理的架构由三个基本元素构成，这些元素驱动其行为和决策： •型号：在代理框架中，“模型”一词指的是作为中心决策单元，采用基于指令的推理和逻辑框架的语言模型（LM）。根据代理的具体需求，模型可以从通用型到多模态或微调型有所不同。 •工具：工具对于弥合代理内部能力与外部世界之间的差距至关重要，有助于与外部数据和服务的互动。这些工具赋予代理获取和处理现实世界信息的权力。工具可能包括扩展、功能和数据存储。扩展连接API和代理之间的差距，使得代理能够无缝执行API。功能是完成特定任务的自我包含的代码模块。数据存储提供对动态和最新信息的访问，确保模型的响应始终基于事实性和相关性。 •指挥层：协奏层是一个循环过程，它规定了代理如何同化信息、进行内部推理并利用推理来指导其随后的行为或决策。该层负责维持记忆、状态、推理和计划。它采用提示工程框架来引导推理和规划，促进与环境更有效的互动和任务完成。ReAct、思维链（CoT）和思维树（ToT）等推理技术可应用于这一层。基于这些基础概念，这篇配套论文旨在为开发者提供指导，作为深入探讨更高级主题的“入门”指南。它深入探讨了智能体评估方法，以及将谷歌智能体产品应用于增强智能体解决复杂现实问题的实际应用。在探索这些理论概念的同时，我们将研究它们在现实世界中的应用，特别是关注汽车人工智能这一引人入胜的研究案例。汽车领域体现了多智能体架构在生产环境中的挑战和机遇。现代汽车需要能与或无需连接正常工作的对话界面，在设备端与云端处理之间达到平衡，以确保安全和用户体验，并可在导航、媒体控制、通讯以及汽车系统中协调专有功能。通过这一汽车领域，我们将看到不同协调模式——分级、协作和对等——如何相结合，在具有显著约束的环境中创造强劲、响应迅速的用户体验。这一案例研究展示了多智能体系统在各个行业中实际应用的实用性，企业可以根据其特定领域进行适应性改进。任何使用通用人工智能（gen AI）进行构建的人都会很快意识到，从想法到概念验证很容易，但要确保高质量的结果并投入生产则相当困难——通用人工智能代理也不例外。质量和可靠性是部署到生产过程中最常提到的担忧，而“代理操作”（AgentOps）流程是优化代理构建的解决方案。代理商操作在过去两年里，生成式人工智能（GenAI）领域经历了重大变化，企业客户关注的是如何将相关解决方案进行运营化。这导致出现了各种描述GenAI运营化的术语，例如针对GenAI的MLOps、LLMOps、FMOps和GenAIOps。代理和操作（AgentOps）是GenAIOps的一个子类别，专注于代理的高效运营。其主要附加组件包括内部和外部工具管理、代理大脑提示（目标、档案、指令）和编排、记忆以及任务分解。这些“Ops”都需要版本控制、通过CI/CD自动部署、测试、日志记录、安全和（至关重要）的指标。每个系统通常都会根据指标实施某种形式的优化——衡量系统正在做什么和没做什么，衡量结果和业务指标，并自动化更全面的指标过程，逐步改进。这种做法可能被称为“A/B测试”或“机器学习运维”或“以指标为驱动的开发”，但它们源自相同的一般方法，我们也将依赖这些原则来构建AgentOps。记住，新的实践并不能取代旧的。DevOps和MLOps的最佳实践对于AgentOps仍然有必要，因为它们是依赖。例如，代理工具的使用，其中API基于代理编排进行调用，通常使用的是您会使用非代理软件触发。认证与密钥管理、安全、隐私、异常处理、限制、配额和可扩展性仍然是关键，除了代理设计外，还需要仔细的API设计。让我们先定义这些“ops”术语，以便区分它们： •开发和运维（DevOps）这是一种通过整合人员、流程和技术元素来高效实现确定性软件应用的生产化的实践。DevOps是以下所有术语的基础。 •机器学习运维（MLOps）基于DevOps功能，专注于机器学习模型的效率化生产和部署。主要区别在于，机器学习模型的输出是非决定性的，依赖于输入数据（垃圾进入，垃圾出来）。 •基础模型操作（FMOps）拓展了MLOps的能力，重点关注高效地生产化预训练（从头训练）或定制（微调）的FM。 •提示与操作（PromptOps）这是一项针对GenAIOps的子类别，专注于有效实现提示的应用。其主要附加功能包括提示存储、谱系、元数据管理（包括评估分数）、集中式提示模板注册以及提示优化器。 •RAG和运营（RAGOps）这是一类以高效实施RAG解决方案为中心的GenAIOps子类别。其主要附加能力包括通过离线数据准备（包括清洗、分块、向量化和相似性搜索以及重新排序）的检索过程和通过提示增强和定位的生成过程。 •代理人及运营（AgentOps）这是一个专注于代理高效运行的GenAIOps子类别。其主要附加组件包括内部和外部工具管理、代理脑提示（目标、概况、指令）以及编排、记忆和任务分解。所有这些“运维”本质上都是人员、流程和技术和谐融合，共同高效地将机器学习解决方案部署到实际生产环境中的体现。认识到运维不仅限于技术本身至关重要；它不仅仅是构建和交付机器学习管道。成功的运维实施需要深入考虑客户的运营模式、现有业务单元以及整体组织结构。这种整体方法确保技术能够满足他们的特定需求，无缝融入业务并最大化价值。下一节将详细介绍代理评估，这是代理操作和自动化抓取有用指标的重要部分。在我们深入之前，让我们先进行一个思想实验；想象一下在生产环境中为您的新代理设置一个A/B实验。处理组使用新代理，而对照组则不使用。在这种情况下，您测量哪些指标来确定处理组的表现是否更好？您测量哪些指标来确定项目的投资回报率？是完成了一个目标，还是销售总额，或者用户旅程中的关键步骤？这些指标必须被理解、配置和便于分析，除了更详细的代理评估指标。代理商成功指标度量标准对于构建、监控和比较代理人的修订至关重要。像收入或用户参与度这样的业务指标可能超出了代理本身的作用范围，但这些指标应该是北极星度量衡为您的代理人。大多数经纪人都是为了实现目标而设计的，所以目标完成率这是一项关键指标，需要跟踪。同样，一个目标可能被分解为几个关键任务或关键用户交互。每个这些关键任务和交互都应该独立地进行工具化和测量。在我们的详细讨论代理商本身之前，我们已经识别出了一些可以轻松在仪表板上跟踪的指标。每一项业务指标、目标或关键互动都将按照熟悉的方式来汇总：尝试、成功、比率等。此外，从任何应用程序遥测系统中可以获取的指标对代理商来说也非常重要，如延迟、错误等指标。这些指标并不特指代理商，您可以为任何软件跟踪它们，但对代理商构建者来说更为重要。确定性代码只做你让它做的事情，而代理商可以做更多的事情，依赖于在大量数据上训练的LLMs。这些高级指标的工具化是可观测性的重要组成部分。您可以将其视为代理商的关键绩效指标（KPI），并允许从总体上进行可观测性，这是您代理商的更高层次视角。人类反馈是其中一个更关键的性能指标。简单的点赞或踩一脚，或者用户反馈表，在代表或任务背景下，可以大大帮助了解你的智能体哪里做得好，哪里需要改进。这种反馈可以来自消费者系统的最终用户，也可以来自员工、质量保证测试员，以及审查智能体的流程或领域专家。更详细的可观察性对于构建智能体也非常重要，能够看到并理解智能体在做什么以及为什么这么做。智能体可以通过“跟踪”功能来记录所有内部工作情况，而不仅仅是关键任务和用户交互。您可以从概念上讲，将每个内部步骤作为指标来衡量，但这很少被这样做。相反，当指标或手动测试显示问题时，这些详细痕迹被用来调试智能体，你可以深入细节，看看出了什么问题。截至目前，我们一直在谈论业务指标、目标、任务、人为反馈和痕迹——这些都是理解您的代理商在生产中的行动和影响的方式。而在开发代理商时，除了人工测试之外，长期来看自动化测试将更加高效，并能提供更多关于代理商行为的洞察。代理商评估为了弥合从概念验证到生产就绪的人工智能代理之间的差距，一个强大且自动化的评估框架至关重要。与评估生成模型不同，其重点主要在最终输出，代理评估需要更深入地理解决策过程。代理评估可以分为三个组成部分，我们将在本章中进行讨论： 1.评估代理能力：评估代理商的核心能力，例如其理解指令和逻辑推理的能力。 2.评估轨迹和工具使用：分析代理人解决问题所采取的步骤，包括其选择的工具、策略及其方法的效率。 3.评估最终响应：评估代理最终输出的质量、相关性和正确性。评估代理商能力在评估您具体的代理用例之前，公开可用的基准和技术报告可以提供关于核心能力和局限性的见解，这些是构建代理用例时需要考虑的因素。对于大多数基础代理能力，如模型性能、幻觉、工具调用和规划，都存在公共基准。例如，工具调用，即选择和使用合适工具的能力，通过像伯克利函数调用排行榜（BFCL）这样的基准得到展示。16和 τ-bench。17这还列出了常见错误。另一个例子，PlanBench。18旨在评估规划与推理能力，涵盖多个领域和具体能力。但是工具调用和规划并不是你应该考虑的唯一能力。智能体从它们的LLM及其其他组件中继承行为。同样，智能体与用户交互在传统的对话设计系统和工作流程系统中也有历史，因此可以继承用于确定这些系统效力的指标和测量方法。综合型智能体基准如AgentBench19尽力捕捉多个场景下端到端性能。当场景反映您的代理用例时，这更具有现实性，但如果是在测试您的代理未实现的函数时则不然。同时具体和一般地模拟环境、工具、指令和用例需求是困难的。公司和组织正在为特殊的用例如Adyen的数据分析师排行榜DBAStep构建公共基准。20这可能会让您获得更具针对性的评估——如果您了解评估方法和位于排行榜上的参与者。公共基准是一个宝贵的起点，可以了解可能实现的内容并识别需要注意的陷阱。大多数基准评估都包括对常见失败模式的讨论，这可以指导您建立自己的、特定用例的评估框架。除了公开评估，你还需要评估代理人在各种场景下的行为，以确保它能完成你所期望的任务。你正在模拟与代理人的互动，并评估其响应。这包括评估最终响应以及它所采取的一系列步骤（轨迹）。这是我们推荐你开始时采用的最常见且实用的两种方法。除此之外，还有很多其他的评估技巧，你可以用于更细化的子组件或更广泛的方法。软件工程师会把这比作代码的自动化测试。投资于自动化测试能节省你的时间，并增加你对你正在建设的软件的信心。使用代理，这种自动化能更快地见到效果，无论是在时间上还

点击免费查看完整报告

智能体伙伴

Agents Companion 总结

概述

代理架构

AgentOps

代理成功指标

代理评估

评估方法

多代理系统

多代理架构设计模式

代理的重要组成部分

多代理系统面临的挑战

多代理评估

Agentic RAG

企业中的代理

从代理到承包商

Google Co-Scientist 案例研究

汽车人工智能：多代理架构的实际应用

代理构建器

总结

未来方向

你可能感兴趣

【机构龙虎榜解读】机器人英伟达氢能源可控核聚变子公司是英伟达生成式AI生态伙伴，对其相关成功应用案例英伟达表示高度认可，并在CES展会·上进行了多模态展示，这家公司获净买入

【财联社早知道】重磅! OpenAI今夏将推GPT-5 会带来质的飞跃，这家公司自研的干亿参数大模型可以覆盖大模型应用的所有场景;这家微软、AMD伙伴可提供AIGC生成式AI本地化解决方案-20240321

“一带一路”疫苗伙伴：中国疫苗的国际生产和供给

有色金属周报（氧化铝与电解铝）：特朗普签署对贸易伙伴的对等关税备忘录，美联储降息预期时点由9月提前至7月

为卫生工作多伙伴信托基金 2019 年年度报告

跨境电商行业研究：Tik Tok跨境电商高速发展，生态伙伴共同繁荣

阿里云出海伙伴体系白皮书

2021中国车企科技伙伴洞察研究报告（含榜单）

船上的新伙伴

事业伙伴计划完成购买，促进业绩长期成长

智能体伙伴

你可能感兴趣

【机构龙虎榜解读】机器人英伟达氢能源可控核聚变 子公司是英伟达生成式AI生态伙伴，对其相关成功应用案例英伟达表示高度认可，并在CES展会·上进行了多模态展示，这家公司获净买入

【财联社早知道】重磅! OpenAI今夏将推GPT-5 会带来质的飞跃，这家公司自研的干亿参数大模型可以覆盖大模型应用的所有场景;这家微软、AMD伙伴可提供AIGC生成式AI本地化解决方案-20240321

“一带一路”疫苗伙伴：中国疫苗的国际生产和供给

有色金属周报（氧化铝与电解铝）：特朗普签署对贸易伙伴的对等关税备忘录，美联储降息预期时点由9月提前至7月

为卫生工作多伙伴信托基金 2019 年年度报告

跨境电商行业研究：Tik Tok跨境电商高速发展，生态伙伴共同繁荣

阿里云出海伙伴体系 白皮书

2021中国车企科技伙伴洞察研究报告（含榜单）

船上的新伙伴

事业伙伴计划完成购买，促进业绩长期成长

【机构龙虎榜解读】机器人英伟达氢能源可控核聚变子公司是英伟达生成式AI生态伙伴，对其相关成功应用案例英伟达表示高度认可，并在CES展会·上进行了多模态展示，这家公司获净买入

阿里云出海伙伴体系白皮书