行业研究公司研究宏观策略财报招股书会议纪要海南封关低空经济 DeepSeek AIGC 大模型

AI Agent，硅谷新风口

信息技术2023-09-03刘高畅国盛证券S***

AI智能总结

智能助手与AI代理的融合与演进

规划+记忆+工具：AI代理的关键组件

加速发展的AI代理：随着大模型在各行各业的应用，AI代理（人工智能体）进入了快速发展阶段。
规划、记忆、工具使用：AI代理通过这三个关键组件显著提高了大模型处理复杂任务的能力。规划能力将任务分解为可管理的子任务；记忆能力帮助模型存储关键信息；工具使用能力允许模型调用外部工具，弥补自身能力的不足。

智能助理的兴起与生态构建

定义与特性：智能助理作为AI代理的一个子集，专注于提供日常服务和生活辅助，强调与用户的自然语言交互。
生态构建：智能助理生态包括终端载体、云端智能实现和应用端生态建设。大模型、应用和硬件厂商需协同合作，以满足用户需求。
工具生态加速：ChatGPT插件的引入推动了智能助理工具生态的快速构建，使得AI代理可以访问网络、调度第三方服务，增强其功能性。
终端与云端协同：智能助理依赖云端的大模型能力，但终端需实现软硬件一体化，以承载部分功能。
合规与个性化：智能助理需针对不同场景进行个性化调整，确保操作简洁、合规和准确。

投资机会与风险

投资建议：聚焦智能助理相关的硬件厂商，如科大讯飞、漫步者、传音控股和中科创达。
风险提示：AI技术迭代缓慢、经济衰退和行业竞争加剧均可能对产业链造成负面影响。

结论

本文综述了AI代理的发展趋势，特别是规划、记忆、工具使用三大组件在优化大模型应用中的作用。智能助理作为AI代理的一种特殊形式，以其独特的应用场景和交互方式展现了大语言模型的强大潜力。随着技术的进步和应用生态的构建，智能助理有望成为连接人与科技的重要桥梁，为企业和消费者带来革命性的改变。然而，AI技术的迭代速度、经济环境的变化以及行业竞争的加剧均为未来发展带来了不确定性，需要持续关注和应对。

规划+记忆+工具，AI Agent三大组件优化大模型应用。随着大模型的应用落地千行百业，以大模型为核心的AI Agent（人工智能体）进入了加速发展期:1）OpenAI安全系统负责人Lilian Weng撰文讨论了以大模型作为核心控制器来建造AI Agent的概念，并梳理了当下AI Agent三大核心组件“规划、记忆、工具使用”的相关技术发展。AI Agent通过三个关键组件，提高了大模型在面对复杂任务时的处理能力。2）OpenAI的联合创始人安德烈·卡尔帕西提出，AI Agent的吸引力在于OpenAI和DeFi等机构尚未处在技术的前沿，市场里的其他玩家有着赶超的机会。虽然OpenAI在大模型上比别人快一步，但在AI Agent领域，当下研究都处在同一条起跑线上。智能助理是一类面向服务、交互的AI Agent。智能助理与用户进行自然语言交互以协助完成各种任务，可以认为是AIAgent的一个子集。在应用领域上智能助理通常更侧重于日常任务和生活辅助，同时智能助理通常更注重与用户的交互，设计简单易用，主要以语音交互为主，而其他类型的AI代理可能更多地运行在后台与用户直接交互较少。我们认为在AI技术进步浪潮下，智能助理是最能展现大语言模型优势的超级应用之一。AI Agent的能力核心在GPT为代表的LLM，但LLM在更新新信息、处理多轮对话，和面对复杂任务时依然存在局限。AI Agent通过增加规划、记忆和工具使用三大能力克服了这些局限，极大扩展了大语言模型的应用范围，使其能够胜任更加复杂的任务，这为AI Agent扮演智能助理的角色提供了可能。ChatGPT 插件的发布加速了智能助理工具生态的构建，目前ChatGPT的插件商城已有数百个插件。智能助理解耦式的生态正在形成。智能助理生态的核心可解耦为终端载体的软硬件实现以及应用端本身的智能化，同时匹配云端的基础设施建设。大模型厂商、应用厂商和智能硬件厂商都需要在生态构建过程中持续迭代，不断相互匹配，以更好的满足用户需求。智能助理的终端需要软硬件一体实现。云端需要大模型的基础能力以及针对智能助理的微调，应用端需要与大模型打通走向智能化。智能硬件厂商通过实现软硬一体智能助理可获取更大价值。耳机、手机、音箱等智能硬件将是近期智能助理的核心终端载体。原本在智能硬件领域有所积累的厂商，积极将大模型技术结合居家和移动场景，一方面有提升销量的机会，一方面有通过软件服务获取更大价值的机会。作为智能助理载体的耳机、音箱相比单一音频设备，终端的价值量将有望提高、同时随着智能助理渗透到用户生活中，可以在产品中加入订阅服务或者广告投放，未来可能产生类似目前手机安卓和iOS生态的耳机、音箱智能助理生态，智能硬件厂商可以类似手机厂商一样向应用软件厂商收取渠道费用。建议关注：智能助理（耳机/手机/音箱）：漫步者、科大讯飞、传音控股、中科创达。风险提示：AI技术迭代不及预期风险；经济下行超预期风险；行业竞争加剧风险。一、规划+记忆+工具，AI Agent三大组件优化大模型应用随着大模型的应用落地千行百业，以大模型为核心的AI Agent（人工智能体）进入了加速发展期。当下较为成熟的例子包括基于GPT-4的Auto-GPT、GPT-Engineer、BabyAGI等等。近日，OpenAI的联合创始人、特斯拉自动驾驶AI部门的前负责人安德烈·卡尔帕西（Andrej Karpathy）分享了他对AI Agent的潜力和未来挑战的见解。在他看来，AI Agent的吸引力在于OpenAI和DeFi等机构尚未处在技术的前沿，市场里的其他玩家有着赶超的机会。虽然OpenAI在大模型上比别人快一步，但在AI Agent领域，当下研究都处在同一条起跑线上。浙江大学一篇探讨人工智能体的论文中将AI Agent定义为：一个运行于动态环境中的、具有较高自治能力的实体（即自治体，可以是系统、机器，也可以是一个计算机软件程序等等）。其根本目标是接受另一个实体（即主体，可以是用户、计算机程序、系统或机器等）的委托并为之提供帮助或服务，能够在目标任务的驱动下主动采取包括学习、通讯、社交等各种手段感知、适应其外在环境的动态变化，并作出适当的反应。简单来说，AI Agent以大模型为核心驱动力，在此基础上增加了规划（Planning）、记忆（Memory）和工具使用（Tool Use）三个关键组件，以提高大模型在面对复杂任务时的处理能力。图表1：基于大模型的AI Agent系统流程图近日，OpenAI安全系统负责人Lilian Weng撰文讨论了以大模型作为核心控制器来建造AI Agent的概念，并梳理了当下AI Agent三大核心组件——规划、记忆、工具使用——的相关技术发展。（一）规划通常情况下，一项复杂的任务往往涉及许多步骤。AI Agent需要首先拆解这些步骤，并提前做好计划。任务的分解的环节可以由三种方式完成：1）在大模型输入简单的提示，比如“XYZ的步骤”，或者“实现XYZ的子目标是什么？”；2）使用特定任务的指令，比如在需要写小说的时候要求大模型“写一个故事大纲”；3）通过人工提供信息。当下普遍的技术模式包括思维链和思维树：思维链（Chainof Thoughts）已成为一种标准的提示技术，用于提高模型在复杂任务中的表现。模型被要求“一步一步地思考”，将艰巨的任务分解为更小更简单的步骤。思维链将大任务转化为多个可管理的任务，并帮助人们理解模型的思维过程。思维树（Tree of Thoughts）通过在任务的每一步探索多种推理可能性来扩展思维链。它首先将问题分解为多个思考步骤，并在每个步骤中生成多个想法，从而创建一个树状结构。搜索过程可以是BFS（广度优先搜索）或DFS（深度优先搜索）。另一方面，试错和纠错在现实世界的任务决策中是不可避免且至关重要的步骤。自我反思帮助AI Agent完善过去的行动决策、纠正以前的错误、从而不断改进。当下的技术包括ReAct、Reflexion、后见链（ChainofHindsight）等： ReAct：将任务中单独的行为和语言空间组合在一起，从而使大模型的推理和行动融为一体。该模式帮助大模型与环境互动（例如使用维基百科搜索API），并以自然语言留下推理的痕迹。图表2：使用ReAct的提示模版来帮助大模型推理 Reflexion：一个让AIAgent具备动态记忆和自我反思能力以提高推理能力的框架。沿用了ReAct中的设置，并提供简单的二进制奖励。每次行动后，AI Agent都会计算一个启发式函数，并根据自我反思的结果决定是否重置环境以开始新的试验。这个启发式的函数可以判断是否当下的路径效率低下（耗时过长却没有成功）或包含幻觉（在环境中遇到一连串导致相同观察结果的相同行动），并在出现这两种情况下终止函数。图表3：Reflexion框架的流程图后见链（ChainofHindsight）：通过向模型明确展示一系列过去的输出结果，鼓励模型改进自身的输出结果，使得下一次预测的行动比之前的试验取得更好的成绩。算法蒸馏（AlgorithmDistillation）将同样的理念应用于强化学习任务中的跨集轨迹。图表4：算法蒸馏（AlgorithmDistillation）在强化学习中的流程图（二）记忆记忆本质上是获取、存储、保留和检索信息的过程。人脑中的记忆可以分为感官记忆、短期记忆、长期记忆三类。在大模型和AIAgent的语境下，我们可以将这三类记忆和相关的环节一一对应：感官记忆=学习原始输入（包括文本、图像或其他模式）的嵌入表征。短时记忆=上下文学习。由于受到Transformer有限上下文窗口长度的限制，它是短暂和有限的。长期记忆=外部矢量存储。AI Agent可在查询时加以关注，并可通过快速检索进行访问。图表5：人脑记忆的类型为了解决有限记忆时间的限制，通常会用到外部存储器。常见的做法是将信息的嵌入表示保存到可支持快速的最大内积搜索（MIPS）的向量存储数据库中。常见的实现MIPS的几种ANN算法包括：LSH（Locality-Sensitive Hashing）、ANNOY（Approximate Nearest Neighbors Oh Yeah）、HNSW（Hierarchical Navigable Small World、FAISS（Facebook AI Similarity Search）等等。图表6：MIPS算法效率对比（三）工具的使用正如同人类创造、修改和利用外部物体来完成超越身体和认知极限的事情，大模型也可以通过配备外部工具来扩展模型的功能。当下技术包括MRKL、TALM、Toolformer等等： MRKL（Modular Reasoning，Knowledge and Language）：全称为“模块化推理、知识和语言”，MRKL是一种用于AI Agent的神经符号架构。MRKL系统包含一系列的“专家”模块，而通用大模型负责将用户的需求引导至最合适的专家模块。这些模块可以是神经模块（如深度学习模型），也可以是符号模块（如数学计算器、货币转换器、天气API等）。研究者曾使用算术和计算器作为测试案例，对大模型进行了微调实验。实验表明，由于大模型无法可靠地为基本算术提取正确的参数，因此解决口头数学问题比解决有着明确说明的数学问题更加困难。这也说明了，只有当大模型了解何时以及如何使用外部符号工具的时候，这些工具才可靠地发挥作用时。 TALM和Toolformer：这两者都会对LM进行微调，使其学会使用外部工具API。数据集根据新添加的API调用注释是否能提高模型输出的质量进行扩展。工具API可以由其他开发人员提供（如插件），也可以自行定义（如函数调用）。ChatGPT的插件和OpenAI API的函数调用都是增强了工具使用能力的大模型在实践中发挥作用的良好范例。当下，使用工具的范例AI Agent之一为HuggingGPT。这是一个利用LLM（例如ChatGPT）连接机器学习社区中的各种AI模型来解决任务的框架，可根据模型描述选择HuggingFace平台中可用的模型，并根据执行结果总结响应。该系统包括任务规划、模型选择、任务执行、生成响应四个模块。图表7：HuggingGPT的运行流程二、智能助理是面向服务、交互的AI Agent 智能助理可以看作是一类面向服务、交互的AI Agent。智能助理利用大语言模型等人工智能技术来实现智能对话和协助服务，用于与用户进行自然语言交互以协助完成各种任务，可以认为是AI Agent的一个子集。与一般的AI Agent不同，智能助理的特别之处在于： 1.应用领域上，智能助理通常更侧重于日常任务和生活辅助，如日程管理、消费娱乐等，主要面向终端用户。而AI代理可在企业内部使用，应用于更广泛的领域，如数据分析、自动交易、工业自动化等。 2.交互性上，智能助理通常更注重与用户的交互，需要要设计得相对简单，易于使用，主要以语音交互为主，而其他类型的AI代理可能涉及更复杂的功能，可能更多地运行在后台，与用户的直接交互较少。我们认为，在这一轮大模型的AI技术进步浪潮下，智能助理是最能展现大语言模型优势的的超级应用之一。从原理上说，AI Agent的核心能力来源于是类似ChatGPT的预训练大语言模型。但仅仅依靠大语言模型还不够，为了使AI Agent能够完成更复杂的任务，还需要增加规划、记忆和工具使用等关键能力。GPT为代表的LLM已经展现出强大的语言理解生成能力，但仍存在一些局限。首先，LLM的模型难以即使基于新信息进行调整；其次，LLM难以记住多轮对话的上下文信息，最后，LLM处理复杂任务也较为困难。AI Agent通过增加规划、记忆和工具使用三大能力克服了这些

点击免费查看完整报告