您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国盛证券]:AI Agent,硅谷新风口 - 发现报告

AI Agent,硅谷新风口

信息技术2023-09-03刘高畅国盛证券S***
AI智能总结
查看更多
AI Agent,硅谷新风口

规划+记忆+工具,AI Agent三大组件优化大模型应用。随着大模型的应 用落地千行百业,以大模型为核心的AI Agent(人工智能体)进入了加速发 展期:1)OpenAI安全系统负责人Lilian Weng撰文讨论了以大模型作为核心 控制器来建造AI Agent的概念,并梳理了当下AI Agent三大核心组件“规 划、记忆、工具使用”的相关技术发展。AI Agent通过三个关键组件,提高 了大模型在面对复杂任务时的处理能力。2)OpenAI的联合创始人安德烈·卡 尔帕西提出,AI Agent的吸引力在于OpenAI和DeFi等机构尚未处在技术 的前沿,市场里的其他玩家有着赶超的机会。虽然OpenAI在大模型上比别 人快一步,但在AI Agent领域,当下研究都处在同一条起跑线上。 智能助理是一类面向服务、交互的AI Agent。智能助理与用户进行自然语 言交互以协助完成各种任务,可以认为是AIAgent的一个子集。在应用领 域上智能助理通常更侧重于日常任务和生活辅助,同时智能助理通常更注重 与用户的交互,设计简单易用,主要以语音交互为主,而其他类型的AI代 理可能更多地运行在后台与用户直接交互较少。我们认为在AI技术进步浪 潮下,智能助理是最能展现大语言模型优势的超级应用之一。AI Agent的能 力核心在GPT为代表的LLM,但LLM在更新新信息、处理多轮对话,和面 对复杂任务时依然存在局限。AI Agent通过增加规划、记忆和工具使用三大 能力克服了这些局限,极大扩展了大语言模型的应用范围,使其能够胜任更 加复杂的任务,这为AI Agent扮演智能助理的角色提供了可能。ChatGPT 插件的发布加速了智能助理工具生态的构建,目前ChatGPT的插件商城已 有数百个插件。 智能助理解耦式的生态正在形成。智能助理生态的核心可解耦为终端载体的 软硬件实现以及应用端本身的智能化,同时匹配云端的基础设施建设。大模 型厂商、应用厂商和智能硬件厂商都需要在生态构建过程中持续迭代,不断 相互匹配,以更好的满足用户需求。智能助理的终端需要软硬件一体实现。 云端需要大模型的基础能力以及针对智能助理的微调,应用端需要与大模型 打通走向智能化。智能硬件厂商通过实现软硬一体智能助理可获取更大价 值。耳机、手机、音箱等智能硬件将是近期智能助理的核心终端载体。原本 在智能硬件领域有所积累的厂商,积极将大模型技术结合居家和移动场景, 一方面有提升销量的机会,一方面有通过软件服务获取更大价值的机会。作 为智能助理载体的耳机、音箱相比单一音频设备,终端的价值量将有望提高、 同时随着智能助理渗透到用户生活中,可以在产品中加入订阅服务或者广告 投放,未来可能产生类似目前手机安卓和iOS生态的耳机、音箱智能助理生 态,智能硬件厂商可以类似手机厂商一样向应用软件厂商收取渠道费用。 建议关注: 智能助理(耳机/手机/音箱):漫步者、科大讯飞、传音控股、中科创达。 风险提示:AI技术迭代不及预期风险;经济下行超预期风险;行业竞争加 剧风险。 一、规划+记忆+工具,AI Agent三大组件优化大模型应用 随着大模型的应用落地千行百业,以大模型为核心的AI Agent(人工智能体)进入了加速发展期。当下较为成熟的例子包括基于GPT-4的Auto-GPT、GPT-Engineer、BabyAGI等等。近日,OpenAI的联合创始人、特斯拉自动驾驶AI部门的前负责人安德烈·卡尔帕西(Andrej Karpathy)分享了他对AI Agent的潜力和未来挑战的见解。在他看来,AI Agent的吸引力在于OpenAI和DeFi等机构尚未处在技术的前沿,市场里的其他玩家有着赶超的机会。虽然OpenAI在大模型上比别人快一步,但在AI Agent领域,当下研究都处在同一条起跑线上。 浙江大学一篇探讨人工智能体的论文中将AI Agent定义为:一个运行于动态环境中的、具有较高自治能力的实体(即自治体,可以是系统、机器,也可以是一个计算机软件程序等等)。其根本目标是接受另一个实体(即主体,可以是用户、计算机程序、系统或机器等)的委托并为之提供帮助或服务,能够在目标任务的驱动下主动采取包括学习、通讯、社交等各种手段感知、适应其外在环境的动态变化,并作出适当的反应。 简单来说,AI Agent以大模型为核心驱动力,在此基础上增加了规划(Planning)、记忆(Memory)和工具使用(Tool Use)三个关键组件,以提高大模型在面对复杂任务时的处理能力。 图表1:基于大模型的AI Agent系统流程图 近日,OpenAI安全系统负责人Lilian Weng撰文讨论了以大模型作为核心控制器来建造AI Agent的概念,并梳理了当下AI Agent三大核心组件——规划、记忆、工具使用——的相关技术发展。 (一)规划 通常情况下,一项复杂的任务往往涉及许多步骤。AI Agent需要首先拆解这些步骤,并提前做好计划。任务的分解的环节可以由三种方式完成:1)在大模型输入简单的提示,比如“XYZ的步骤”,或者“实现XYZ的子目标是什么?”;2)使用特定任务的指令,比如在需要写小说的时候要求大模型“写一个故事大纲”;3)通过人工提供信息。 当下普遍的技术模式包括思维链和思维树: 思维链(Chainof Thoughts)已成为一种标准的提示技术,用于提高模型在复杂任务中的表现。模型被要求“一步一步地思考”,将艰巨的任务分解为更小更简单的步骤。思维链将大任务转化为多个可管理的任务,并帮助人们理解模型的思维过程。 思维树(Tree of Thoughts)通过在任务的每一步探索多种推理可能性来扩展思维链。它首先将问题分解为多个思考步骤,并在每个步骤中生成多个想法,从而创建一个树状结构。搜索过程可以是BFS(广度优先搜索)或DFS(深度优先搜索)。 另一方面,试错和纠错在现实世界的任务决策中是不可避免且至关重要的步骤。自我反思帮助AI Agent完善过去的行动决策、纠正以前的错误、从而不断改进。当下的技术包括ReAct、Reflexion、后见链(ChainofHindsight)等: ReAct:将任务中单独的行为和语言空间组合在一起,从而使大模型的推理和行动融为一体。该模式帮助大模型与环境互动(例如使用维基百科搜索API),并以自然语言留下推理的痕迹。 图表2:使用ReAct的提示模版来帮助大模型推理 Reflexion:一个让AIAgent具备动态记忆和自我反思能力以提高推理能力的框架。沿用了ReAct中的设置,并提供简单的二进制奖励。每次行动后,AI Agent都会计算一个启发式函数,并根据自我反思的结果决定是否重置环境以开始新的试验。这个启发式的函数可以判断是否当下的路径效率低下(耗时过长却没有成功)或包含幻觉(在环境中遇到一连串导致相同观察结果的相同行动),并在出现这两种情况下终止函数。 图表3:Reflexion框架的流程图 后见链(ChainofHindsight):通过向模型明确展示一系列过去的输出结果,鼓励模型改进自身的输出结果,使得下一次预测的行动比之前的试验取得更好的成绩。算法蒸馏(AlgorithmDistillation)将同样的理念应用于强化学习任务中的跨集轨迹。 图表4:算法蒸馏(AlgorithmDistillation)在强化学习中的流程图 (二)记忆 记忆本质上是获取、存储、保留和检索信息的过程。人脑中的记忆可以分为感官记忆、短期记忆、长期记忆三类。在大模型和AIAgent的语境下,我们可以将这三类记忆和相关的环节一一对应: 感官记忆=学习原始输入(包括文本、图像或其他模式)的嵌入表征。 短时记忆=上下文学习。由于受到Transformer有限上下文窗口长度的限制,它是短暂和有限的。 长期记忆=外部矢量存储。AI Agent可在查询时加以关注,并可通过快速检索进行访问。 图表5:人脑记忆的类型 为了解决有限记忆时间的限制,通常会用到外部存储器。常见的做法是将信息的嵌入表示保存到可支持快速的最大内积搜索(MIPS)的向量存储数据库中。常见的实现MIPS的几种ANN算法包括:LSH(Locality-Sensitive Hashing)、ANNOY(Approximate Nearest Neighbors Oh Yeah)、HNSW(Hierarchical Navigable Small World、FAISS(Facebook AI Similarity Search)等等。 图表6:MIPS算法效率对比 (三)工具的使用 正如同人类创造、修改和利用外部物体来完成超越身体和认知极限的事情,大模型也可以通过配备外部工具来扩展模型的功能。当下技术包括MRKL、TALM、Toolformer等等: MRKL(Modular Reasoning,Knowledge and Language):全称为“模块化推理、知识和语言”,MRKL是一种用于AI Agent的神经符号架构。MRKL系统包含一系列的“专家”模块,而通用大模型负责将用户的需求引导至最合适的专家模块。这些模块可以是神经模块(如深度学习模型),也可以是符号模块(如数学计算器、货币转换器、天气API等)。研究者曾使用算术和计算器作为测试案例,对大模型进行了微调实验。实验表明,由于大模型无法可靠地为基本算术提取正确的参数,因此解决口头数学问题比解决有着明确说明的数学问题更加困难。 这也说明了,只有当大模型了解何时以及如何使用外部符号工具的时候,这些工具才可靠地发挥作用时。 TALM和Toolformer:这两者都会对LM进行微调,使其学会使用外部工具API。 数据集根据新添加的API调用注释是否能提高模型输出的质量进行扩展。 工具API可以由其他开发人员提供(如插件),也可以自行定义(如函数调用)。ChatGPT的插件和OpenAI API的函数调用都是增强了工具使用能力的大模型在实践中发挥作用的良好范例。 当下,使用工具的范例AI Agent之一为HuggingGPT。这是一个利用LLM(例如ChatGPT)连接机器学习社区中的各种AI模型来解决任务的框架,可根据模型描述选择HuggingFace平台中可用的模型,并根据执行结果总结响应。该系统包括任务规划、模型选择、任务执行、生成响应四个模块。 图表7:HuggingGPT的运行流程 二、智能助理是面向服务、交互的AI Agent 智能助理可以看作是一类面向服务、交互的AI Agent。智能助理利用大语言模型等人工智能技术来实现智能对话和协助服务,用于与用户进行自然语言交互以协助完成各种任务,可以认为是AI Agent的一个子集。 与一般的AI Agent不同,智能助理的特别之处在于: 1.应用领域上,智能助理通常更侧重于日常任务和生活辅助,如日程管理、消费娱乐等,主要面向终端用户。而AI代理可在企业内部使用,应用于更广泛的领域,如数据分析、自动交易、工业自动化等。 2.交互性上,智能助理通常更注重与用户的交互,需要要设计得相对简单,易于使用,主要以语音交互为主,而其他类型的AI代理可能涉及更复杂的功能,可能更多地运行在后台,与用户的直接交互较少。 我们认为,在这一轮大模型的AI技术进步浪潮下,智能助理是最能展现大语言模型优势的的超级应用之一。从原理上说,AI Agent的核心能力来源于是类似ChatGPT的预训练大语言模型。但仅仅依靠大语言模型还不够,为了使AI Agent能够完成更复杂的任务,还需要增加规划、记忆和工具使用等关键能力。GPT为代表的LLM已经展现出强大的语言理解生成能力,但仍存在一些局限。首先,LLM的模型难以即使基于新信息进行调整; 其次,LLM难以记住多轮对话的上下文信息,最后,LLM处理复杂任务也较为困难。AI Agent通过增加规划、记忆和工具使用三大能力克服了这些