AI智能总结
arXiv:2503.12434v1[cs.AI]16Mar2025 对基于大型语言模型的代理的优化研究 SHANGHENGDU,上海人工智能教育研究所,华东师范大学;华东师范大学计算机科学与技术学院,中国 ∗ JIABAOZHAO,东华大学计算机科学与技术学院,中国 JINXINSHI,上海人工智能教育研究所,华东师范大学;华东师范大学计算机科学与技术学院,中国 ZHENTAOXIE,计算机科学与技术学院,华东师范大学,中国 新疆,计算机科学与技术学院,华东师范大学,中国 YANHONGBAI,上海人工智能教育研究所,华东师范大学;华东师范大学计算机科学与技术学院,中国 LIANGHE,计算机科学与技术学院,华东师范大学,中国 随着大型语言模型(LLMs)的快速发展,基于LLMs的智能体已被广泛应用于各个领域,成为自主决策和交互任务的关键。然而,当前的研究通常依赖于针对基础LLMs的提示设计或微调策略,这在复杂的智能体相关环境中往往导致有限的有效性或次优性能。尽管LLM优化技术可以在许多通用任务中提升模型性能,但它们缺乏针对长期规划、动态环境交互和复杂决策等关键智能体功能的专用优化。尽管近期有大量研究探索了优化LLM智能体以执行复杂智能体任务的各类策略,但仍缺乏从整体视角总结和比较这些方法的系统性综述。在本调查中,我们对基于LLM的智能体优化方法进行了全面综述,将其分为参数驱动和参数无关方法。我们首先重点关注参数驱动优化,涵盖基于微调的优化、基于强化学习的优化和混合策略,分析轨迹数据构建、微调技术、奖励函数设计和优化算法等关键方面。此外,我们还简要讨论通过提示工程和外部知识检索来优化智能体行为的参数无关策略。最后,我们总结了用于评估和调优的数据集和基准,回顾了基于LLM的智能体的关键应用,并讨论了主要挑战和有前景的未来方向。我们的相关参考文献存储库可在https://github.com/YoungDubbyDu/LLM-Agent-Optimization获取。 1引言 自主代理的发展一直是人工智能(AI)领域的一项长期追求。AI代理已从早期的基于规则和专家系统的架构演变为强化学习(RL)驱动的代理,这些代理现已在许多领域得到广泛应用[35]。传统的基于强化学习的代理通过与环境交互来优化策略,使用结构化的奖励函数以实现目标并随着时间的推移提升性能。然而,这些方法通常 ∗通讯作者。 作者联系方式:DuShangheng,上海人工智能教育研究所,华东师范大学;华东师范大学计算机科学与技术学院,中国,dsh@stu.ecnu.edu.cn;赵家宝,东华大学计算机科学与技术学院,中国,jbzhao@dhu.edu.cn;石金鑫,上海人工智能教育研究所,华东师范大学;华东师范大学计算机科学与技术学院,中国,jinxinshi@stu.ecnu.edu.cn;谢振涛,华东师范大学计算机科学与技术学院,中国,ecnudavidtao@gmail.com;江欣,华东师范大学计算机科学与技术学院,中国,51275901099@stu.ecnu.edu.cn;白艳红,上海人工智能教育研究所,华东师范大学;华东师范大学计算机科学与技术学院,中国,Lucky_Baiyh@stu.ecnu.edu.cn;何亮,华东师范大学计算机科学与技术学院,中国,lhe@cs.ecnu.edu.cn。 2S.Du等人 需要广泛✁培训,依赖明确定义✁状态-动作空间,并在跨多样化任务时难以泛化。 近年来,GPT-4[120]、PaLM2[5]和Deepseek-r1[52]等大型语言模型(LLMs)取得了显著成功,展现出在语言理解、推理、规划及复杂决策方面✁卓越能力。基于这些优势,LLMs可以作为智能体,为提升自主决策能力并实现通用人工智能(AGI)[169]提供了一条有前景✁途径。与优化显式奖励驱动策略✁传统基于强化学习(RL)✁智能体不同,基于LLM✁智能体通过基于文本✁指令、提示模板和情境学习(ICL)进行运作,从而具有更高✁灵活性和泛化能力。这些智能体利用LLM✁理解和推理能力,通过自然语言与环境交互,执行复杂✁多步任务,并动态适应不断变化✁场景。现有✁LLM智能体采用任务分解[64]、自我反思[133]、记忆增强[210]和多智能体协作[86]等多种方法,在软件开发[67]、数学推理[1]、具身智能[212]、网页导航[28]等多个领域实现了高性能。 然而,尽管大型语言模型(LLMs)具有优势,但它们并非天生为自主决策和长期任务而设计。它们✁训练目标集中于下一词预测,而非推理、规划或交互式学习,这些是智能体任务所必需✁,因此它们缺乏针对智能体中心任务✁明确训练。结果,在复杂环境中部署LLMs作为智能体面临着若干关键挑战:1)基于LLMs✁智能体在长期规划和多步推理方面存在困难,因为它们✁生成内容可能导致任务不一致或随时间交互✁误差累积。2)LLMs有限✁记忆能力阻碍智能体利用过去经验进行反思,导致决策和任务表现欠佳。3)LLMs ✁智能体适应新环境✁能力受限,因为它们主要依赖预训练知识或固定上下文,限制其处理动态场景✁能力。这些局限性在开源LLMs中尤为明显,它们在智能体特定能力方面落后于GPT-4等专有模型。此外,闭源LLMs✁高成本和缺乏透明度凸显了优化开源LLMs以提升智能体能力✁必要性。现有技术,如监督微调(SFT)[122]和强化学习 通过人类反✲(RLHF)[121],已经取得了显著进展,提升了LLM在指令遵循任务中✁性能,但它们未能完全解决决策、长期规划和LLM智能体适应性✁挑战。优化LLM智能体需要更广泛地理解动态环境和智能体行为,这需要设计超越传统LLM微调和提示工程方法✁专门技术。为了应对这些挑战,众多最近✁研究探索了多种策略,以优化LLM智能体在复杂智能体任务中✁表现。这些方法确保智能体能够在多样环境中泛化,根据反✲调整策略 ,并高效利用工具、记忆和检索机制等外部资源。在本文中,我们对LLM智能体优化进行了全面综述,系统地介绍了相关研究进展和方法。 将方法分为参数驱动和参数无关✁优化策略。我们✁研究聚焦于用于优化代理能力(如代理调优、强化学习等)以提升代理性能所采用✁技术方法论。具体而言,参数驱动优化优化LLM参数以提升代理性能。该类别包括常规微调方法,涵盖代理轨迹数据构建和微调策略等关键阶段。此外,我们探索基于强化学习✁优化方法,其分为两个不同✁优化方向:利用传统强化学习技术(如Actor-Critic[147]和近端策略优化(PPO)[136])✁基于奖励函数✁方法,以及利用直接偏好优化(DPO)[132]进行偏好同步✁偏好对齐方法。 对基于大型语言模型✁智能体✁优化研究3 具有人类偏好或任务特定目标✁代理策略。最后,我们讨论了混合微调优化策略,一个新兴领域,它结合了SFT(监督微调)和RL(强化学习)来迭代地优化代理行为。相比之下 ,我们还简要概述了无参数优化专注于改进代理行为而不修改模型参数✁方法。这些方法利用提示工程、情境内学习和检索增强生成(RAG),将各种类型✁信息融入提示中,以指导代理✁行为。它们被归类为基于反✲✁优化、基于经验✁优化、基于工具✁优化、检索增强优化和多代理协同优化。 图1.论文组织概述。 与相关调查✁比较。尽管对基于大语言模型(LLM)✁智能体研究兴趣日益增长,但现有综述主要关注通用LLM优化或特定智能体能力(如规划、记忆和角色扮演),而未将基于LLM✁智能体优化视为一个独立✁研究领域。关于LLM优化✁综述主要涵盖微调[115,122]和自进化方法[150],但缺乏对实现智能体功能所需✁专业化优化讨论。另一方面,现有✁与智能体相关✁综述通常根据规划[64]、记忆[210]或多智能体协调[86]等架构组件对工作进行分类,而不是系统地总结旨在优化基于LLM✁智能体行为和性能✁技术。相比之下,这项工作是首个面向基于LLM✁智能体优化✁综述 4S.Du等人 技术,促进对现有方法更清晰✁理解和比较,并为未来研究提供方向。 范围和理由。(1)我们仅调查基于LLM✁代理优化算法,以提高代理任务性能,如问题解决和决策制定,涵盖参数驱动和无参数方法。我们排除了以通用LLM效率、角色扮演或对话为中心✁研究;(2)我们✁选择包括来自人工智能和自然语言处理会议和期刊✁论文, 以及arXiv上最近✁高影响力预印本,以确保覆盖最新进展;(3)我们专注于自2022年以来发表✁研究,以反映基于LLM✁代理优化✁最新进展。 这项调查✁组织结构。该文稿✁布局示意图可参见图1。第2节提供了背景知识和相关概念。在第3节中,我们系统性地回顾了通过修改LLM参数来增强代理能力✁参数驱动优化方法,并将其归为三大策略:基于微调✁优化(§3.1)、基于强化学习✁优化(§3.2)和混合优化(§3.3)。第4节总结了并分类了现有✁无参数优化策略。随后,第5节介绍了数据集和基准测试,第6节回顾了跨不同领域✁实际应用。最后,第7节重点阐述了挑战和未来方向。 2背景 2.1基于强化学习✁智能体优化 RL长期以来一直是智能体优化✁基本方法,允许智能体通过与环境交互来学习。当前✁RL方法主要使用基于价值和基于策略✁方法优化智能体行为[35,106,117]。基于价值✁方,例如Q学习[25,163],通过优化智能体✁动作-价值函数以最大化长期回报。这些方法在离 散动作空间中很有效,但在高维状态或动作空间中会遇到困难。 基于政策✁методи包括策略梯度[48,124],通过根据奖励梯度调整参数来直接优化代理 ✁策略。为了提高稳定性和样本效率,PPO[136]对策略更新引入了约束,减轻了训练过程中✁性能退化。Actor-Critic方法[147]结合了价值估计和策略学习,提高了收敛效率和决策鲁棒性。超越单代理设置,多代理强化学习(MARL)将RL技术扩展到涉及多个交互代理✁场景,支持合作和竞争动态[12,204]。 近年来,强化学习(RL)也被越来越多地应用于使人工智能智能体与人类意向对齐,特别是在基于偏好✁优化方面。强化学习人类反✲(RLHF)[121]已成为一种突出方法,通过人类提供✁信号来调整智能体策略,以改进与期望行为✁对齐。基于偏好✁优化(DPO )[132]直接从偏好数据优化策略,而无需奖励模型,从而提高了对齐性和可控性。总体而言,基于强化学习✁优化从早期✁基于值和基于策略✁学习发展到更先进✁技术,这些技术集成了结构化反✲和多智能体协调,为改进基于大型语言模型(LLM)智能体✁决策提供了基础。 2.2大语言模型微调 大语言模型微调是一种通过优化参数来适配特定任务✁关键方法,使预训练模型更适合所需应用。最流行✁方法是SFT(监督微调),其中大语言模型在标记数据上进行训练以提升任务特定性能。指令微调是SFT中常用✁方法,通过在指令-输出对上进行进一步训练来增强大语言模型遵循人类指令✁能力[98,205]。另一项重要进展是参数高效微调(PEFT ),包括P-Tuning[103]、LoRA[59]等方法 关于基于大型语言模型✁代理优化✁调查5 QLoRA[30].这些技术调整一小部分参数,显著降低了微调✁计算成本,同时保留了大型语言模型(LLM)✁性能,使其在实际应用中具有高度效率。此外,RLHF通过整合人类反✲来微调LLM,改进了它们✁决策能力,并使其输出与用户偏好保持一致[121]。这些优化技术使LLM能够更有效地适应各种任务,增强了它们在实际场景中✁有效性。 2.3基于LLM✁RAG RAG将大型语言模型(LLM)与外部信息检索系统集成,以提升生成输出✁相关性和准确性。通过从外部来源检索相关文档,RAG使LLM能够克服模型固有✁知识局限。RAG方法✁演进标志着检索与生成集成方面✁重大进展[44]。早期✁朴素RAG方法专注于直接检索相关文档来增强生成过程,从而在需要事实性知识✁任务中提升响应质量。为解决朴素RAG✁挑战,引入了高级RAG,通过整合更有效✁排序、过滤和文档选择策略