AI智能总结
Samuel Schmidgall1, 2, Yusheng Su 1、王泽1、孙锡盟1、吴嘉莲1、俞晓东1, 刘江1、刘子城1和 Emad Barsoum112AMD , 约翰霍普金斯大学 历史上,科学发现过程漫长且耗费巨大,从最初的概念构思到最终结果需要投入大量的时间和资源。为了加速科学发现进程并降低研究成本,代理实验室 提高研究质量 , 我们介绍, 一个基于自主LLM的框架,能够完成整个研究过程。该框架接受由人类提供的研究想法,并依次通过文献回顾、实验和报告撰写三个阶段,生成全面的研究输出,包括代码库和研究报告,而代理实验室 使用户能够在每个阶段提供反馈和指导。我们部署通过邀请多位研究先进的人工智能模型(LLM)的研究人员参与调查,提供人力反馈以指导研究过程,然后评估最终论文。代理实验室 我们发现 :(1)由o1-preview驱动产生最佳研究结果;(2)生成的机器学习代码在与现有方法相比时能够达到最先进的性能;(3)人类参与,在每个阶段提供反馈,显著提高了性能。代理实验室 研究的总体质量 ;(4)显著降低研究费用 , 实现代理实验室 相比之前自主开发的研究方法,减少了84%。我们希望这能使研究人员将更多精力投入到创意构思而非低级编码和写作中,最终加速科学发现。 图 1代理实验室接受人类研究想法和一组笔记作为输入,并将这些内容提供给一系列专门的基于LLM的代理,最终生成研究报告和代码库。 1. Introduction 科学家们经常面临限制,这些限制限制了他们可以在任何给定时间探索的研究想法的数量,导致根据预测的影响来优先考虑这些想法。虽然这一过程有助于确定哪些概念值得投入时间和如何最有效地分配有限的资源,但许多高质量的想法仍然未被探索。如果探索想法的过程没有那么多限制,研究人员将能够同时研究多个概念,从而增加科学发现的可能性。 为了实现这一目标,近期的工作探索了大型语言模型(LLM)在研究构想和自动化论文生成方面的能力,其中LLM代理承担了人类科学家的角色(where LLM agents perform the role of humanscientists)。Baek 等人。(2024);Ghafarollahi & Buehler(2024b);Lu 等人。(2024a);斯旺森等人。(2024)) 。的工作Baek 等人。(2024) 引入了ResearchAgent,这是一个能够自动生成研究想法、方法和实验设计的系统,并通过来自多个审查代理的反馈迭代优化这些内容,这些审查代理模拟同行讨论并利用与人类价值观对齐的评估标准来提升输出质量。Lu 等人。(2024a) 探索了完全自动化的论文生成,其中,《AI科学家》框架能够生成新颖的研究想法、编写代码、开展实验,并使用自动化同行评审系统来评估研究成果。尽管这些研究工作表明当前的大语言模型(LLMs)能够生成被认为比人类专家产生的更具创新性的想法,Si 等人。(2024) 表明,大语言模型(LLMs)在可行性及实施细节方面仍存在不足,这suggesting 了在研究中LLMs应发挥辅助而非替代的作用。因此,我们旨在设计一个自主代理管道,以协助人类实现自己的研究想法。 在这项工作中 , 我们介绍代理实验室, 一个自主的管道,用于加速个体进行机器学习研究的能力。与以往的方法不同,在那些方法中代理独立于人类输入来进行自己的研究构想(Baek 等人。(2024);Lu 等人。(2024b)),代理实验室旨在帮助人类科学家使用语言代理执行自己的研究想法。代理实验室 接受人类研究想法作为输入,并生成由自主语言代理产出的研究报告和代码库,允许不同程度的人类参与,反馈可以根据用户偏好提供的频率进行。我们对该项目的贡献详细列表如下: 1. 我们介绍代理实验室一个开源的LLM代理框架,旨在加速个体在机器学习领域进行研究的能力。为了满足所有用户的需求,代理实验室计算资源灵活可变,根据个体对计算资源(例如CPU、GPU、内存)和模型推理 预算的访问程度,可以分配不同程度的计算能力。 2. Human evaluators rated papers generated using代理实验室在实验质量、报告质量和实用性方面进行了评估,结果显示,虽然o1-preview后端被认为最具实用性,但o1-mini在实验质量评分中最高,而gpt-4o在所有指标中均处于落后地位。 3. 类似于NeurIPS的评估表明,在后端中,o1-preview表现最佳,特别是在清晰度和严谨性方面,根据人工评审员的评价。然而,人工评估与自动化评估之间出现了一个明显的差距,自动化评分显著高估了质量(总体评分为6.1/10,而人工评分为3.8/10)。类似的差异也出现在清晰度和贡献度等指标上,这表明需要通过人工反馈来补充自动化评估,以获得更准确的研究质量评估。 4. 在Agent Laboratory中,协 pilots 模式在自定义和预选主题上的评估显示整体得分高于自主模式。协 pilots 论文也看到了权衡trade-offs。 在实验质量和有用性方面 , 反映了在使代理输出与研究人员意图保持一致方面的挑战。代理实验室 5. 中的副驾驶功能 当被人类用户评级时 , 大多数参与者决定在他们的经验 6. 详细的成本和推断时间统计 , 以及每个纸张阶段的成本细分 ,为不同的模型后端呈现 , 表明代理实验室报价与其他作品相比 , 价格大大降低的自动研究 (每只需 2.33 美元带有 gpt - 4o 后端的纸张) 。7. 使用拟议的mle - 解算器 , 与其他求解器相比 , 实现更高的一致性和得分 , 并获得更多奖牌 ,包括金和银 , 而不是 MLAB , OpenHands 和 AIDE 。 我们希望这项工作能促进机器学习领域的科学发现加速,使研究人员能够将更多精力投入到创意构思和实验设计上,而不是低级的编码和撰写工作中。 2. 背景及相关工作 大型语言模型该论文中的研究代理基于自回归大型语言模型(LLMs),这些模型经过大量文本语料库训练,以 预测词元的条件概率(token)。序列 ,푝(푥|푥 휃)푥∼· 푡 <푡; , 并通过采样生成文本完成 , 其中푡softmax푊 ℎ)푡, withℎ 푡作为隐藏状态和푊作为学习的权重矩阵映射到令牌概率。 LLM 利用变换器架构 (Vaswani(2017)) 以捕获文本中的远程依赖关系。这些模型 , 例如 Claude (人类(2024)) , 美洲驼 (Dubey 等人。(2024);Touvron 等人。(2023a,b)) 和 ChatGPT (Achiam 等人。(2023);赫斯特等人。(2024);OpenAI(2022:),通过利用庞大的数据集和扩展技术,从而能够在预训练过程中学习到的模式泛化应用到新的输入上,进而执行一系列基于语言的任务,如翻译、总结和推理。棕色(2020). LLM 代理 尽管大型语言模型(LLMs)展现出强大的理解能力和推理能力,但在执行现实世界场景中的任务时仍面临挑战。为了克服这些局限性,通过结构化的框架扩展了它们的能力,使它们能够自主或半自主地执行任务执行(任务执行)。Chen et al.(2023b);李等人。(2023);钱等人。(2024);吴等人。(2023)) 。这些系统 , 被称为代理 , 利用诸如思想链提示 (魏等人。(2022)、迭代细化 (Shinn et al.(2024)) 、自我完善 (Huang 等人。(2022)) , 以及执行复杂工作流的外部工具集成 (郝等 人。(2024);秦等人。(2023);Schick 等人。(2023)) 。 LLM 代理在解决具有现实世界意义的任务方面取得了显着进展 , 例如软件工程希门尼斯等人。(2023);Wang 等人。(2024b);Yang et al.(2024) 、网络安全 (阿布拉莫维奇等人。(2024);方等人。(2024);Wan 等人。(2024)) 和医疗诊断 (McDuff 等人。(2023);Schmidgall 等 人。(2024);Tu 等人。(2024)) 。在将 LLM 代理应用于诸如自主机器人 (布莱克等人。(2024);Brohan 等人。(2022,2023);Kim 等人。(2024) 、 Web 任务 (邓等人。(2024);古尔等人。(2023);他等。(2024);Putta et al.(2 024);Shi et al.(2017)) , 和玩游戏 (AL et al.(2024);冯等人。(2024);Wang 等人。(2023)) 。有关 LLM 代理的更广泛概述 , 请参阅Wang 等人。(2024a). 自动化机器学习自动机器学习是活跃的研究领域,许多方法侧重于使用 Kaggle(一个在线的机器学习竞赛平台) 作为评估代理性能的标准基准。值得注意的努力包括 MLE-Bench。Chan et al.(2024)) , DS - 工作台 (Jing 等人。(2024)) 和 MLAgentBench (Huang 等人。(2024)) 哪些提议使用75、74和6号Kaggle挑战作为基准,以衡量机器学习代理在数据准备、模型开发和提交等任务上的能力。已经引入了多种能够解决机器学习挑战的“ML求解器”,例如AIDE(Automated Intelligent Data Entry)。施密特等人。(2024) , CodeActAgent (简称为 “OpenHands ”) (Wang 等人。(2024b)) , 以及 MLAgentBench 的 ResearchAgent (简称 “MLAB ”) (Huang 等人。(2024)) 的功能实现、 bug 修复和代码重构自动化 , 成功率很高。代理 K (Grosnit 等人。(2024)) 通过提供的挑战 URL 作为输入 , 展示了在人类层面解决 Kaggle 挑战的能力。 科学发现中的 AIAI 已经被用于多个学科支持科学发现数十年。例如,在数学领域(AI 已被用于发现)。Romera - Paredes 等人。(2024) 、材料科学 (商人等人。(2023);Pyzer - Knapp 等人。(2022);Szymanski 等人。(2023) 、化学 (Hayes et al.(2024);Jumper 等人。(2021) 、算法发现 (Fawzi 等人。 (2022)) 和计算生物学 (丁等人。(2024)) 。这些方法将人工智能定位为一种工具 , 而不是在自主研究中进行研究的代理人。 研究相关任务的 LLMLLM 在各种研究相关任务中表现出强大的能力 , 例如代码生成 (Chen et al.(2021);Nijkamp 等人。(2022)) , 端到端软件开发 (Hai 等人。(2024);潘等人。(2024);钱等人。(2023,2024) , 用于发现的代码生成 (Chen et al.(2024b);Ghafarollahi & Buehler(2024a);Gu 等人。(2024);郭等人。(2024);胡等人。(2024b);Ifargan et al.(2024);Majumder 等人。(2024)) , 研究问答 (Chen et al.(2024a);L á la et al.(2023);Lin et al.(2024);Song et al.(2024)) 、研究构想 (Baek 等人。(2024);Ghafarollahi & Buehler(2024b);李等人。(2024a);Si 等人。(2024)), 自动化论文审阅 (D 'Arcy 等人。(2024);Liang 等人。(2024);Lu 等人。(2024b);翁 等人。(2024) 、文献检索 (Ajith et al.(2024);康 & 熊(2024);李等