行业研究公司研究宏观策略财报招股书会议纪要稀土低空经济 DeepSeek AIGC 智能驾驶大模型

大模型工具学习

机械设备2023-08-08DataFunSummit2023：大模型与AIGC峰会邵***

AI智能总结

背景与问题

工具是人类能力的扩展，而人工智能能否像人类一样使用工具是核心问题。基础模型具备强大的语义理解、广泛的世界知识和推理能力，因此能够使用工具。

工具学习的分类

工具学习分为两类：

工具增强学习：将工具视为互补资源，使用工具的执行结果增强基础模型。
面向工具的学习：利用模型管理工具并做出顺序决策，代替人类进行复杂推理和规划。

工具学习框架

工具学习框架包括以下步骤：

意图理解：
- 通过指令调整（如 Instruction Tuning）理解指令的基本目的。
- 扩大模型大小和指令调整数据集的多样性以增强泛化能力。
- 理解模糊指令，理论上无限指令空间支持个性化指令。
工具理解：
- 通过零射提示描述 API 功能、输入/输出格式等。
- 通过少拍提示提供具体工具使用演示，模型模仿人类行为学习工具使用。
规划与推理：
- 内省推理：生成静态计划而不与环境交互，模型可分解高层任务为中层计划。
- 外向推理：生成考虑环境和反馈变化的动态计划，通过约束模型提出可行且符合上下文的语言行动。
- 多步骤多工具方案：了解不同工具的相互作用，模型应能逻辑排序工具并支持并行执行。
- 多代理协作：复杂任务需要多个代理协作，每个代理具备独特专业知识。

培训策略

从演示中学习：通常涉及人类注释。
WebGPT：使用监督学习和强化学习，仅需 6,000 个注释数据。
WebCPM：公开的交互式网络搜索 QA 数据集，框架由搜索模型和信息综合模型组成，整体管道评价基于人类偏好。
Webshop：学习进行网上购物。
Toolformer：自我监督工具学习，鼓励模型调用和执行工具 API，设计自监督损失评估工具执行是否有助于语言建模。

工具创建

人类是工具创造和使用的主要媒介，大多数工具为人类创造而非 AI。
为模型制作的工具：模块化，新的输入和输出格式更适用于 AI。
现有工程限制：集中在有限工具，推理过程复杂，缺乏错误处理机制。
工具创建程序：整改。
实验结果：在数学和 TabMWP 数据集上对 PoT 和纯 CoT 显著改进。

应用程序

ChatGPT 插件：通过提供带有描述的 API，使 ChatGPT 调用应用程序完成复杂任务。
开源解决方案：
- 支持用户构建新插件，托管局部模型（如 LLaMA、CPM）使用工具。
- 支持 30+ 工具，欢迎贡献。
- 特点：支持 BabyAGI 和 AutoGPT，100k+ 工具使用 SFT 数据的方式。
- ToolBench：开源、大规模、高质量的指令调整 SFT 数据，促进工具使用能力。
  - 特点：支持单工具和多工具方案，提供模型思想链过程、工具执行和结果。
  - 多步骤决策和工具执行，API 为现实场景设计。
  - 数据创建过程易于扩展，提供数据集、训练和评估脚本，以及 ToolLLaMA 模型。

总结

传统语言任务已得到较好解决，而更具挑战性的任务需要基础模型在复杂场景中利用工具。工具学习的性能主要依赖于大规模语言模型的有效性，未来需探索在复杂场景中利用工具学习，理论问题和实际问题仍需解决。

秦禹嘉 qyj20 @ mails. tsinghua. edu. cnTHUNLP 背景工具和情报 • 工具是人类能力的扩展，旨在提高生产力，效率和解决问题的能力 • 纵观历史，人类一直是主要代理人在工具的发明和操纵中 • 问题: 可以人工智能能像人类一样使用工具吗？工具和情报 • 基础模型的答案是肯定的 • 强大的语义理解 • 广泛的世界知识 • 强大的推理和计划能力... 工具和情报 •工具学习 [1] ：基础模型可以跟随人类用于任务解决的指令和操作工具 [1] 秦，于佳，等。 “基础模型的工具学习 ” 。 arXiv 预印本 arXiv ： 2304.08354(2023) 。工具学习的分类 • 工具增强学习 • 工具被视为互补资源这有助于产生高质量的产出• 使用工具的执行结果增强基础模型工具学习的分类 •面向工具的学习 • 利用模型来管理工具和做出顺序决策代替人类 • 利用基础模型的广阔世界知识和推理能力进行复杂的推理和规划框架框架意图理解 • 理解指令的基本目的• 学习从指令空间到模型认知空间的映射 • Instruction Tuning • 用不同的指令包装任务 • 监督微调• 非凡的泛化能力意图理解 • 扩大模型大小和指令调整数据集的多样性 • 增强泛化能力 • Understanding模糊指令：用户查询中的模糊和歧义 • 理论上无限指令空间：无限的表达和个性化的指令工具理解 • 通过提示激发工具理解 • 零射提示: • 描述 API 功能、它们的输入 / 输出格式、可能的参数等。 • 允许模型了解每个 API 可以处理的任务 • 少拍提示: • 向模型提供具体的工具使用演示通过从这些演示中模仿人类行为，模型可以学习如何利用这些工具工具理解 • 通过提示激发工具理解规划与推理 • Introspective Reasoning • 生成静态计划而不与环境交互 • 外向推理 • 生成考虑环境和反馈变化的动态计划规划与推理 •内省推理 • 如果适当提示，PLMs可以有效地将高层任务分解为中层计划而无需任何进一步的训练。规划与推理 •外向推理 • 挑战：基础模型没有体现或扎根于物理世界 • 解决方案：将模型约束为提出既可行又符合上下文的语言行动。规划与推理 • 外向推理 • 内心独白 [1] ：将各种反馈来源的信息注入模型规划规划与推理人类不会坚持一个场景和一个工具• 多步骤多工具方案 • 了解不同工具之间的相互作用 • 模型不仅应该了解单个工具，还应该了解它们的组合用法并对工具进行逻辑排序 • 从顺序执行到并行执行 • 工具不必顺序执行，并行执行导致叠加效果 • 从单代理问题解决到多代理协作 • 复杂的任务通常需要多个代理之间的协作，每个代理都有其独特的专业知识培训策略从演示中学习：通常涉及(人类) 注释 WebGPT •监督学习 • 克隆人类行为以使用搜索引擎 • 监督微调 + 强化学习• 只需要 6, 000 个注释数据 WebCPM •动机 WebGPT 不是公开的，其内部运作仍然不透明我们的努力(WebCPM) • The第一次公开涉及交互式网络搜索的 QA 数据集，也是第一个中国 LFQA 数据集 • 框架和模型实施 WebCPM • 界面(搜索模式) 和预定义的操作 WebCPM • 我们的框架由两个模型组成：搜索模型, 包括:• 行动预测模块 • 搜索查询生成模块• 支持事实提取模块 • 2. 信息综合模型 WebCPM 对于 T 个步骤的动作序列，搜索模型执行操作以收集支持事实，这些事实是发送到综合模型答案生成。 WebCPM 整体管道评价基于人类偏好：模型生成的答案 vs. 人工标注三类支持事实被发送给综合模型：（1）管道收集的事实，（2）人类收集的事实，（3）非交互式搜索（TF-IDF）。 Webshop •学习进行网上购物 Toolformer • 自我监督工具学习 • 预定义的工具API• 鼓励模型调用和执行工具API• 设计自监督损失以评估工具执行是否有助于语言建模工具创建 • 从工具用户到工具创建者人类是从石器时代到 21 世纪创造和使用工具的主要媒介大多数工具都是为人类创造的，而不是 AI •为模型制作的工具 • 模块化：将工具组成较小的单位 • 新的输入和输出格式：更可计算且适用于 AI 工具创建工具创建现有工程的限制 • 大多数现有工作往往集中在有限数量的工具上 · 用于确定工具最佳利用率的模型所采用的推理过程本质上是复杂的 • 当前管道在检索执行结果后缺乏错误处理机制 • 我们不是让 LLM 充当工具的用户，而是让他们成为创作者 [1] 工具创建 •四个程序• 整改工具创建 •实验 • 数据: 数学、 TabMWP• 对 PoT 和纯 CoT 的显著改进应用程序 ChatGPT 插件 •OpenAI 官方工具库 • Empower ChatGPT 与更广泛的应用程序通过简单地提供带有描述的 API ， ChatGPT 能够调用应用程序并完成更复杂的任务开源解决方案 • 一个开源仓库，扩展语言模型以使用工具，并作为社区构建和分享工具的平台。开源解决方案 • 特点: • 用户可以轻松构建new插件通过编写 python 函数和使用外部 ChatGPT 插件 • 用户可以托管他们的局部模型(如 LLaMA 、 CPM) 使用工具开源解决方案 • 特点: • 支持 30 + 工具工具，欢迎贡献！数据库天气 API Huggingface 模型谷歌学者开源解决方案 •特点: • SupportBabyAGIand AutoGPT • 100k + 工具使用 SFT 数据的方式！开源解决方案开源解决方案 •ToolBench • 开源，大规模，高质量的指令调整 SFT 数据，以促进一般的工具使用能力 • 我们提供了数据集、相应的训练和评估脚本，以及一个在ToolBench上fine-tuned的具备强大功能的模型ToolLLaMA。开源解决方案 • Features • 支持单工具和多工具方案 • ToolBench 提供的响应不仅包括最终答案，还包括模型的思想链过程、工具执行和工具执行结果 • 多步骤决策和工具执行 • 另一个值得注意的优势是多样性我们的 API ，它是为现实世界的场景而设计的 • 98k 实例， 312k API 调用开源解决方案 • Construction Process • 所有数据均由OpenAI API自动生成并随后过滤，整个数据创建过程易于扩展。 https: / / github. com / OpenBMB / ToolBench 开源解决方案 • Creation Process • 我们提供数据集，相应的训练和评估脚本，以及一个强大的模型 ToolLLaMA https: / / github. com / OpenBMB / ToolBench 开源解决方案 • Evaluation • ToolLLaMA 匹配 ChatGPT 在工具使用中的功能• ChatGPT 自动评估(越高越好) Summary • 传统的语言任务(几乎) 得到了很好的解决• 句法分析，实体识别，情感分析... • 我们面临着更具挑战性的任务！ • 基础模型可以通过语言在复杂场景中得到利用，其性能可能主要依赖于大规模语言模型的有效性。 • 探索在复杂场景中利用工具学习• 理论问题依然存在• 实际问题仍然存在工具学习论文列表 https: / / github. com / thunlp / ToolLearningPapers 谢谢秦禹嘉 qyj20 @ mails. tsinghua. edu. cnTHUNLP

点击免费查看完整报告