您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[清华大学]:大模型工具学习 - 发现报告

大模型工具学习

AI智能总结
查看更多
大模型工具学习

秦禹嘉THUNLP 背景 工具和情报 •工具是人类能力的延伸,旨在提高生产力、效率和解决问题的能力 •纵观历史,人类一直是发明和操纵工具的主要媒介•问题:人工智能在工具使用方面能像人类一样有能力吗? 工具和情报 •基础模型的答案是肯定的 •较强的语义理解•广泛的世界知识•强大的推理和计划能力... 工具和情报 •工具学习[1]:基础模型可以遵循人类指令和操纵工具来解决任务 工具学习的分类 •工具增强学习 •具有来自工具的执行结果的扩充基础模型•工具被视为有助于产生高质量产出的补充资源 工具学习的分类 •面向工具的学习 •利用模型来管理工具并代替人类做出顺序决策•利用基础模型的广阔世界知识和推理能力进行复杂的推理和规划 框架 框架 意图理解 •理解指令的基本目的 •学习从指令空间到模型认知空间的映射 •指令调整 •用不同的指令包装任务•监督微调•非凡的泛化能力 [1]精细语言模型是零分学习者[2]多任务提示训练可实现零镜头任务概括[3]OPT - IML:通过镜头扩展语言模型指令元学习泛化 意图理解 •扩大模型大小和指令调整数据集的多样性•泛化能力的增强 •挑战 •理解模糊指令:用户查询中的模糊和歧义 •理论上的无限指令空间:无限表达和个性化指令 工具理解 •通过提示激发工具理解 •零拍提示: •描述API功能,其输入/输出格式,可能的参数等。 •少量提示: •向模型提供具体的工具使用演示•通过从这些演示中模仿人类行为,模型可以学习如何利用这些工具 工具理解 •通过提示激发工具理解 规划与推理 •内省推理 •在不与环境交互的情况下生成静态计划 规划与推理 •内省推理 •如果提示适当,PLM可以有效地将高级任务分解为中级计划,而无需任何进一步的培训 规划与推理 •外向推理 •挑战:基础模型没有体现或扎根于物理世界•解决方案:约束模型提出既可行又符合上下文的自然语言动作 规划与推理 •外向推理 •内心独白[1]:将各种反馈来源的信息注入模型规划 规划与推理 •多步骤多工具方案 •人类不会坚持一个场景和一个工具 •了解不同工具之间的相互作用 •模型不仅要了解单个工具,还要了解它们的组合用法并对工具进行逻辑排序 •从顺序执行到并行执行•工具不必顺序执行,并行执行导致叠加效果 •从单代理问题解决到多代理协作 •复杂的任务通常需要多个代理之间的协作,每个代理都有其独特的专业知识 培训策略 •从演示中学习:通常涉及(人类)注释•从反馈中学习:通常涉及强化学习 •监督学习• 克隆人类行为以使用搜索引擎•监督微调+强化学习•只需要6, 000个注释数据 WebCPM •动机 •WebGPT不是公开的,其内部运作仍然不透明 •我们的努力(WebCPM) •开源交互式网络搜索界面•第一个涉及交互式网络搜索的公共QA数据集,也是第一个中国LFQA数据集•框架和模型实现 WebCPM •接口(搜索模式)和预定义的操作 WebCPM WebCPM •我们的框架由两个模型组成: •1.搜索模型,包括:•行动预测模块•搜索查询生成模块•支持事实提取模块 •2.信息综合模型 WebCPM 对于T个步骤的动作序列,搜索模型执行动作以收集支持事实,这些支持事实被发送到合成模型以用于答案生成。 WebCPM 整体管道评价(基于人类偏好)模型生成的答案v. s.人类注释支持事实的三个来源被发送到综合模型(1)管道收集,(2)人工收集,(3)非交互式搜索(TF - IDF) Webshop •学习进行网上购物 Toolformer •自监督工具学习 •预定义的工具API•鼓励模型调用和执行工具API•设计自监督损失,看看工具执行是否可以帮助语言建模 工具创建 •从工具用户到工具创建者 •人类是从石器时代到21世纪创造和使用工具的主要媒介•大多数工具是为人类创造的,而不是AI •为模型制作的工具 •模块化:将工具组成较小的单元•新的输入和输出格式:更可计算且适用于AI 工具创建 工具创建 •现有工程的限制 •大多数现有工作往往集中在有限数量的工具上•用于确定工具最佳利用率的模型所采用的推理过程本质上是复杂的•当前管道在检索执行结果后缺乏错误处理机制 •我们不是让LLM充当工具的用户,而是让他们成为创造者[1] 工具创建 •四个程序 •创建•Decision•Execution•整改 工具创建 •实验 •数据:数学、TabMWP •对PoT和纯CoT的重大改进 应用程序 ChatGPT插件 •OpenAI官方工具库 •为ChatGPT提供更广泛的应用程序•通过简单地提供带有描述的API,ChatGPT能够调用应用程序并完成更复杂的任务 开源解决方案 •BMTools •一个开源存储库,可扩展语言模型以使用工具,并作为社区构建和共享工具的平台 开源解决方案 •特点: •用户可以通过编写python函数并使用外部ChatGPT - Plugins轻松构建新插件•用户可以托管其本地模型(例如LLaMA、CPM)以使用工具 开源解决方案 •特点: •支持30 +工具工具,欢迎投稿! Huggingface模型 谷歌学者 开源解决方案 •特点: •支持BabyAGI和AutoGPT •100k +工具-使用SFT数据的方式! 开源解决方案 开源解决方案 •ToolBench •一种开源,大规模,高质量的指令调整SFT数据,以促进一般的工具使用能力•我们提供数据集,相应的训练和评估脚本,以及在ToolBench上微调的强大模型ToolLLaMA 开源解决方案 •功能 •支持单工具和多工具方案 •ToolBench提供的响应不仅包括最终答案,而且还包含模型的思想链过程,工具执行和工具执行结果 •多步骤决策和工具执行 •另一个值得注意的优势是我们的API的多样性,它是为现实世界的场景而设计的 •98k实例,312k API调用 开源解决方案 •施工工艺 •所有数据都由OpenAI API自动生成,然后进行过滤,整个数据创建过程易于扩展 开源解决方案 •创建过程 •我们提供数据集,相应的训练和评估脚本,以及一个强大的模型ToolLLaMA 开源解决方案 •评价 •ToolLLaMA与ChatGPT在工具使用方面的能力相匹配•ChatGPT自动评估(越高越好) Summary •传统的语言任务(几乎)得到了很好的解决 •句法分析、实体识别、情感分析... •我们面临着更具挑战性的任务! •基础模型可以通过使用语言在复杂的场景中利用,性能可能在很大程度上依赖于LLM的有效性 •理论问题依然存在 •实际问题仍然存在 工具学习论文列表 https: / / github. com / thunlp / ToolLearningPapers 谢谢 秦禹嘉THUNLP