您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [未知机构]:ToolOrchestra通过高效模型与工具编排提升智能20260121 - 发现报告

ToolOrchestra通过高效模型与工具编排提升智能20260121

2026-01-21 未知机构 曾阿牛
报告封面

2026年01月22日14:44 关键词 大模型后训练强化学习工具调用效率专用模型小语言模型调度器端到端偏好奖励成本效率用户偏好数据集GRPO算法多轮推理结果奖励训练集合成数据判定标准成本效益 全文摘要 团队研发的TOCA系统运用端到端的强化学习技术,旨在优化大模型的工具兼容能力,提升其在复杂推理任务中的表现。该系统专注于训练一个小型调度器,能够灵活调用多种工具和模型解决复杂问题,同时兼顾成本效率和用户偏好。TOCA克服了传统模型工具调用中自我增强偏执和过度依赖最强工具的局限。 ToolOrchestra-通过高效模型与工具编排提升智能-20260121_导读 2026年01月22日14:44 关键词 大模型后训练强化学习工具调用效率专用模型小语言模型调度器端到端偏好奖励成本效率用户偏好数据集GRPO算法多轮推理结果奖励训练集合成数据判定标准成本效益 全文摘要 团队研发的TOCA系统运用端到端的强化学习技术,旨在优化大模型的工具兼容能力,提升其在复杂推理任务中的表现。该系统专注于训练一个小型调度器,能够灵活调用多种工具和模型解决复杂问题,同时兼顾成本效率和用户偏好。TOCA克服了传统模型工具调用中自我增强偏执和过度依赖最强工具的局限。面对有限资源,团队探索了替代解决方案,并展望了未来在多奖励优化下系统表现的改进方向。 章节速览 00:00端到端强化学习优化大模型工具兼容能力 研究通过端到端的强化学习方法,旨在优化大模型的工具兼容能力,提升其在复杂推理任务中的表现。该研究聚焦于增强模型的多轮工具调用能力,提高工具调用效率,同时引入更多样化的工具,如agent和专用模型,以解决更复杂的问题。通过训练一个调度器,能够调用多种工具和模型,实现更高效、更广泛的工具利用。 03:54小语言模型与工具调用能力的优化探索 讨论了小语言模型在构建系统时的优势,包括成本效益和架构适配性。提出了增强模型工具调用能力的目标,旨在泛化至新工具,并通过端到端强化学习优化性能与效率。分析了直接提示方法的局限性,如自我增强偏见和无视成本问题,强调了在多样化工具空间中设计专门训练方法的必要性。探索了成本效率与用户偏好的平衡,以提升系统任务完成质量。 07:09基于强化学习的工具调用优化方法 提出了一种通过端到端强化学习训练的小型语言模型调度器方法,该方法在多轮推理场景下,通过结果奖励、效率奖励和偏好奖励的三类奖励信号来优化模型,以在正确的时间调用正确的工具并以最优效率完成任务。训练过程中引入了同质性过滤、格式一致性过滤和无效输出过滤规则,以解决训练不稳定的问题。 12:38构建高质量训练数据集以提升语言模型工具调用能力 介绍了一种两阶段数据生成流程,旨在创建高质量训练数据集以增强语言模型在工具调用上的能力。首先,模拟真实用户、智能体和工具环境交互,生成数据库schema、领域核心主题及工具API。其次,基于环境生成多样化用户任务及标准答案,通过增加任务难度和过滤无效任务,确保数据质量。最终,利用生成数据集进行强化学习训练,并设定执行正确性、过程一致性和操作完整性三项标准,以评估模型轨迹是否成功完成任务。 16:09强化学习训练提升模型在复杂基准测试中的性能 通过强化学习训练,8B模型在humanity last exam基准测试上达到37%准确率,优于带工具的GPT5。模型展现出高效工具调度能力,成本降低三倍,推理速度提升2.5倍。研究还分析了模型工具调用模式,揭示了自我增强偏执和他者增强品质现象,证明8B模型在成本效益、泛化能力和适应用户偏好方面有显著优势。 22:10多奖励优化与GDPO算法:提升强化学习训练稳定性 讨论了多奖励优化在强化学习中的重要性及当前GRPO方法的局限性,特别是奖励信号坍缩问题。提出了一种新算法GDPO,通过分别对每个奖励进行归一化处理,有效保留奖励间的差异,显著提升了训练稳定性和模型性能。GDPO在工具调用、数学推理和代码推理三个任务上均优于GRPO,证明了其在多奖励强化学习优化中的优越性和应用潜力。 28:47多奖励强化学习在编排问题中的应用与资源优化探讨 讨论了在有限资源下,如何通过近似替代方案推进编排工作,包括基于训练和基于提示的方法。提及了使用较小模型进行探索的可能性,以及在样本效率低下时,可参考的路由器训练方法。最后,分享了不同规模模型在编排效果上的测试结果,指出模型越大效果越好,但受限于资源,未测试超大规模模型。 32:38模型训练与过滤机制讨论 对话围绕模型训练中的过滤机制、模型区分度、以及基于千问38B模型的训练细节展开。讨论了在模型梯度更新半径内进行过滤的可能性,以及如何通过语言描述区分能力相近的模型。提及了训练过程中工具的调用方式,强调了防止模型过度耦合的重要性。此外,还涉及了GRPO工作的最新进展,以及与具有自主目标代理在架构设计上的区别。 37:11基础模型、编排能力与工具生态的协同进化 讨论了基础模型在编排能力和工具生态中的核心作用,强调小而强大的开源模型适合快速训练和复杂任务解决,未来需发展更丰富的专业工具生态,以及对模型输出压缩技术的探索,以提升效率和适应性。 发言总结 发言人1 他,英伟达研究员刁思哲,介绍了团队的最新研究项目TOCA,通过端到端的强化学习技术来优化大型模型在工具调用上的兼容性和效率,特别是针对计算密集型的复杂推理任务。他强调了工具对提升语言模型性能的重要性,并探讨了如何通过引入多样化工具以及强化学习的方法,来增强模型对工具的调用能力。此外,讨论了使用较小的语言模型作为调度器的策略,以及通过训练来增强模型对不同工具的泛化使用能力。最后,发言人分享了他们在多奖励优化领域的新进展,提出了一种名为GDPO的算法,以有效解决多奖励优化过程中的挑战,并展示了该算法在多种任务上优异的表现。他强调了未来在工具生态建设、基础模型开发以及模型编排能力提升之间的协同发展的巨大潜力。 发言人3 首先对石总表示了感谢,接着强调将在线直播平台上同步收集同学们的问题,并特别提到会包括针对过滤问题的具体询问,显示了对提问细节的关注。同时,他们透露了仍有同学预备提问,再次对石总的分享表达了感激之情。此外,他还提及了直播会提供录屏回顾的功能,旨在鼓励所有参与者继续在直播或后续回放中进行交流和提问,确保信息的充分传达与理解。 问答回顾 发言人1问:在大模型的研究中,您们最近的工作主要是解决什么问题?您们工作的主要动机是什么? 发言人1答:我们最近的工作名为to oca,主要是通过端到端的强化学习来优化大模型的工具兼容能力,从而提升大模型在复杂推理任务上的效果。我们工作的动机是引入更多样化的工具,包括经典的工具以及agent或模型作为工具由调度器调用。目标是训练一个小规模的orchestrator(调度器),通过它来调用更多工具和专用模型,解决更复杂的问题。 发言人1问:您们工作的主要目标是什么? 发言人1答:我们的目标是赋予或增强任意模型的工具调用能力,使其能泛化到新的工具,并构建高度多样化的工具空间。通过端到端强化学习,在性能和效率等多个维度上优化系统。 发言人1问:工具对于语言模型有哪些重要作用? 发言人1答:工具对语言模型有几方面的作用:一是显著提升模型性能,例如group four通过结合工具使用和强化学习已展现出显著性能提升;二是有效缓解模型的幻觉问题,如通过检索外部资料增强回答可信度,在需要多轮工具调用的复杂agent任务中尤其重要。 发言人1问:当前对于工具调用效率问题的研究现状如何? 发言人1答:目前,对于工具调用效率问题的研究相对缺乏,但这个问题对于计算密集型agent系统尤为重要。此外,大多数工具调用模型主要集中在API和函数调用上,忽略了专用模型的潜力。 发言人1问:为什么选择使用小语言模型作为orchestrator? 发言人1答:我们认为小语言模型在架构上更适配,即使面对复杂问题也能借助强大外部工具有效解决问题,并且在成本上更加经济高效。这与我们关于小语言模型的立场论文观点一致。 发言人1问:实现这一目标的方法有哪些? 发言人1答:实现方法包括直接对现成模型进行提示(prompting)和训练一个通用的orchestrator模型。但直接提示方法存在脆弱性和系统性偏见问题,因此我们选择训练一个基于千问38B模型的二阶模型来避免这些问题。 发言人1问:奖励设计中包括哪几类奖励信号? 发言人1答:我们设计了三类奖励信号:结果奖励(基于答案正确性)、效率奖励(基于计算成本和延迟成本)以及偏好奖励(根据是否选择了用户偏好的工具)。最终使用GRPO算法训练orchestrator模型,使其能在正确时间调用正确工具并以最优效率完成任务。 发言人1问:偏好奖励(preference reward)是如何工作的? 发言人1答:偏好奖励是指在模型选择工具时,考虑用户的个人偏好。具体实现上,给定一组工具调用轨迹后,构建一个向量,其中包含工具在projector中的调用次数(M个维度)、正确回答的outcome reward以及compute和latency revolt等元素。通过获取最大值和最小值并规划每个维度,最终定义一条轨迹的总奖励为R5。如果回答错误,则整个奖励为0;若回答正确,则计算manalyze的reward并与批号向量相乘。 发言人1问:偏好向量是如何体现用户对不同维度的优化需求的? 发言人1答:偏好向量用于表示用户希望在各个维度上进行优化的程度。例如,如果p1(PT1维度)等于1,意味着用户强烈偏好使用工具T1;而如果p outcome等于1且p compute等于0,则表示用户只关注准确率而不考虑计算成本。 发言人1问:在训练过程中如何解决训练不稳定的问题? 发言人1答:为解决训练不稳定的问题,采用了经典的GRPO算法,并引入了三种过滤规则:同质性过滤(当一个rotation base中奖励标准差小于0.1时触发)、格式一致性过滤(当样例输出与工具调用格式不匹配时过滤)以及无效输出过滤(当样例未能产生有效答案时过滤)。 发言人1问:数据训练集是如何生成的? 发言人1答:数据训练集是为了实现orchestrator端到端的强化学习训练,提升agented工具调用能力而设计的。我们通过两阶段的数据生成流程来创建高质量数据:第一阶段模拟丰富的用户智能体与工具环境交互,生成数据库和工具API;第二阶段基于环境生成多样化用户任务及标准答案。 发言人1问:模拟用户交互和生成多样化任务的具体过程是怎样的? 发言人1答:首先,让语言模型生成一个包含数据库schema、核心主题和具体条目的模拟数据库。其次,模型会提出该领域的多种用户意图,并将其转化为可执行任务,每个任务包含指令、标准答案序列和关键信息。此外,还会通过增加约束条件来复杂化任务,并过滤掉执行错误、语言模型无法解决的任务以及无需操作即可完成的任务。 发言人1问:如何判定模型完成任务的有效性? 发言人1答:判定标准包括执行正确性(对比模型生成轨迹与标准函数调用的结果一致性)、过程一致性(预定义信息是否在模型展开轨迹中提及)和操作完整性(模型生成轨迹中是否正确执行了标准轨迹提及的所有数据库操作条目)。 发言人1问:经过强化学习训练后,模型在HUMLA考试基准测试上的表现如何? 发言人1答:在HUMLA last exam基准测试上,我们的pro trader 8B模型达到了37%的准确率,超越了带工具的GPT5模型(准确率35%),并且在性价比上表现出优势,成本降低了大约三倍,推理速度提升了约2.5倍。 发言人1问:在这些实验中,OK推特8B相较于其他模型有何表现? 发言人1答:OK推特8B在包括frames和top bench在内的评估中,持续优于多个强大的单体模型,展现出了更强的通 用推理能力和稳定高效的工具调度能力。 发言人1问:模型在调用工具或模型时存在怎样的偏好模式? 发言人1答:实验发现,G