您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:DLLMSearcher让SearchAgent在等待工具返回时保持思考20260312 - 发现报告

DLLMSearcher让SearchAgent在等待工具返回时保持思考20260312

2026-03-12未知机构张***
DLLMSearcher让SearchAgent在等待工具返回时保持思考20260312

2026年03月13日10:20 关键词 自打open I ross compare评测机certain豆包KMGLM搜索能力智能体交互次数等待时间串行多轮拉达post masktoken轨迹筛选格式正确推理加速并行生成工具调用 全文摘要 通过技术创新和策略调整,优化AI模型在搜索和工具调用场景下的性能成为焦点。讨论强调了使用DRM模型及其优化,如提前填充和优先生成特定部分,以提升模型处理复杂查询的效率,减少用户等待时间。案例展示了这些策略对增强模型表现和用户体验的积极影响。 DLLM-Searcher让Search Agent在等待工具返回时保持思考-20260312_导读 2026年03月13日10:20 关键词 自打open I ross compare评测机certain豆包KMGLM搜索能力智能体交互次数等待时间串行多轮拉达post masktoken轨迹筛选格式正确推理加速并行生成工具调用 全文摘要 通过技术创新和策略调整,优化AI模型在搜索和工具调用场景下的性能成为焦点。讨论强调了使用DRM模型及其优化,如提前填充和优先生成特定部分,以提升模型处理复杂查询的效率,减少用户等待时间。案例展示了这些策略对增强模型表现和用户体验的积极影响。同时,对话触及了OpenCLoud和模型安全问题,指出开放AI模型的便利性需与安全、隐私考量并重,确保技术发展的同时保护用户信息。整体而言,对话围绕如何通过具体措施提升AI在特定任务上的效率和效果展开。 章节速览 00:00提升智能体搜索效率与用户体验 对话围绕智能体搜索效率和用户体验的提升展开,提到2025年4月底Open I发布的评测机推动了智能体寻找难题的能力,但同时也引发了等待时间过长的问题。为了解决这一问题,讨论了如何优化React范式,让模型能够提前发出工具调用并并行处理,同时加快模型输出token的速度,以期改善用户在进行深度研究时的等待体验。 04:10探索非顺序生成模型在对话系统中的应用与优化 讨论了非顺序生成模型(如拉达原论文中的方法)在对话系统中的应用,特别是如何通过引导模型优先生成关键部分(如to号内容)来提升效率和用户体验。指出当前模型在指令跟随和对话适应性上的不足,提出需通过训练优化基座模型能力,以实现更高效、更自然的对话生成。 08:22大矩阵优化训练效率与大块适应策略 对话讨论了通过大矩阵优化训练效率的方法,强调了在训练过程中保持因果推理一致的重要性。为解决长轨迹和多轮思考导致的效率问题,提出使用大矩阵设计,确保每个块能同时看到干净的前序信息和加噪的当前信息,仅对加噪部分计算损失。鉴于推理需求,将块大小设置为128,以适应更长的思考过程,同时在SFT阶段适应这种大块训练,以提升模型在特定块大小下的推理能力。 11:02模型训练与优化策略探讨 讨论了模型训练中遇到的问题及解决策略,包括如何处理to response部分以避免预训练外部语料库,以及在不同情况下对模型进行加噪训练和loss计算的方法。此外,还提到了使用elbow近似log likelihood,以及在SFT和VRPO训练中替换概率计算的方式,以实现更有效的模型优化。 14:40大模型训练与优化:从SFT到DRM的策略实践 讨论了SFT和VRPO训练中的数据筛选策略,强调了轨迹筛选的重要性,特别是正负样本的相似性。通过模型自我生成数据并严格筛选,有效提升了训练效果。BRPO增强了模型的推理与搜索能力。虽未充分利用DLM并行生成特性,但通过修改DRM生成策略,仅需简单代码调整,显著优化了模型性能。 17:09模型解码策略优化:通过位置填充与置信度调整提升生成效果 讨论了对模型解码策略的优化方法,通过人为指定关键位置信息并调整置信度分数,优先引导模型生成特定部分的内容,实现对图稿填充及后续内容生成的高效处理,最终提升生成效果。 18:36 SDR模型在问答任务中的表现与问题分析 讨论了SDR模型在问答任务中的表现,指出其存在输出异常、格式错误等主要问题,导致性能不佳。通过对比,发现其与RE service性能接近,但在长搜索问题上表现突出,短问答则稍逊。尽管落后于最新模型,但其潜力值得挖掘。 21:14 DLM与LM在生成任务中的性能对比及优化策略 通过对比实验,分析了DLM在预填充和双向注意力机制下相对于LM的性能提升,特别是在QA和moscow数据集上的表现。实验发现,DLM在先生成预填充内容后再思考的策略下,比LM在viki和风口数据集上表现更佳,且效果提升更为显著。此外,讨论了双向注意力机制对生成质量的重要性,以及如何通过条件概率降低搜索空间,从而优化生成效果。 23:45奖励信号引导推理加速在AI模型中的应用 对话讨论了通过奖励信号引导推理加速的机制,无需额外训练即可实现性能提升。此方法应用于AI模型,如智能助手,通过深度调研提高信息收集效率,减少人工干预,提升了用户体验。 25:37关于基座模型后训练的讨论 讨论了在已有基座模型基础上进行后训练,特别是针对上海实验室训练好的block difference模型,通过SFT和VRPO提升其agent能力,而非从零开始训练。 26:10 React与P Rex在工具调用加速效果的对比分析 对话讨论了React与P Rex在处理工具调用时的加速效果,指出P Rex通过并行处理减少了等待时间,即使在不同工具响应时长变化的情况下,也能有效降低整体处理时间,尤其在思考时间长于工具调用时间时效果显著。 29:18 Open Cloud框架与基础模型的整合优化探讨 对话围绕Open Cloud框架与基础模型的整合展开,讨论了如何将基础模型部署到Open Cloud框架中以优化工具调用agent的效率。提及了通过修改少量代码实现功能升级的可能性,强调了工具调用场景下效率提升的潜力。同时,探讨了当前整合过程中的潜在瓶颈及未来发展方向,提出了需团队协作解决现有问题的建议。 31:27提升模型能力与工具调用效率的探讨 对话讨论了提升模型能力的途径,包括采用更先进的算法和增强机构能力,以及在不同场景下优化工具调用格式和预填充token策略。同时,指出当前模型在处理复杂搜索问题和超越人类智力边界方面存在局限性,需进一步研究和发展。 33:24开源AI与安全挑战:机遇与风险并存 讨论了开源AI在加速技术发展和普及应用方面的积极影响,同时指出其在训练算法、安全性及隐私保护方面存在的问题。强调了通过监管和模型优化提升安全性的必要性,并鼓励在确保个人隐私的前提下尝试新技术。分享了基于DRM优化的研究成果及其在搜索场景中的应用潜力,以及对未来场景适应性和加速比稳定性的展望。 发言总结 发言人1 讨论了针对DRM基础架构的优化措施,旨在增强工具调用效率和智能体的交互能力。通过自定义优化,智能体能有效处理三个月内的复杂问题,提升了自然处理能力。自2025年4月底Open I发布Ross Compare评测机以来,行业注重寻找难以处理的问题以提升搜索能力,尽管多轮交互增加了等待时间。他通过引导模型生成初步结果、利用双向注意力等策略,尝试改变React范式,减少端到端处理时间,改善用户体验。他还关注模型训练和优化,提出更有效处理工具调用等待时间及利用预训练模型加速推理过程的方法。讨论包括模型在不同任务上的局限性及未来改进方向,如使用更先进算法、提升模型结构能力,并探索更广泛的工具调用场景。同时,强调了隐私和安全性问题,指出了技术发展面临的挑战和机遇。 发言人2 着重强调了志愿者工作的重要性及其在活动中扮演的关键角色。首先,他们提到今天的活动流程,包括浩先的主题报告分享、A症处理问题的解答环节,以及鼓励在线参与者提问。此外,他深入讨论了志愿者训练阶段的要点,如如何有效引导推理并通过奖励信号加速训练进程,以及如何开始并高效推进训练项目。 接着,他转向了开源项目(open cloud)的热门趋势,分析了其对A领域的积极贡献,同时也不避讳讨论了在实际应用中遇到的挑战,并提出相应的策略。最后,他们提到活动结束后会有回放,并对贾浩的精彩分享表达了感谢,同时热情邀请听众们在社区社群中持续交流和探讨,共同推动领域发展。 要点回顾 在使用某些工具或模型时,是否遇到过等待时间过长的问题,以及这与模型的工作机制有何关联? 发言人1:是的,当我们使用某些基于react范式的模型进行多轮交互和搜索时,由于其串行的迭代过程,会导致等待时间变长。例如,在处理复杂任务时,模型需要先思考、调用工具,再等待工具返回结果,才能继续下一轮的推理,这一系列过程极大地延长了端到端的响应时间,降低了用户体验。 )等人的研究成果中,提出了怎样的新型语言模型生成方式,它如何解决传统模型的生成顺序问题? 发言人1:拉达等人提出的模型采用并行生成的方式,不同于传统的从前往后逐个生成token,该模型可以同时生成多个mask token,并在每一步进行去噪操作,这使得模型能够更快地生成响应内容。并且,该模型能够以任意顺序生成token,从而为改写react提供便利条件。 针对现有模型存在的问题,你们提出了怎样的改进思路? 发言人1:我们设想通过引导模型先输出关键部分,之后再根据初步生成的内容去搜索并补充其他信息。这样可以减少智能体无意义等待的时间,优化端到端的体验。具体实现上,我们考虑将DRM基座转向block的defusing模型,因为它具有双向和因果注意力机制,能在一个block内完成think和break的部分计算,有效减少等待时间。 在将SDAR模型应用于实际任务时,遇到了哪些挑战? 发言人1:尽管SDAR模型在各项性能上表现优秀,但在特定任务上仍存在不足,如token instruction following的能力较差,以及在对话形式训练后,模型在适应agent对话方式时表现不佳。因此,我们需要通过训练来提升基座DRM的能力,并探索其他方法实现理想中的高效交互范式。 在训练过程中,为什么不能逐块进行监督? 发言人1:因为如果不能逐块监督,由于模型推理时需要考虑轨迹的连贯性和工具调用,这会导致效率非常低,尤其是在处理长文本或复杂情境时,可能需要多轮思考和工具调用。 station大矩阵设计方法的主要目的是什么? 发言人1:station大矩阵设计方法旨在优化训练效率,让每个块能够看到干净的前序信息以及加噪后的后续信息,通过特定结构的设计,使得模型能够更好地学习和理解块内的因果关系及注意力扩散。 为何需要将块的大小设置为128,并且如何处理? 发言人1:因为一轮完整的推理过程可能涉及大约128个token,而现有的模型结构无法适应这么大的块。因此,需要将块的size调整为128,以便模型能在更大的块上进行有效推理。 在大块训练中,如何处理to response部分以避免学习外部语料库?当to response后面跟有sink或to考返回时,应该如何进行加速训练? 发言人1:对于to response部分,由于其包含从网页返回的真实内容,模型无法直接学习这些部分以防止过度拟合。针对这种情况,只能给think部分添加噪声,并在to response部分直接跳过,不参与训练。在不同类型的块内,有不同的加速训练策略。例如,如果to response后面接有sink,那么只给think部分加噪;若to response部分全部是to考返回,则直接跳过;而对于to response后面拼接to response的情况,则需对涉及的to response信息进行mask处理,以确保模型不会看到不应学习的信息。 DRM训练中是如何计算loss的? 发言人1:在DRM训练中,首先对块内mask位置进行加噪处理,然后计算模型预测加噪位置log probability,并将这些值相加除以mask数量,以此来衡量模型在看到脏信息时还原原块难度的降低程度,优化目标就是使这个难度逐渐降低。 elbow方法在DM