AI智能总结
DriveAgent-R1:融合混合思维与主动感知,推动基于VLM的自动驾驶发展 魏成郑 1,3 毛小飞 2 南飞叶 2 推理下 ��𝑜𝑜� 场景:复杂乡村夜间驾驶带有不确定性 文本上下文导航:Gostraight速度: 49.67公里/小时 VisionToolKit <think_tools> 描述 这个场景是一个夜间驾驶场景,能见度有限.I 需要做进一步检查。<工具调用>... 返回的正面视图确认存在一个交叉口 aheadwith可见的交通标志和砾石前路,请多运动注意... </描述> <推理> 考虑到.让我们更仔细地看看限速标志。 <工具调用>... 被裁剪的区域显示一个道路标志,指示速度限制为km/h和距离标记确认减速的需要 </reasoning> <预测> 初始减速然后向右微调.. </prediction> </think_tools> 元动作 [“减速,直行”,“减速,右转”,“减速,直行” 标志 障碍 30 ,“保持速度,直线”] 李彭祥 2摘要 昆战 视觉-语言模2型(VLMs)正在推动自动驾驶的发展,但它们的潜力受到短先视鹏决朗策和被动感知的限制,从而限制了在复杂环境中的可靠2性。我们引入DriveAgent-R1来解决长时程、高级行为决策赵中h的a这ng些挑战。DriveAgent-R1具有两个核心创新:一个混1合,思4*维1框架,它能在高效的基于文本和深入的基于工具的推上理海之启间智自适学应院切换,以及一个具有视觉工具包的主动感知机2制,以主动解决不确定性,从而平衡决策效率和可靠性。该Li代A理ut使o用一种新颖的三阶段渐进式强化学习策略进行训练,3旨在掌握这些混合能力。大量实验表明,DriveAgent-R1实同现济了大最先学进的性能,甚至超过了领先的专有大型多模态模型4,例如ClaudeSonnet4。消融研究验证了我们的方法,并清证华实大该学代理的决策在主动感知的视觉证据上具有坚实的基础,为更安全、更智能的自主系统铺平了道路。 关键词:自动驾驶,视觉语言模型,混合思维,多模态思维链,强化学习 图1.在具有不确定性的复杂夜间驾驶场景中,DriveAgent-R1的推理过程示意图。面对模糊性,代理激活其主动感知能力,从其视觉工具包中调用3D物体检测和RoI检查工具,以获取关于即将到来的交叉口和限速标志的关键视觉证据。这些新信息使得能够做出更安全、更扎实的减速决策,展示了我们基于工具的多模态思维链(M-CoT)的有效性。 1.简介 端到端自动驾驶范式因视觉语言模型(VLMs)的出现而得到极大推进[10,12,30,34,41],它们承诺通过模拟类人认知将感知、推理和规划统一到一个单一、连贯的框架中。这种方法具有优越泛化能力和对复杂场景更深入理解的潜力。然而,要实现真正可靠的自动驾驶,智能体不仅需要有理解能力,还需要有预见性和主动性。在运动规划背景下,任务可以被分解为 结构化为两个层级[31,34,38]:低级运动规划和高级行为决策。与任务型VLM回归连续物理轨迹(这对它们并非天然优化)相比,一个更有希望的途径是利用它们在语义理解方面的优势来预测高级驾驶意图[26,35].因此,我们工作的核心挑战在于赋予一个智能体执行长时程、高级行为决策的能力,通过预测一系列离散的元动作,同时主动从环境中获取关键信息,就像人类司机面对 arXiv:2507.20879v1[cs.CV]28Jul2025 *通讯地址:hangzhao@mail.tsinghua.edu.cn 不确定性。 当前研究尽管取得了显著进展,但在决策和感知方面揭示了基本的局限性。在决策方面,虽然像AlphaDrive[13]已率先将强化学习(RL)用于训练VLMs进行单步动作预测,但他们通常受到短视决策的影响,缺乏长期、连贯规划的能力。在感知方面,一个主要障碍是视觉忽略,在规划任务中,丰富的、高维度的视觉输入经常被提供更直接信号以供最终决策的低维度文本指令(例如,速度、导航指令 )所掩盖。尽管现有工作已尝试缓解这个问题[17,41],它们本质上仍然由被动感知所表征。它们未能赋予代理像人类驾驶员那样主动获取信息的能力,在感知不确定的场景中使它们变得脆弱。 可按需访问高分辨率视图和深度图等工具—DriveAgent-R 1拥有主动感知能力,使其能够主动解决感知不确定性(见图)1).通过这些创新, DriveAgent-R1系统性地克服短视决策和被动感知的挑战 ,如我们的广泛实验所证明的那样,实现了最先进的性能 。 为培养代理的混合思维能力,我们设计了一种基于强化学习的、新颖的三阶段渐进式训练策略。超越传统监督微调 (SFT)的限制,我们的基于强化学习的方法赋予模型探索和优化自身推理路径的自由,这对于掌握混合思维的复杂性至关重要。我们的策略首先从SFT开始以植入基础知识,然后过渡到我们提出的强制对比模式强化学习(FCM-RL) ,该策略通过模式分区GRPO(MP-GRPO)算法实现,以强化每种模式的独特能力。最后,在自适应模式选择强化学习(AMS-RL)期间,代理被训练以自主地为任何给定场景选择最佳思维模式。 同时,多模态思维链(M-CoT)[5,11,15,25,40]为提高决策过程的透明度、可解释性和准确性提供了一条 有前景的途径。其发展产生了不同的推理模式,从早期的基于文本的M-CoT[40],它推理场景的文本描述,到更复杂、交织的基于工具的M-思维链[11],在推理过程中积极调用工具来收集新的视觉信息。虽然这种基于代理和工具的推理应用正在获得关注,但其在自动驾驶决策特定环境下的应用尚处于起步阶段。例如,AgentThink[27]已经在驾驶场景下的视觉问答中证明了工具使用的价值,但尚未在规划任务本身中得到证明。现实世界的驾驶环境——由常规情况构成的动态织锦和复杂的长尾事件——提出了一个独特的挑战。在所有情况下不断调用有意识的、基于工具的推理将是计算上过度和低效的。更智能的方法是动态调整认知负荷,对简单情况采用高效的基于文本的M-CoT,并在场景的复杂性真正需要时保留深入的、基于工具的M-CoT。据我们所知,这种能够智能地集成不同M-CoT模式的自适应机制,用于自动驾驶决策任务尚未被探索。 我们的主要贡献总结如下: 1.我们是第一个在一个自动驾驶代理中提出并实现了一种混合思维架构 DriveAgent-R1,根据驾驶场景的复杂程度,通过自适应地在基于文本的M-CoT和基于工具的M-CoT之间切换来调整其认知模式。 2.我们将主动感知的概念引入基于VLM的驾驶,为智能体配备了视觉工具包,以显著增强其在不确定环境中的感知鲁棒性。 3.我们设计了一种以强化学习为中心的完整、三阶段渐进式训练策略,并建立了一个全面的评估套件来评估模型在预测精度、推理质量和自适应模式选择方面的性能。 为了解决这些局限性,我们引入DriveAgent-R1,一个为长时域、高级行为决策而设计的先进自动驾驶智能体。其核心 DriveAgent-R1是一个自适应的混合思维框架,首次使智能体能够动态地在高效的基于文本的M-CoT之间切换M和在- 文本 深度,基于工具的M-思维链M,从而平衡决策 工具 根据情境需求实现效率和可靠性。与强大的视觉工具包(VisionToolkit)集成。 4.我们在具有挑战性的SUP-AD数据集上实现了最先进的性能[34],超越了更大规模的专有VLM。此外,我们的消融研究验证了我们的渐进式训练策略,并证实了我们代理人的决策是牢固地基于视觉证据的,为更安全、更智能的自主系统铺平了经过验证的道路。 2.相关工作 2.1.自动驾驶的视觉语言模型 近年来,VLM通过利用其在常识推理和世界知识方面的强大能力,革新了传统的端到端自动驾驶。 边缘,旨在将感知、决策和规划统一在一个框架内。当前的探索主要沿着两个核心方向发展。第一个重点在于增强场景理解的结构化推理[6,23,27,28,30].例如,DriveLM[30]创新性地采用图视觉问答(GVQA)方法将复杂的驾驶场景结构化为逻辑推理图,从而显著增强模型在未见过环境中的零样本泛化能力。AgentThink[27]将“代理式”动态工具使用引入问答任务,使模型能够通过主动验证信息来增强其推理能力。第二个核心方向专注于将视觉语言模型推理转化为可执行驾驶行为,涵盖高层决策和低层规划[13,17,20,34在高层决策领域,AlphaDri ve[13]率先采用了GRPO[29]来训练一个VLM以预测单步元动作。对于低级运动规划,Drive-R1[17]表明VLMs倾向于忽略当前视觉信息并过度依赖历史文本。通过采用大规模领域自适应策略来强制对齐视觉理解与轨迹规划,Drive-R1在轨迹预测精度上达到了最先进水平。 低一个“感知然后推理”的顺序模式:VLM首先将输入图像序列化为文本描述,然后在纯文本空间中执行逐步推理,利用大型语言模型[16,40,44].然而,这种方法将视觉和语言交互分离,未能实现更深层次的视觉语言融合,并且在初始文本转换过程中可能会丢失关键的视觉细节。为了更好地模拟人类 交织的M-“边看边想”的认知过程 CoT已经出现。这可以进一步细分为两条技术路径。一条是M-CoT,它使用进程内图像生成,其中模型在推理过程中创建图像,作为“视觉草稿板”[15,21].难点在于这给统一模型的生成和理解视觉内容的能力带来了巨大需求。因此,一个更有前景且更快速的方法是... 基于工具的M-CoT发展路径是。这种方法,是模型自主能力的一种体现,允许模型在推理过程中主动调用外部工具来补充或验证视觉信息[11,25,27,32,45].例如,视觉草图板[11]利用一个Python绘图库来绘制辅助线,以帮助解决几何问题。 然而,尽管这些工作取得了显著进展,我们主张现有研究在决策预见性和感知主动性方面存在明显局限性。一方面 ,像AlphaDrive这样的决策模型[13]往往是近视的,专注于单步意图预测。另一方面,虽然像Drive-R1[17]承认“视觉感知忽视”问题,他们的解决方案主要依赖于静态数据对齐,在面对不确定性时缺乏主动寻求信息的能力。为了应对这些挑战,我们引入DriveAgent-R1一种新的方法,预测长期驾驶意图并结合自适应、主动感知。其核心混合认知框架使模型能够在面对不确定性时主动调用视觉推理工具,从而增强其在复杂、开放世界环境中的决策鲁棒性和可靠性。 同时,CoT的组织结构是另一个核心研究方向,主要分为非结构化CoT和结构化CoT。前者[39]使用简单的提示,如“让我们一步步思考”,来指导模型生成自由形式的自然语言推理。但是,它的逻辑流程和一致性可能难以保证[19]).为此,结构化思维链旨在通过预定义的逻辑框架标准化推理过程[33,34,40].例如,DriveVLM[34]率先开创了一种“场景感知→场景分析→分层规划”的三阶段结构,有效提高了其规划的完备性。 2.2.基于思维链的多模态推理 思维链(CoT),一种指导模型进行逐步推理的范式,已被证明能显著提升大型语言模型(LLMs)的复杂推理能力[7,3 7,39].受此启发,大量研究致力于将CoT扩展到多模态领域,从而形成了M-CoT[9,18,22,36,40].根据视觉信息在推理链中的相互作用,M-CoT的演化可分为两大主要类别[5]. DriveAgent-R1整合并扩展了上述研究前沿。它不仅采用了结构化的思维链范式,通过将推理过程制定为三个阶段 ——描述,推理,和预测——但更核心地,引入了一种混合思维的范式。该范式智能地结合了高效的基于文本的M-协同思维与深入的工具型M-协同思维,这种设计使代理能够在统一的框架内根据驱动场景的需求自适应地切换其推理深度。因此,它在决策效率和可靠性之间取得了关键的平衡。 基于文本的M-思维链第一种类别是。这些方法遵循 基于文本的M-CoT: �1 �:�1,�2,�3,�4 <描述>...</描述>-<原因> ...<