您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[北京航空航天大学]:面向具身智能的大小脑模型协同算法研究及实践 - 发现报告

面向具身智能的大小脑模型协同算法研究及实践

2025-08-23北京航空航天大学娱***
AI智能总结
查看更多
面向具身智能的大小脑模型协同算法研究及实践

大小脑模型协同算法研究及实践 盛律|软件学院 具身智能的基本概念 基于物理载体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性 具身智能 具身智能的基本概念 基于物理载体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性 具身智能 重要意义 具身智能因其能自主产生智能行为和适应性,是通用人工智能的可能起点 具身智能的关键任务 具身智能的核心目标 具身智能的核心要素 相比具身载体的日趋成熟,具身模型的算法研究方兴未艾、挑战众多 具身模型应该考虑哪些能力? 技能泛化、真实交互、本体扩展 具身模型的几种类型 具身模型的最新进展:代表性新工作 具身大模型离实用还有差距 大小脑模型协同的技术路线仍有机会 q端到端模型虽决策高效,但泛化性和扩展性受限,受制于环境交互与硬件适配,难以适应多样场景。而模块化的大小脑协同框架凭借强泛化、可解释优势,正成为学界与业界的研究热点 模块化:大小脑协同框架赋予具身智能体模块化优势,具备可扩展架构、高效开发与强适应性三大特性 可泛化:基于VLM开发的大脑具备丰富的多模态认知能力,且不受小脑模型的影响 可解释:决策过程更加透明,提升人机协同效率 大小脑模型协同框架是当前实现具身智能体更易落地的技术路线 传统多模态大模型能够作为“大脑”? 传统VLMs在具身智能场景(长程闭环操作、时空智能等)中面临严峻挑战 以‘把锅放到抽屉里’为例,该任务涉及多步骤的长时间交互,包括移动、抓取、放置等操作,并需要与锅、抽屉等物体进行持续交互 GPT-4o在具身任务中表现欠佳 回顾:具身模型应该考虑哪些能力? 技能泛化、真实交互、本体扩展 技能泛化:多智能体实现长时序开放具身任务解决 Long-horizonopen-worldembodiedtasks Task:Gatherwoodfromtheforest,craftastoneswordontheplains,andthenuseittokillapigduringthedaytimenearwaterandgrass 技能泛化:多智能体实现长时序开放具身任务解决 技能泛化:多智能体实现长时序开放具身任务解决 MP5(CVPR2024):5(M)LLMswithdifferentroles,communicatingfordifferentpurposes MP5:Amulti-modalopen-endedembodiedsysteminminecraftviaactiveperception,CVPR2024 技能泛化:多智能体实现长时序开放具身任务解决 MP5(CVPR2024):5(M)LLMswithdifferentroles,communicatingfordifferentpurposes 技能泛化:多智能体实现长时序开放具身任务解决 -能精准理解环境上下文内容-能够解决钻石级难度任务-能持续执行开放式生存任务 技能泛化:组合泛化实现未知技能的学习 RA-P(IROS2025,NeurIPS2024OWA):composablegeneralizableagentsinrealworld Decomposecomplicatedtasksintofine-grainedprimitiveskills,generalizabletonewphysicalskills 技能泛化:组合泛化实现未知技能的学习 RA-P(IROS2025,NeurIPS2024OWA):composablegeneralizableagentsinrealworld Decomposecomplicatedtasksintofine-grainedprimitiveskills,generalizabletonewphysicalskills 技能泛化:组合泛化实现未知技能的学习 RA-P(IROS2025,NeurIPS2024OWA):composablegeneralizableagentsinrealworld Decomposecomplicatedtasksintofine-grainedprimitiveskills,generalizabletonewphysicalskills 技能泛化:组合泛化实现未知技能的学习 MoredemosaboutthedatasetandourRA-P?Pleasechecktheprojectpage 真实交互:想象链强化行动执行的环境动态适应性 MineDreamer(IROS2025,NeurIPS2024OWA研讨会) n当处理困难问题时,一种可靠的思路是预测未来可能的执行效果,评估当前行动的可行性,以此来指导更可靠的行动执行 Chain-of-Imagination(想象链)可以强化具身行动执行的指令跟随能力 真实交互:想象链强化行动执行的环境动态适应性 Chain-of-imagination Imagination-conditionalVPTinasequentialway 提供和动态环境、语言指令、当前状态更为相关、效果更为精准的视觉提示 真实交互:想象链强化行动执行的环境动态适应性 真实交互:实时监控提升具身任务执行的成功率 Howtoincreasethesuccessrate?àReducetherateoffailure… Reactive(反应式)+Proactive(主动式)failuredetections 3Dperceptioncapability+Real-timeefficiency 真实交互:实时监控提升具身任务执行的成功率 真实交互:实时监控提升具身任务执行的成功率 nThefirstframeworktointegratebothreactiveandproactivefailuredetectionnSimplifyreal-timefailuredetectionwithhighprecisionnAchievesSOTAperformanceinbothsimulatedandreal-worldenvironmentsnExhibitsstronggeneralizabilityonunseenscenarios,tasks,andobjects 具身大脑的基本能力提升:空间感知+深度思考 具身大脑的基本能力提升:空间感知+深度思考 大规模数据提升能力提升 2DWebImages(OpenImages) 3DEmbodiedVideos(CA-1M) nSimulationDatabyInfinigenwithgenerativeassets 具身大脑的基本能力提升:空间感知+深度思考 具身大脑的基本能力提升:空间感知+深度思考 RoboRefer:AccurateSpatialreferringbyVLMsthatenablesmulti-stepdynamicreasoning ZhouE,etal.RoboRefer:TowardsSpatialReferringwithReasoninginVision-LanguageModelsforRobotics.(inSubmission)32 具身大脑的基本能力提升:空间感知+深度思考 展示机械臂(UR5)在场景关键要素变化下完成抓取放置,展示了模型快速的场景适应能力,以及模型判断物体远近、识别朝向、距离的能力。 展示人形机器人(宇树G1)在移动操作任务中的效果,展示了模型判断物体远近、识别朝向、距离的能力。 展示机械臂(Franka)对物体的抓取放置,展示了模型基于空间关系进行物体指代的能力,以及在三维空间中定位空闲区域的能力 Limitationsstillmetforembodiedmodels? Semanticandspatialperception? Limitationsstillmetforembodiedmodels? Semanticandspatialperception? Reliablelong-horizonplanning? Limitationsstillmetforembodiedmodels? Semanticandspatialperception? nnReliablelong-horizonplanning?nUniversallydrivemultiplespecializedcontrollersfordiverseskills? ThankYou! 盛律,北京航空航天大学 Homepage:https://lucassheng.github.io/ Email:lsheng@buaa.edu.cn