您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[清华大学]:理解世界还是预测未来?世界模型综合综述 - 发现报告

理解世界还是预测未来?世界模型综合综述

2024-12-26-清华大学陳***
AI智能总结
查看更多
理解世界还是预测未来?世界模型综合综述

清华大学 , 中国北京 dingjt15 @ tsinghua. org. cn , liyong07 @ tsinghua. edu. cn井涛丁∗张云科∗于尚†张宇恒†泽方宗†冯杰†元元†宏源苏†年李†Nicholas Sukiennik Fengli 徐勇李 Abstract 世界模型的概念由于多模态大型语言模型(如GPT-4)和视频生成模型(如Sora)的发展而引起了广泛关注,这些模型对于追求人工通用智能至关重要。本综述提供了关于世界模型文献的全面回顾。通常,世界模型被视为理解当前世界状态或预测其未来动态的工具。本综述系统地对世界模型进行了分类,强调了两个主要功能:(1)构建内部表示以理解世界的机制;(2)预测未来状态以模拟和指导决策。首先,我们考察了这两个类别下的当前进展。然后,我们探讨了世界模型在自动驾驶、机器人技术和社会仿真等关键领域的应用,重点在于每个领域如何利用这些方面。最后,我们概述了关键挑战,并提供了对未来研究方向的见解。 1 Introduction 科学界长期以来一直致力于开发一个统一的模型,以模拟世界的基本动态,追求人工通用智能(AGI)[98]。2024年,多模态大型语言模型(LLMs)和Sora [130] 的出现进一步加剧了这一讨论。 世界模型 arXiv: 2411.14499v1 [cs. CL] 2024 年 11 月 21 日围绕这样的尽管这些模型展示了在捕捉世界知识方面 emerging 的能力——例如,Sora生成的视频似乎完全符合物理定律——但仍然存在疑问,即它们是否真的可以被视为全面的世界模型。因此,在人工智能时代,对世界模型研究近期进展、应用及其未来方向进行系统性回顾既及时又必要,以便我们展望新的突破。 世界模式的定义仍然是一个正在进行辩论的主题 , 通常分为两个主要观点 :理解世界and预测未来如图1所示,Ha和Schmidhuber早期的工作[59]集中在抽象外部世界以获得其基本机制的深刻理解。相比之下,LeCun[98]认为世界模型不仅应该感知和建模现实世界,还应具备预见可能未来状态的能力,以指导决策制定。视频生成模型如Sora代表了一种专注于模拟未来世界演变的方法,从而更接近于世界模型的预测功能。这引发了关于世界模型是否应优先理解现状或预测未来状态的问题。在本文中,我们从这两个角度对相关文献进行了全面回顾,强调了关键方法和挑战。 世界模型的应用范围涵盖多个领域,每个领域对理解和预测能力都有不同的要求。例如,在自动驾驶领域,世界模型需要实时感知道路状况[195, 177]并准确预测其演变[127, 167,241],特别强调即时环境意识和复杂趋势的预测能力。对于机器人技术,世界模型对于导航[160]、物体检测[183]和任务规划[62]等任务至关重要,需要精确理解外部动力学[47]以及生成交互式和具身环境的能力[132]。在虚拟社会系统模拟领域,世界模型必须捕捉和预测更为抽象的行为动态,如社会互动和人类决策过程。因此,对这些能力的发展进行全面回顾,并探讨未来的研究方向和趋势,既是及时的又是必要的。 现有的关于世界模型的研究可以大致分为两类,如表1所示。第一类主要集中在描述世界模型在特定领域的应用,如视频处理和生成[23, 242]、自动驾驶[54, 100, 209]以及基于代理的应用[242]。第二类则关注多模态模型向世界模型的技术过渡,多模态模型能够处理不同模态的数据[116]。然而,这些论文往往缺乏对世界模型本身及其不同实际应用场景所需的具体内容进行系统的分析。本文旨在正式定义和分类世界模型,回顾近期的技术进展,并探讨其广泛的应用领域。 该调查的主要贡献可以总结如下:(1)我们提出了一种以两大主要功能为基础的世界模型分类系统。构建隐含表示以理解外部世界的机制and预测外部世界的未来状态. 第一类专注于开发能够学习和内化世界知识以支持后续决策的模型,而后者则侧重于通过视觉感知增强对物理世界的预测和模拟能力。(2)基于 在这种分类中,我们将各类关键应用领域(包括自动驾驶、机器人和社交仿真)如何强调世界模型的不同方面进行分类。(3)我们强调了世界模型未来的研究方向和趋势,这些方向和趋势能够适应更广泛的实用应用场景。 本文余下的部分组织如下。在第2节中,我们介绍了世界模型的背景,并提出我们的分类系统。第3节和第4节分别详细阐述了两类世界模型当前研究进展的细节。第5节涵盖了世界模型在三个关键研究领域的应用。第6节概述了世界模型所面临的问题和未来发展方向。 2 背景和分类 在本节中,我们探讨文献中世界模型 evolving概念的变化,并将构建世界模型的努力归类为两个不同的分支:内部表示和未来预测。 世界模型的概念首先由 Ha 系统地引入人工智能社区et al.[58, 59] 在2018年。本文追溯了世界模型概念的起源至1971年由心理原则“心智模型”建立的心理学原理[43]。该原理提出,人类将外部世界抽象为简单元素及其相互关系以感知世界。这一原则表明,当我们从深层次的内部视角观察世界时,通常会构建一个简化的抽象表示,而不需要详细的描述。基于这一概念框架,作者引入了一个借鉴人类认知系统的代理模型,如图1所示。在这个开创性的模型中,代理从现实环境接收反馈,并将其转化为一系列输入来训练模型。该模型擅长模拟特定行动后外部环境可能出现的结果。本质上,它创建了一个对未来世界可能演变的思维模拟,并根据这些状态预测结果做出决策。这种方法与基于模型的强化学习(MBRL)方法非常相似,两者都涉及模型生成对外部世界的内部表示。这些表示有助于在现实世界中导航和解决各种决策任务。 在2022年关于自主机器智能发展的前瞻文章中[98],Yann LeCun介绍了联合嵌入预测架构(JEPA),这是一种模仿人脑结构的框架。如图1所示,JEPA由感知模块组成,该模块处理感官数据,随后是认知模块,评估这些信息,从而体现世界模型。这种模型使大脑能够评估行动并确定最适合现实应用的响应。LeCun的框架因其融合了双系统概念而引人注目,这分别对应“快速”和“缓慢”的思考方式。系统1涉及直观、本能的反应:快速决策不依赖于世界模型,例如本能地避开迎面而来的人。相比之下,系统2则运用有意识的、经过深思熟虑的推理来考虑世界未来的状态。它超越了即时的感官输入,模拟潜在的未来场景,比如预测未来十分钟内房间内的事件,并据此调整行动。这种前瞻性要求构建一个世界模型,以便根据预期的动力学和环境演变有效地指导决策。在这个框架中,世界模型对于理解和表示外部世界至关重要。它模型化了环境的状态, 世界通过潜在变量进行建模,这些变量捕捉关键信息并过滤掉冗余。这种方法允许对世界进行高度高效且 minimalist 的表示,从而促进对未来场景的最佳决策制定和规划。 模型捕捉世界知识的能力对于其在广泛的实际任务中有效表现至关重要。在2023年以来的大型语言模型相关研究浪潮中,多项工作已经展示了潜在的世界知识的存在。换句话说,这些模型能够捕捉直觉性的知识,包括空间和时间理解能力,这使它们能够对现实世界的场景做出预测[57, 119]。此外,最新的研究表明,这些模型内部嵌入了类似大脑的认知地图结构,使其能够建模外部世界[104]。这些模型甚至能够基于先前的经验来预测未来事件,从而增强其实用性和适用性在实际场景中的应用。 上述世界模型主要代表了一种对外部世界的隐含理解。然而,在2024年2月,OpenAI推出了Sora模型[130],这是一种被广泛认为具有世界模拟功能的视频生成模型。Sora输入真实世界的视觉数据,并输出预测未来世界演变的视频帧。值得注意的是,它展示了卓越的建模能力,例如在摄像机移动和旋转过程中保持3D视频模拟的一致性,还能产生物理上合理的结果,如在汉堡包上留下咬痕,并模拟数字环境,例如在游戏中渲染第一人称视角。这些能力表明,Sora不仅模仿了现实世界的外观,还能够在模拟场景中建模真实的动态变化,重点在于真实地模拟动态世界的变化,而不仅仅是表示静态的世界状态。 无论关注的是对外部世界内部表示的学习,还是模拟其运作原理,这些概念共同形成了一致的观点:世界模型的核心目的是理解世界的动态并预测未来场景。从这一角度来看,我们对近期世界模型的发展进行了全面考察,并通过图1所示的视角对其进行分析。 外部世界的隐式表示•第三章:本研究类别构建一种环境变化模型,以促进更为明智的决策制定,最终 目标是预测未来状态的发展。通过将外部现实转化为一个模型,该模型将这些元素表示为潜在变量,从而培养了一种隐含的理解。此外,随着大型语言模型(LLMs)的出现,以往集中在传统决策任务上的努力已经得到了显著增强,因为这些模型能够详细描述世界知识。我们进一步关注将世界知识整合到现有模型中。 对外部世界的未来预测•第四章:我们最初探索生成模型,这些模型模拟外部世界,主要使用视觉视频数 据。这些研究强调生成视频的真实性,这些视频能够反映物理世界的未来状态。随着最近的进步将重点转向开发一个真正互动的物理世界,我们进一步探讨从视觉表示到空间表示、从视频到具身化的过渡。这包括对生成与外部世界相似的具身环境的相关研究的全面覆盖。 世界模型的应用•(第五章)世界模型在各个领域拥有广泛的应用范围,包括自主驾驶、机器人技 术和社交仿真。我们探讨了在这些领域整合世界模型如何推动理论研究和实际应用的发展,强调其在现实世界应用中的变革潜力。 3 外部世界的隐含表示 3.1 决策中的世界模型 在决策任务中,理解环境是建立优化政策基础的主要任务。因此,决策中的世界模型应包括对环境的全面理解。这使我们能够在不实际影响环境的情况下进行假设性行动,从而降低试错成本。在文献中,关于如何学习和利用世界模型的研究最初是在基于模型的强化学习(model-based RL)领域提出的。 此外,最近在大语言模型(LLM)和混合语言-多模态模型(MLLM)方面的进展为世界模型构建提供了全面的基础。随着语言作为更通用的表示形式,基于语言的世界模型可以适应更多的通用任务。图2展示了在决策任务中利用世界模型的两种方案。 3.1. 1 基于模型的 RL 中的世界模型 在决策制定中,世界模型的概念主要指的是基于模型的强化学习(MBRL)中的环境模型。一个决策问题通常被形式化为马尔可夫决策过程(Markov Decision Process,MDP)。S, A, M, R, γ)S, A, γSion 进程 (MDP) , 用元组表示, where表示状态空间 , M 行动空间和贴现因子。这里的世界模型包括 , 状态转移 -R 动力学和奖励函数。由于奖励函数在大多数情况下已经被定义,MBRL 的关键任务是学习和利用转移动力学,这可以进一步支持策略优化。世界模型学习为了学习一个准确的世界模型,最直接的方法是利用每一步转换的均方预测误差 [97, 115, 80, 145, 81]。 Mwhere∗M 是用于收集轨迹数据的真实过渡动力学 , 是参数化的θ2θ (2)过渡学习。除了直接利用确定性转移模型外,Chua等[25]进一步使用概率转移模型来建模aleatoric 不确定性。目标是最小化转移模型之间的 KL 散度。M∗(s′|s, a) min[log()]. 在两种设置中,世界模型学习任务的阶段可以转换为监督学习任务。学习标签是从实际交互环境中衍生出的轨迹,也称为仿真数据[114]。E′θM(s|s, a)θ 在高维状态空间存在的复杂环境中,为了提高基于模型的强化学习(MBRL)中世界模型学习的有效性,广泛采用了表示学习。Ha和Schmidhuber[58]采用自编码器结构通过潜在状态重构图像。Hafner等人[61, 63]提出了一种学习视觉编码器和潜在动力学的方法,以应对视觉控制任务,而Samsami等人[153]则提出了一种回忆到成像框架,以进一步提高记忆能力并在模型学习过程中取得更好的效果。另一个近期的趋势是在不同任务之间进行统