您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [NVIDIA]:英伟达Cosmos世界基础模型平台物理人工智能研究报告 - 发现报告

英伟达Cosmos世界基础模型平台物理人工智能研究报告

信息技术 2025-01-07 Philipp Wu, Alejandro Escontrela, Danijar Hafner NVIDIA 在路上
报告封面

英伟达1 摘要 物理人工智能(Physical AI)需要首先进行数字训练。它需要一个自我数字孪生体,即政策模型,以及世界数字孪生体,即世界模型。在本文中,我们提出了“宇宙世界基础模型平台”(Cosmos World FoundationModel Platform),以帮助开发者为他们的物理人工智能系统构建定制化的世界模型。我们将世界基础模型定位为一种通用世界模型,它可以微调为适用于下游应用定制的世界模型。我们的平台涵盖视频内容编辑管道、预训练世界基础模型、预训练世界基础模型后训练的示例以及视频标记器。为了帮助物理人工智能构建者解决我们社会最关键的问题,我们使我们的平台开源,并使我们的模型以许可许可证提供开放权重,许可证可通过以下链接获得:NVIDIA Cosmos. 1. 引言 物理AI是一种配备了传感器和执行器的AI系统:传感器使它能观察世界,执行器使它能与世界互动并对其进行修改。它有解放人类工人从危险、劳累或乏味体力工作的承诺。尽管近十年来,得益于数据和计算能力的扩展,人工智能的几个领域取得了显著进展,但物理AI的发展却缓慢推进。这主要是因为物理AI的训练数据扩展更具挑战性,因为所需的数据必须包含交错观察和动作的序列。这些动作会干扰物理世界,可能对系统和对世界造成严重损害。这在AI仍处于婴儿期,探索性行动至关重要时尤其如此。一个世界基金会模型(WFM),即物理世界的一个数字孪生,它允许物理AI安全地与之互动,长期以来一直被视为数据扩展问题的一个长久解决方案。 在这篇论文中,我们介绍了用于构建物理人工智能的宇宙世界基金会模型(WFM)平台。我们主要关注视觉世界基础模型,其中观测结果以视频形式呈现,扰动可以存在于各种形式。如图所示:图 2我们提出了一种先预训练后微调的范式,其中我们将工作频率模型(WFMs)分为预训练和微训练的工作频率模型。为了构建预训练的工作频率模型,我们利用大规模视频训练数据集使模型接触到多样化的视觉体验,以便使其成为通才。为了构建微训练的工作频率模型,我们使用针对特定物理人工智能环境的特定、专业化的物理人工智能配置收集的数据集对预训练的工作频率模型进行微调,以到达一个专业化的工作频率模型。图1展示了我们预训练和后训练的WFMs的示例结果。 数据决定了人工智能模型的上限。为了构建高上限的预训练工作流模型(WFM),我们开发了一个视频数据编纂流程。我们利用它来定位视频中的丰富动态和高视觉质量的片段,这些片段有助于学习视觉内容中编码的物理学。我们使用该流程从2至60秒的100M个视频剪辑中提取了一个2M小时的视频集合。对于每个剪辑,我们使用视觉语言模型(VLM)为每256帧提供一个视频字幕。视频处理计算量大。我们利用现代GPU中可用的H.264视频编码器和解码器的硬件实现进行解码和转码。我们的视频数据编纂流程利用了许多预训练的图像/视频理解模型。这些模型具有不同的吞吐量。为了最大化生成可训练视频数据的整体吞吐量,我们构建了一个基于Ray的编排流程(。Moritz et al.,2017). 详细情况在以下描述中第三部分. 我们探讨了在第五节中讨论的两种构建预训练工作流模型(WFMs)的可扩展方法。这些方法包括: 1一份详细的贡献者名单和致谢可以在以下位置找到:附录A本文。 预训练:扩散工作流管理(Diffusion WFM) 图2:预训练的WFMs是世界模型通才,它们通过大规模、多样化的视频数据集进行训练捕捉现实世界物理学的不同方面。这些预训练的世界基础模型可以进行特殊化通过训练后达到目标物理AI设置。通常,训练后的数据集是“提示”视频从目标物理人工智能设置收集的成对样本。提示可以采用动作命令或轨迹的形式。指令等等随着预训练的WFM提供了一个良好的基础,后训练数据集可以远远小于。这种在预训练和后训练之间获得的方法为构建物理AI系统提供了一种高效策略。图中,虚线表示数据循环。 基于变压器的扩散模型和基于变压器的自回归模型。扩散模型通过逐步从高斯噪声视频中去除噪声来生成视频。自回归模型则是按照预设的顺序逐步生成视频,基于之前的生成内容。这两种方法都将困难的视频生成问题分解为更简单的子问题,使其更容易处理。我们利用最先进的变压器架构,利用其可扩展性。第5.1节我们提出了一种基于变换器的扩散模型设计,它展现出强大的世界生成能力。在第5.2节我们提出了一种基于变换器的自回归模型设计,用于世界生成。 变压器扩散模型和基于变压器的自回归模型都使用标记作为视频的表示,前者使用向量的连续标记,后者使用整数的离散标记。我们注意到,视频标记化——将视频转换为标记集的过程——是一个非常复杂的过程。视频包含了关于视觉世界的丰富信息。然而,为了便于学习WFMs(世界基础模型),我们需要将视频压缩成紧凑标记的序列,同时最大限度地保留视频中的原始内容,因为随着标记数量的增加,世界基础模型训练的计算复杂性也在增长。在许多方面,构建视频标记器类似于构建视频编解码器。我们开发了一种基于注意力的编码器-解码器架构,以学习描述中连续和离散标记的视频标记化。第4节. 我们微调了预训练的物理AI任务用的工作流模型(WFMs),以达到术后训练的WFMs。第六节. 在第六部分第一节我们针对预先训练的扩散WFM进行微调,使其成为相机姿态条件化。这种训练后创建了一个可导航的虚拟世界,用户可以通过移动虚拟视点来探索创建的世界。在第六部分第二节我们在各种机器人任务中微调我们的工作流模型(WFMs),这些任务包括视频动作序列。我们表明,通过利用预训练的WFMs,我们可以根据以下情况更好地预测世界的未来状态: 机器人采取的行动。在第六部分第三章我们展示了如何针对各种自动驾驶相关任务对预训练的WFM(微特征模块)进行微调。 我们计划将开发的WFMs(世界基础模型)用于物理AI构建者。为了在使用世界基础模型时更好地保护开发者,我们开发了一套强大的护栏系统,该系统包括一个前置护栏以阻断有害输入和一个后置护栏以阻断有害输出。详细情况描述如下。第七节. 我们旨在建立一个全球基础模型平台,以帮助物理人工智能构建者提升他们的系统。为实现这一目标,我们将在NVIDIA开放模型许可下提供我们的预训练全球基础模型和分词器。NVIDIA Cosmos并且NVIDIACosmos Tokenizer分别。预训练脚本和后训练脚本将在以下位置提供:respectively. The pre-training script and post-training script will be available atNVIDIA Nemo 框架与视频 数据整理流程相结合,以帮助构建者制作他们的微调数据集。尽管本文在世界基础模型设计方面作出了一些改进,但世界基础模型问题仍然远未得到解决。需要更多研究以进一步推动这一领域的最先进水平。 2. 世界基金会模型平台 Let푥是一个从时间0到现实的视觉观察序列。푡. 让푐 𝑥0:𝑡𝒲𝑐𝑡ˆ𝑥𝑡+1世界基金会模型:0:푡푡成为对世界的扰动。正如在所示。图 3一个WFM是一种模型풲预测在时间点t的未来观测结果푡+1 ,푥ˆ푡+1基于过去的观察푥0:푡并且当前的扰动푐푡在我们的情况下,푥0:푡是一个RGB视频,而푐푡这是一种扰动,可以采取多种形式。它可以是物理AI采取的行动,一个随机扰动,或者是关于扰动的文本描述等。 图3:一个世界基础模型(WFM)풲这是一个生成世界未来状态的模型。푥푡+1基于过去的观察푥0:푡当前扰动푐 2.1. 未来宇宙푡. 我们相信,工作流管理(WFM)对物理人工智能构建者来说在许多方面都很有用,包括但不限于(但不限于): •政策评估。这指的是评估物理AI系统中政策模型的质量。与其将训练好的政策部署到在现实世界运行的物理AI系统中进行评估,不如让物理AI系统的数字副本与世界基础模型进行交互。基于WFM(世界基础模型)的评估更具成本效益和时间效率。借助WFM,构建者可以在其他情况下不可用的未见环境中部署政策模型。WFM可以帮助开发者快速排除无效的政策,并将物理资源集中在少数有希望的政策上。 •政策初始化。一个政策模型根据当前观察和给定任务生成物理人工智能系统应采取的行动。一个经过良好训练的工作流程管理(WFM),它根据输入扰动对世界的动态模式进行建模,可以作为政策模型的良好初始化。这有助于解决物理人工智能中的数据稀缺问题。 •政策培训。一个与奖励模型相结合的工作流管理(WFM)可以作为物理世界的代理,为强化学习环境中的策略模型提供反馈。通过与WFM的交互,智能体可以熟练地解决任务。 •规划或模型预测控制。WFM可用于模拟物理AI系统采取不同动作序列后产生的不同未来状态。随后,可以使用成本/奖励模块来量化这些不同动作序列的性能,基于结果进行衡量。基于整体模拟结果,物理AI可以执行最佳动作序列,正如在规划过程中所做的那样。 算法或以退化的视野方式,如模型预测控制。世界模型的准确性限制了这些决策策略的性能。 •合成数据生成。工作流管理(WFM)可以用于生成用于训练的合成数据。它还可以进行微调,以依赖于渲染元数据,如深度图或语义图。可以使用条件工作流管理器(WFM)来应对从仿真到现实的用例。 虽然我们列出了可能性,但本文并未包括将Cosmos WFMs应用于这些可能性时的实证结果。我们渴望在未来工作中验证这些主张。 2.2. 当前Cosmos 图4:Cosmos World Foundation Model Platform由几个主要组件组成:视频编辑者、视频分词器、预训练的世界基础模型、世界基础模型后训练样本和护栏。 图 4可视化本文中包含在Cosmos WFM平台上的可用内容,包括视频策展人、视频标记化、世界基础模型预训练、世界基础模型后训练和护栏。 视频策展人我们开发了一个可扩展的视频数据整理流程。每个视频在场景变化之前被分割成单独的镜头。随后,一系列过滤步骤被应用于剪辑中,以定位高质量、信息丰富的子集用于训练。这些高质量镜头随后使用VLM进行标注。然后,我们执行语义去重以构建一个多样但紧凑的数据集。 视频标记化。我们开发了一族不同压缩比的视频标记器。这些标记器是因果的。当前帧的标记计算不基于未来的观察。这种因果设计具有几个优点。在训练方面,它使得联合图像和视频训练成为可能,因为当输入是单个图像时,因果视频标记器也是一种图像标记器。这对于视频模型利用包含世界丰富外观信息的图像数据集进行训练非常重要,这些数据集往往更加多样化。在应用方面,因果视频标记器与存在于因果世界的物理AI系统更为一致。 WFM预训练。我们探讨了两种构建预训练世界基础模型的可扩展方法——扩散模型和自回归模型。我们采用变压器架构,因为其可扩展性。 对于基于扩散的WFM,预训练包括两个步骤:1)Text2World生成预训练和2)Video2World生成预训练。具体而言,我们训练模型根据输入文本提示生成视频世界。然后我们对其进行微调,使其根据过去视频和输入文本提示生成未来视频世界,我们称此为Video2World生成任务。 对于基于自回归的WFM,预训练包括两个步骤:1)普通下一token生成和2)文本条件下的Video2World生成。我们首先训练模型根据过去的视频输入生成未来的视频世界——预见生成。然后我们对其进行微调,使其根据过去的视频和文本提示生成未来的视频世界。 视频2世界生成模型是一个预训练的全局模型,该模型基于当前状态生成未来。 观察(过去的视频)和控制输入(提示)。对于基于扩散和基于自回归的WFMs,我们构建了一系列不同容量的模型,并研究它们在各种下游应用中的有效性。 我们进一步微调我们的预训练扩散WFM,以得到一个扩散解码器,以增强自回归模型的生成结果。为了更好地控制WFM,我们还基于大型语言模型(LLM)构建了一个提示提升器。 世界模型训练后状态。我们展示了预训练的WFM在多个下游物理AI应用中的应用。我们使用相机姿态作为输入提示,微调一个预训练的