AI智能总结
NVIDIA1 摘要 物理AI需要先通过数字方式进行训练。它需要自身的数字孪生体,即策略模型,以及世界的数字孪生体,即世界模型。在本文中,我们提出了Cosmos World Foundation Model Platform,旨在帮助开发者为他们的物理AI配置构建定制的世界模型。我们将世界基础模型定位为一种通用世界模型,它可以微调成为适用于下游应用的定制化世界模型。我们的平台涵盖了视频策划流程、预训练的世界基础模型、预训练世界基础模型的训练后例子以及视频分词器。为了帮助物理AI构建者解决我们社会中最为关键的问题,我们将我们的平台开源,并使我们的模型以许可许可证的方式开放权重,可从以下链接获得:NVIDIA Cosmos. 1. 引言 物理AI是一种配备有传感器和执行器的AI系统:传感器允许它观察世界,执行器允许它与世界互动并修改世界。它承诺将人类工作者从危险、繁重或单调的体力任务中解放出来。尽管在最近十年中,由于数据和计算规模的扩大,AI的几个领域取得了显著进展,但物理AI却只是缓慢前进。这主要是因为为物理AI扩展训练数据更具挑战性,因为所需的数据必须包含交错观察和动作的序列。这些动作会扰动物理世界,并可能对系统及其周围世界造成严重损害。当AI仍处于婴儿期,探索性动作至关重要时,这一点尤其如此。一个世界基础模型(WFM),物理AI可以安全与之交互的物理世界的数字孪生,长期以来一直是解决数据扩展问题的一种长期寻求的补救措施。 在本研究中,我们介绍了用于构建物理人工智能的宇宙世界基金会模型(WFM)平台。我们主要关注视觉世界基础模型,其中观测结果以视频形式呈现,扰动可以以各种形式存在。如图所示图2我们提出了一种预训练-后训练的范式,其中我们将工作频率模块(WFMs)分为预训练和后训练的WFMs。为了构建预训练的工作频率模块,我们利用大规模的视频训练数据集,使模型接触到各种视觉体验,从而使它成为通才。为了构建后训练的工作频率模块,我们使用从特定物理人工智能环境中收集的数据集对预训练的工作频率模块进行微调,从而得到针对特定、专业物理人工智能设置的专用工作频率模块。图1展示了我们预训练和后训练的WFMs的示例结果。 数据决定了人工智能模型的 ceiling。为了构建具有高 ceiling 的预训练 WFM,我们开发了一个视频数据整理流程。我们使用它来定位具有丰富动态和高视觉质量的视频片段,这些片段有助于学习视觉内容中编码的物理知识。我们使用该流程从 20M 小时的视频集合中提取约 100M 个 2 到 60 秒的视频剪辑。对于每个剪辑,我们使用视觉语言模型(VLM)为每 256 帧提供一个视频字幕。视频处理计算密集。我们利用现代GPU 中可用的 H.264 视频编码器和解码器的硬件实现进行解码和转码。我们的视频数据整理流程利用了许多预训练的图像/视频理解模型。这些模型具有不同的吞吐量。为了最大化生成可训练视频数据的整体吞吐量,我们构建了一个基于 Ray 的编排流程(莫里茨等,2017). 详细描述如下第三部分. 我们探讨了第五节中讨论的两种构建预训练工作流模型的可扩展方法。这两种方法分别是: 1一份详细的贡献者名单和致谢词可在以下部分找到:附录A关于本文。 预备训练:扩散WFM 图2:预训练的WFMs是世界模型通才,它们使用大规模、多样化的视频数据集进行训练。捕捉现实物理学中的各个方面。这些预先训练的世界基础模型可被专门化通过训练后达到目标物理AI设置。通常,训练后的数据集是“提示”视频从目标物理AI设置中收集的配对。提示可以是以行动命令、轨迹或形式存在。指令等等随着预训练的WFM提供了一个很好的基础,后训练数据集可以远小于。这种预训练和后训练相结合的方法为构建物理人工智能系统提供了一种高效的策略。在图中,虚线代表数据循环。 基于变压器的扩散模型和基于变压器的自回归模型。扩散模型通过逐渐从高斯噪声视频中移除噪声来生成视频。自回归模型通过按照预设的顺序逐步生成视频。两种方法都将困难的视频生成问题分解为更简单的子问题,使其更易于处理。我们利用最先进的变压器架构,利用其可扩展性。第五节第一部分我们提出了一种基于转换器的扩散模型设计,该设计展现出强大的世界生成能力。第五节第二部分我们提出了一种基于转换器的自回归模型设计,用于世界生成。 变压器基础扩散模型和基于变压器的自回归模型都使用标记作为视频的表示,其中前者使用连续标记以向量形式出现,而后者使用离散标记以整数形式出现。我们注意到,视频的标记化——一个将视频转换为标记集的过程——是非平凡的。视频包含关于视觉世界的丰富信息。然而,为了促进WFMs(世界基础模型)的学习,我们需要将视频压缩成紧凑标记的序列,同时最大限度地保留视频中的原始内容,因为随着标记数量的增加,世界基础模型训练的计算复杂度也随之增长。从许多方面来看,构建视频标记器类似于构建视频编解码器。我们在文中开发了一种基于注意力的编码器-解码器架构,以学习视频中连续和离散标记的标记化方法。第四章. 我们调整预训练的WFM(Waveform Model)以适应各种物理AI任务的训练后的WFM。第六节. 在第六节 第一部分我们通过微调预训练的扩散WFM,使其成为相机姿态条件化的。这种后训练创建了一个可导航的虚拟世界,用户可以通过移动虚拟视点来探索创建的世界。在第6.2节我们在各种机器人任务上对我们的工作流模型(WFMs)进行微调,这些任务包括视频动作序列。我们表明,通过利用预训练的WFMs,我们可以更好地根据现有数据预测世界的未来状态。 机器人所采取的行动。在第六章第三节我们展示了如何对预训练的WFMs进行微调,以适应各种自动驾驶相关任务。 我们计划将开发完成的WFMs(工作流管理系统)用于物理人工智能构建者。为了更好地保护开发者在使用全球基础模型时的安全,我们开发了一套强大的安全系统,该系统包括前置防护(Pre-Guard)以阻断有害输入和后置防护(Post-Guard)以阻断有害输出。具体细节描述详见以下文献:第七节. 我们旨在构建一个世界级的基础模型平台,以帮助物理人工智能构建者提升他们的系统。为实现这一目标,我们将在NVIDIA开放模型许可下,提供我们预训练的世界级基础模型和分词器。NVIDIA Cosmos并且NVIDIA 宇宙分词器分别。预训练脚本和后训练脚本将在以下地址提供: ```NVIDIA Nemo Framework与视频数据编排管道协同,以帮助构建者制作他们的微调数据集。尽管这篇论文在世界基础模型设计方面做出了几项改进,但世界基础模型问题仍然远远没有解决。还需要进一步的研究以推动现有技术的先进性。 2. 世界基金会模型平台 Let푥从时间0到的一系列对现实世界的视觉观察푡. 让푐 图3:世界基础模型(WFM)풲这是一个生成世界未来状态的模型。푥푡+1基于以往观察푥0:푡并且当前扰动푐푡. 2.1. 未来宇宙 我们相信工作流管理(WFM)对物理人工智能构建者来说非常有用,包括但不限于以下方面: •政策评估。这指的是在物理人工智能系统中评估政策模型的质量。与将训练好的策略部署到现实世界中的物理人工智能系统进行评估不同,人们可以替代性地让物理人工智能系统的数字副本与世界观模型进行交互。基于WFM的评估更加经济高效。有了WFM,构建者可以在其他情况下不可用的未知环境中部署策略模型。世界观模型可以帮助开发者快速排除无能力的策略,并将物理资源集中在少数有希望的策略上。 •政策初始化。一个政策模型根据当前观测和给定任务生成物理人工智能系统应采取的行动。一个经过良好训练的工作流管理(WFM),该模型基于输入扰动对世界动态模式进行建模,可以作为政策模型的良好初始化。这有助于解决物理人工智能中的数据稀缺问题。 •政策培训。一个与奖励模型相结合的工作流程管理系统(WFM)可以作为物理世界的代理,在强化学习设置中向策略模型提供反馈。代理人可以通过与WFM的交互来提高解决任务的熟练度。 •规划或模型预测控制。WFM 可用于模拟物理 AI 系统采取不同动作序列后的不同未来状态。随后,可利用成本/奖励模块对这些不同动作序列的性能进行量化,基于结果进行评估。根据整体模拟结果,物理 AI 可执行最佳动作序列,如同规划一般。 算法或者在退化的前景方式中,例如在模型预测控制中。世界模型的准确性为这些决策策略的性能设定上限。 •合成数据生成。工作流管理(WFM)可用于生成用于训练的合成数据。它还可以微调以基于渲染元数据,如深度或语义图。可以针对Sim2Real用例使用条件工作流管理。 虽然我们在文中列出了可能性,但本研究并未包括将Cosmos WFMs应用于这些可能性时的实证结果。我们渴望在未来工作中验证这些主张。 2.2. 当前宇宙 图4:宇宙世界基金会模型平台由几个主要组件组成:视频编辑者、视频分词器、预训练世界基础模型、世界基础模型训练后样本和警戒线。 图 4可视化在Cosmos WFM平台中包含在本论文中的可用的功能,包括视频策展人、视频标记化、世界基础模型预训练、世界基础模型后训练和护栏。 视频策展人。我们开发了一个可扩展的视频数据编辑流程。每个视频被分割成不带场景转换的单独镜头。然后,对剪辑应用一系列过滤步骤,以定位用于训练的高质量和动态信息丰富的子集。这些高质量的镜头随后使用VLM进行标注。我们随后进行语义去重,以构建一个多样化但紧凑的数据集。 视频标记化。我们开发了一系列不同压缩比的视频标记器。这些标记器是因果的。当前帧的标记计算不是基于未来观察。这种因果设计具有几个优点。在训练方面,它使得联合图像和视频训练成为可能,因为当输入是单个图像时,因果视频标记器也是一个图像标记器。这对视频模型利用包含世界丰富外观信息的图像数据集进行训练非常重要,这些数据集通常更加多样化。在应用方面,因果视频标记器与存在于因果世界中的物理人工智能系统更为一致。 WFM 预训练。我们探讨了两种可扩展的方法来构建预训练的全球基础模型——扩散模型和自回归模型。我们使用Transformer架构因其可扩展性。 对于基于扩散的WFM,预训练包括两个步骤:1) 文本到世界生成预训练和2) 视频到世界生成预训练。具体而言,我们训练模型根据输入文本提示生成视频世界。然后我们对模型进行微调,使其能够基于过去的视频和一个输入文本提示生成未来的视频世界,我们称这一任务为视频到世界生成。 对于基于自回归的工作流程生成模型(WFM),预训练包括以下两个步骤:1)简单的下一个标记生成和2)基于文本的Video2World生成。我们首先训练模型根据过去的视频输入生成未来的视频世界——预测生成。然后我们微调模型,使其能够根据过去视频和文本提示生成未来的视频世界。 视频2世界生成模型是一个预先训练的世界模型,它根据当前情况生成未来。 观察(过去视频)和控制输入(提示)。对于基于扩散和自回归的WFMs,我们构建了一个具有不同容量的模型家族,并研究了它们在各个下游应用中的有效性。 我们进一步微调我们的预训练扩散WFM,以得到一个扩散解码器,以增强自回归模型的生成结果。为了更好地控制WFM,我们还基于大型语言模型(LLM)构建了一个提示上采样器。 世界模型训练后。我们展示了预训练的WFMs在多个下游物理人工智能应用中的应用。我们使用相机姿态作为输入提示对预训练的WFM进行微调。这使我们能够在创建的世界中自由导航。我们还演示了如何对预训练的WFMs进行微调,以便用于类人型和自动驾驶任务。 护栏。为了安全使用发达国家的基础模型,我们开发了一个系统,该系统可以阻止有害的输入和输出。 3. 数据整理 我们描述了我们的视频精选流程,该流程为标记器和WFMs生成高质量的训练数据集。如图所示图5我们的流程包括5个主要步骤:1)拆分,2)过滤,3)标注,4)去重,以及5)分片。每个步骤都经过精心设计,旨在提升数据质量并满足模型训练的需求。我们首先展示我们的原始数据集,然后详细描述每个步骤。 图 5:Cosmos V