宇宙世界基金会物理AI模型平台 2025-1-7 NVIDIA1 Abstract 物理AI需要首先通过数字化进行训练。它需要一个自身的数字孪生体(即策略模型),以及一个世界模型 (即世界的数字孪生体)。本文提出CosmosWorldFoundationModelPlatform以帮助开发者为他们的物理AI系统构建定制化的世界模型。我们将世界基础模型定位为一种通用的世界模型,可以被微调以适应下游应用的定制化需求。我们的平台涵盖了视频筛选流程、预训练的世界基础模型、预训练后生成的例子,以及视频分词器。为了帮助物理AI建设者解决我们社会面临的最关键问题,我们使我们的平台开源,并提供了开放权重的模型,可通过具有宽松许可的途径获取。NVIDIACosmos. 1.Introduction 物理AI是一种配备有传感器和执行器的AI系统:传感器允许其观察世界,而执行器则允许其与世界互动并对其进行修改。它承诺可以释放人类工人从危险、繁重或乏味的物理任务中解脱出来。尽管在过去十年中 ,由于数据和计算能力的提升,AI的多个领域取得了显著进展,但物理AI的发展却相对缓慢。这主要是因为训练物理AI的数据扩展更具挑战性,因为所需的数据必须包含交错的观察和行动序列。这些行动会扰动物理世界,并可能导致系统和世界遭受严重损害。尤其是在AI还处于初级阶段时,探索性的行动至关重要 。一种世界基础模型(WorldFoundationModel,WFM),即一个物理世界的安全数字双胞胎,已被长期视为解决数据扩展问题的解决方案。 在本文中,我们介绍了用于构建物理AI的CosmosWorldFoundationModel(WFM)平台。我们主要关注视觉世界基础模型,其中观测数据以视频形式呈现,扰动可以以多种形式存在。如图所示:Fig.2我们提出了一种预训练-然后后训练的范式,将WFMs分为预训练和后训练的WFMs。为了构建一个预训练的WFM,我们利用大规模的视频训练数据集使模型接触到多样化的视觉体验,从而使其成为通才。为了构建一个后训练的WFM,我们对预训练的WFM进行微调,使用特定物理AI环境收集的数据集来达到针对特定、专门化物理AI设置的专业化WFM。Fig.1显示了我们训练前和训练后的WFM的示例结果。 数据决定了AI模型的上限。为了构建一个高上限的预训练WFM(假设WFM为特定上下文中的术语),我们开发了一个视频数据整理管道。我们使用该管道来定位视频中动态丰富且视觉质量高的片段,这些片段有助于学习嵌入在视觉内容中的物理知识。我们从包含200万小时视频的集合中提取了大约1亿个长度在2到60秒之间的片段。对于每个片段,我们使用视觉语言模型(VLM)以每256帧生成一段视频字幕。视频处理计算密集型。我们利用现代GPU中可用的H.264视频编码器和解码器的硬件实现来进行解码和转码。我们的视频数据整理管道利用了许多预训练的图像/视频理解模型。这些模型具有不同的吞吐量。为了最大化生成可训练视频数据的整体吞吐量,我们构建了一个基于Ray的编排管道(假设Ray为特定上下文中的术语)。莫里茨等人。,2017)。细节在Sec.3. Weexploretwoscalableapproachesforbuildingpre-trainedWFMdiscussedinSec.5.Theseapproachesare 1贡献者和确认的详细列表可以在App.A这篇文章。 ©2025NVIDIA。保留所有权利。 训练前:扩散WFM 训练前:自回归WFM 培训后:摄像头控制 训练后:机器人操纵 培训后:自动驾驶 图1:宇宙世界基金会模型.预训练的CosmosWFMs生成高质量的3D一致视频,并具备准确的物理模拟。Cosmos模型套件包括扩散模型和自回归变换器模型,前者使用连续的潜在表示,后者使用离散的潜在表示来训练视频。通过使用专门的数据集对这些WFMs进行后训练,使其能够在广泛的物理AI设置中得到应用。具体来说,我们展示了具有摄像机可控性的模型、能够遵循指令进行机器人操作的模型以及适用于自动驾驶场景的模型。如需查看完整视频及其他更多视频示例,请访问我们的网站。网站. 自定义数据集 自定义数据集 自定义数据集 自定义数据集 培训后 WFM 培训后 WFM 预培训 WFM 培训后 WFM 培训后 WFM 图2:预训练的WFM是世界模型通才,使用大规模,多样化的视频数据集进行训练捕获真实世界物理的不同方面。这些预先训练的世界基础模型可以是专门的 到目标物理AI设置通过训练后。通常,用于训练后的数据集是“提示”-视频从目标物理AI设置中收集的对。提示可以是动作命令、轨迹、 说明,etc。由于预训练的WFM提供了很好的基础,用于后期训练的数据集可以是这种训练前和训练后产生了构建物理人工智能系统的有效策略。 在该图中,虚线表示数据循环。 基于变压器的扩散模型和基于变压器的自回归模型。扩散模型通过逐步去除高斯噪声视频中的噪声来生成视频。自回归模型则按预设顺序逐步生成视频片段,条件依赖于过去的生成结果。这两种方法都将一个复杂的视频生成问题分解为更易于处理的子问题,使其更具可操作性。我们利用最先进的变压器架构以实现其可扩展性。Sec.5.1,我们提出了一种基于变压器的扩散模型设计,该模型具有强大的世界生成能力 。在Sec.5.2,我们提出了一种基于变压器的世界发电自回归模型设计。 基于变换器的扩散模型和基于变换器的自回归模型都使用令牌来表示视频,其中前者以向量形式的连续令牌进行表示,而后者以整数形式的离散令牌进行表示。我们注意到,将视频转换为一组令牌的过程——即将视频转换为一系列令牌——是非常复杂的。视频包含了关于视觉世界的丰富信息。然而,为了使世界基础模型(WFMs)的学习得以进行,我们需要将视频压缩为一系列紧凑的令牌序列,并在计算复杂性随着令牌计数增加时最大限度地保留视频中原有的内容。在很多方面,构建一个视频编码器类似于构建一个视频编码器。我们开发了一种基于注意力的编码器解码器架构,用于学习对上述描述的连续和离散令牌的视频编码。Sec.4. 我们微调预先训练的WFM,以到达训练后的WFM,用于在Sec.6.InSec.6.1我们调整预训练的扩散WFM使其成为相机姿态条件化。这一后训练过程创建了一个可导航的虚拟世界,用户可以通过移动虚拟视角来探索这个创建的世界。Sec.6.2我们对各种机器人任务进行细调,这些任务包括视频-动作序列 。我们表明,通过利用预训练的WFMs,我们可以更好地根据当前状态预测世界未来的状态。 机器人采取的行动。在Sec.6.3,我们演示了如何针对各种与自动驾驶相关的任务对预先训练的WFM进行微调。 我们开发的WFMs(世界基础模型)的预期用途是为物理AI构建者服务。为了更好地保护开发者在使用这些世界基础模型时的安全,我们开发了一个强大的防护系统,该系统包括一个预防护模块以阻止有害输入 ,以及一个后防护模块以阻止有害输出。详细内容将在后续部分描述。Sec.7. 我们旨在构建一个全球基础模型平台,以帮助实体人工智能建设者提升其系统。为了达成这一目标,我们根据NVIDIA开放模型许可协议,在以下链接提供了预训练的世界基础模型和分词器: [Insertlinkhere]NVIDIACosmosandNVIDIACosmosTokenizer培训前脚本和培训后脚本将分别在NVIDIANemo框架借助视频数据整理管道来帮助构建者制作微调数据集。尽管本文在世界基础模型设计方面做出了多项改进,但世界基础模型的问题仍然远未解决。还需进一步的研究以推动该领域的进步。 2.世界基金会模型平台 Let푥 0:푡是从时间0到现实世界的一系列视觉观察푡.Let푐 푡是对世界的扰动。如Fig.3,WFM是一个模型풲预测未来的观测时间푡+1,푥ˆ 푡+1,基于过去的观察푥 0:푡和当前的扰动푐 푡在我们的案例中,푥 0:푡是RGB视频,而푐 形式的扰动。它 可以是物理AI采取的行动、一个 世界基金会模型:� 푡是一种可以采取多种随机扰动,或者扰动的文字描述等 。�0:� 𝑐� �ˆ�+1 图3:世界基础模型(WFM)풲是一个生成未来世界状态的模型푥 基于过去的观察和电流扰动。푡+1 푥푐 0:푡푡 2.1.未来宇宙 我们认为WFM在许多方面对物理AI构建者有用,包括(但不限于) •政策评估。这指的是对物理AI系统中的政策模型质量进行评估。与其将训练好的政策部署到实际运行的物理AI系统中进行评估,不如让物理AI系统的数字副本与世界基础模型互动。基于WFM的评估更加经济高效且节省时间。借助WFM,建设者可以在未见过的环境中部署政策模型,这些环境通常是不可用的。WFM可以帮助开发者快速排除无效的政策,并将物理资源集中在少数有前景的政策上。策略模型生成要由物理AI系统根据 策略初始化。 当前的观察结果和给定的任务。一个well-trainedWFM可以根据输入的扰动模型世界的动态模式,可以作为政策模型的良好初始化。这有助于解决物理AI中的数据稀缺问题。•与奖励模型配对的WFM可以是物理世界提供的代理 政策培训。 在强化学习设置中对政策模型进行反馈。代理可以通过与工作流管理器(WFM)交互来提升解决任务的技能。 •规划或模型预测控制。一种WFM可以用于模拟物理AI系统采取不同行动序列后可能出现的各种未来状态。然后可以使用成本/奖励模块根据结果量化这些不同行动序列的表现。最后,物理AI可以根据整体模拟结果执行表现最佳的行动序列,类似于规划过程。 算法或在退潮式(recedinghorizon)方式下,如同模型预测控制(model-predictivecontrol)所采用的方法。世界的模型上界定义了这些决策策略的性能准确度。 •合成数据生成。一个WFM可以用于生成合成数据进行训练。此外,它可以进一步调整以条件化渲染元数据,如深度图或语义图。对于模拟到现实的应用场景,可以使用条件化的WFM。 尽管列出了这些可能性,本论文并未包含将CosmosWFMs应用于它们的实证结果。我们渴望在未来的工作中验证这些主张。 2.2.CurrentCosmos 宇宙 视频策展人 标记器 预培训世界基金会 模型 世界基金会 模型培训后样品 护栏 图4:CosmosWorld基金会模型平台由多个主要组件组成:视频策展人、视频分词器、预训练的世界基础模型、世界基础模型后训练样本以及边界防护。 Fig.4本报告可视化了CosmosWFM平台中包含的内容,该平台包括视频策展、视频令牌化、世界基础模型预训练、世界基础模型后训练以及护栏功能。 视频策展人。我们开发了一套可扩展的视频数据整理管道。每个视频被分割成单独的镜头,不包含场景变化。然后应用一系列筛选步骤来识别高质量且信息丰富的子集用于训练。这些高质量的镜头随后使用VLM进行标注。接着我们执行语义去重以构建一个多样化但紧凑的数据集。 视频标记化。我们开发了一系列不同压缩比的视频分词器家族。这些分词器具有因果性特征。当前帧的分词计算并不基于未来的观察,而是基于过去和当前的信息。这种因果设计具有多个优点。在训练方面,它使得联合图像和视频的训练成为可能,因为当输入为单张图片时,因果视频分词器同时也是图像分词器。这对于视频模型利用包含丰富世界外观信息且往往更加多样的图像数据集进行训练至关重要。在应用方面 ,因果视频分词器与生活于因果世界的物理人工智能系统更相匹配。 WFM预培训。我们探索了构建预训练世界基础模型的两种可扩展方法——扩散模型和自回归模型。我们采用transformer架构,因其具有可扩展性。 对于基于扩散的WFM,预训练包含两个步骤:1)文本到世界生成预训练;2)视频到世界生成预训练。具体而言,我们首先训练模型根据输入的文字提示生成一个视频世界。然后,我们将模型进一步微调,使其能够基于过去的视频和输入的文字提示生成未来的一个视频世界,这一任务被称为视频