W Wh hi it te e e P Pa ap pe er r G G e en nA AI I- -p po ow w e er re ed dS SD DG Gi fn or R R o o b b o o ti t c ic ss合成数据生成的作用至关重要研究人员和工程师可以利用NVIDIA Omniverse™平台及其相关的框架和参考应用程序,例如NVIDIA Replicator、NVIDIA Warp和NVIDIA Isaac Sim™,用于创建基于物理、支持人工智能的3D环境,这些环境能够精确模拟现实。这些基于物理的环境可以生成多种数据集,用于训练和验证人工智能模型,使它们能够处理从日常任务到罕见、难以复制的场景等各种情况。精确的传感器仿真,复制现实世界的感官输入。支持高级用例的复杂声学或磁性建模。合成数据集通过精确模拟提升了模型的泛化能力、鲁棒性和效率。更智能、更安全的机器人,能够导航不可预测环境的发展,是通过以下进展实现的:超越视觉数据,物理建模和仿真是生成非视觉合成数据的强大工具,这对于在机器人、自主动力系统、工业4.0和物联网(IoT)中训练、测试和验证物理AI系统至关重要。非视觉数据包括超越视觉图像的感觉输入,例如温度、压力、声信号、力/扭矩数据以及电磁场。动态环境交互使AI模型能够应对真实变化。收集现实世界机器人数据是耗时、昂贵,并且存在安全和环境问题。通过物理精确模拟生成的合成数据,为现实世界数据收集提供了一种可扩展且具有成本效益的替代方案。 22 3合成数据生成的主要优势白皮书 G enerAI赋能机器人可持续发展合成数据生成(SDG)改变了人工智能训练、机器人模拟和高级自动化。SDG提供了一种具有多种优势的可扩展、高效和安全的替代方案。通过利用如框架和参考应用程序等NVIDIA Omniverse™ 复制器,NVIDIA Isaac Sim™,扭曲,ANSYS,并且MATLAB,行业可以生成高保真度数据集,包括结构化和非结构化数据。sdg超越了视觉光谱,包括lidar、雷达、声信号和范围传感器数据,这对于在复杂环境中运行的机器人开发高度逼真的训练场景至关重要。sdg通过提供变革性优势,解决了人工智能模型开发和机器人模拟中的关键挑战,包括:4平衡数据集通过生成合成示例来填补数据集的空白,减少偏差,并提高人工智能模型的公平性和准确性。2数据增强增强数据集,通过引入天气变化、光照变化和物体定位变化等多样化变化,提高模型在不同条件下的鲁棒性和适应性。3处理罕见事件模拟罕见或极端场景,例如紧急情况或不寻常的系统条件,以在边缘案例上进行训练,这些案例在物理上难以复制。先模拟方法允许机器人在虚拟世界中接受训练,减少对昂贵的物理测试的需求,并能够为现实世界场景进行迭代改进。通过将合成数据与机器人仿真集成,创新的物理人工智能解决方案以更低的成本出现,推动机器人、医疗保健、汽车和工业自动化领域的进步。1数据隐私和安全确保符合隐私法规,通过复制真实世界数据而不包含敏感个人信息,防止数据泄露和伦理问题。 白皮书 G enerAI赋能机器人可持续发展7高保真传感器数据生成逼真的传感器数据,包括激光雷达、雷达、声学信号和力/扭矩测量,这对于在复杂环境中验证人工智能系统至关重要。生成卓越合成数据的背后技术它们通过将多样化的合成数据集与逼真的模拟环境相结合,一起简化了物理AI模型训练和机器人系统验证。它们的集成确保了稳健的AI开发、高效的原型设计以及现实世界应用的可靠性。6避免过拟合介绍多种合成数据集以防止过拟合,使AI模型能够在真实世界环境中有效泛化。TheNVIDIA Omniverse™平台,凭借其强大的SDK、API和微服务,以及复制器框架和isaac sim仿真参考应用,为构建高级工具、应用和工作流程提供了坚实的基础,以增强SDG和机器人仿真。5可定制场景允许创建定制的场景以模拟独特条件或特殊用例,为行业特定需求提供精确性和灵活性。NVIDIA Isaac Sim™,一款用于机器人仿真的参考应用程序,允许开发者构建用于系统验证和测试的物理真实环境。其高保真渲染和对数字孪生的支持使工程师能够精确模拟现实世界物体的物理属性,从而进行精确的性能测试和系统可靠性评估。英伟达复制器通过模拟多样化的环境、光照、天气和物体交互,生成高保真、照片级真实感的数据集,为物理人工智能模型提供全面的训练数据。它利用程序生成技术来创建多样化的场景,确保人工智能的鲁棒性和泛化能力。它还支持传感器模拟,如激光雷达,这对于移动机器人和自动驾驶汽车的样机开发至关重要。 4 用例1:使用sdg增强真实训练数据白皮书 G enerAI赋能机器人可持续发展使用真实世界数据训练机器学习模型常常在制造过程中造成瓶颈,因为即使一张图像丢失也会导致生产延迟。这形成了一个依赖循环,即制造无法开始直到模型训练完成。只有SDG才能打破这个循环,允许在收集真实数据集之前进行模型训练。虽然具有挑战性,但仿真技术的进步正在增加仿真与现实差距很小的场景。收集用于训练机器学习(ML)模型的真实世界数据成本高昂且费时费力,需要大量人工收集和标注。像分割这样的任务尤其具有挑战性,即使付出巨大努力,真实世界数据也往往缺乏训练模型所需的多样性,尤其是对于罕见或边缘情况。SDG通过消除对大规模人工工作和高质量合成示例的依赖,直接应对这些挑战。这种方法通过在光照、物体定位和环境方面引入受控变化来丰富数据集,从而增强模型的鲁棒性和适应性。利用合成数据生成来训练人工智能模型 白皮书 G enerAI赋能机器人可持续发展nvidia omniverse™ replicator 可促进结构化与非结构化合成数据的生成。这包括激光雷达读数、力和扭矩数据,以及鹿、织物或标签等物品的逼真照片,确保数据多样化且真实。 用例 2:复杂数据对象的 SDG白皮书 G enerAI赋能机器人可持续发展图4. 室外环境合成数据集。该项目旨在通过考虑动物和其他车辆的行为来提高道路安全。软伺服的可持续发展目标方法论,使用像英伟达Warp这样的工具,通过建模灵活物体及其与刚性表面的相互作用,捕捉弹性、摩擦等细微之处,这确保了合成数据集能够准确地反映现实世界的场景。传统SDG管道擅长模拟刚体,但在软体与刚体之间复杂的相互作用方面需要帮助,这些相互作用涉及动力学、变形和材料属性。图5. 基于NVIDIA Warp的标签变形模拟和合成数据生成。动态对象建模能够以可变的作用力、纹理和材料生成数据。这些高保真模拟对于需要精确度的任务至关重要,例如软材料的机器人操作。它们帮助物理人工智能模型学习复杂行为并适应动态环境。 7 以生成式人工智能加速物理人工智能的可持续发展目标在此协同效应的核心:白皮书 G enerAI赋能机器人可持续发展美元搜索为资产发现带来了类似大型语言模型(LLM)的功能,使开发人员能够快速从海量资产库中定位和整合各种3D模型、纹理和背景。英伟达伊萨克·西蒙™, 一个机器人模拟的参考应用程序, 提供图6. 连接USD Search NIM与Replicator以增加场景中模型的种类。生成式人工智能正在改变通用人工智能,能够实现高度自动化、可扩展和多样化的数据管道,以满足物理人工智能的需求。NVIDIA Omniverse™ Replicator、NVIDIA Isaac Sim™、USD Search和 NVIDIA 推理微服务(NIM)协同工作,创建综合数据集,这对于训练机器人、自主系统和制造业中的人工智能模型至关重要。NVIDIA NIM™微服务通过管理和优化神经网络模型来提升SDG流程,确保数据集既多样又真实。NVIDIAOmniverse™ 复制器使开发者能够将领域随机化功能引入其解决方案中,例如,在3D 场景中修改对象属性(如大小、颜色、材质和位置)。这确保了数据集捕获物理 AI 系统在现实场景中有效泛化所需的可变性。逼真的、基于物理的模拟,允许在紧密模拟真实世界条件的虚拟环境中对物理AI系统进行细致的验证和测试。 8 用于验证和测试的机器人仿真白皮书 G enerAI赋能机器人可持续发展该方法减少了开发时间,最大限度地缩短了安装停机时间,并提高了机器人系统的可靠性和效率,使其在制造和物流领域尤其宝贵,在这些领域,精度、可扩展性和灵活性至关重要。将合成数据与模拟相结合,重塑了机器人领域,将“先模拟”方法确立为具有成本效益和高效开发的核心。协同起来,这些技术使开发者能够创建前所未有的数据随机化和逼真度,减少了传统数据收集的时间和成本、资源需求,并缩小了模拟与现实条件之间的差距。其结果是能够生成高度多样化合成数据集的可扩展流程,加速了各行业健壮物理人工智能解决方案的开发。虚拟调试(VC)仿真对于通过模拟验证和测试机器人系统至关重要。它使工程师能够在虚拟环境中开发和改进系统,通过创建包含机械、电气和控制组件的数字孪生。这种方法允许在不涉及物理原型成本和风险的情况下测试系统行为和控制算法,确保在预期环境中实现有效的集成和功能。图7. 用于6DOF姿态估计的合成数据集生成中应用的机器人通用人工智能。工程师们利用先进的工具创建高度精细和精确的模拟,这些模拟复制了现实世界条件。这种方法能够进行全面测试,涵盖各种场景和边缘案例,这些场景和案例在物理上是难以或不可能重制的。 9 10白皮书 G enerAI赋能机器人可持续发展软件在环(SIL)测试提供宝贵的验证机会,并补充硬件在环(HIL)测试原则。虽然HIL利用物理硬件在真实场景中评估性能,但SIL专注于在模拟环境中独立验证软件。这种方法能够在硬件可用之前尽早发现软件缺陷,并确保功能的正确性。SIL利用高保真模拟来模拟系统输入和输出,通常使用真实数据,以最小资源促进迭代开发和回归测试。通过将软件单元测试与以硬件为中心的HIL测试相结合,SIL加速开发,降低成本,并允许对难以在物理硬件上复制的边缘案例进行受控测试。这些框架适用于各种行业,包括自动化仓库管理和汽车安全开发。图8. 涉及SDG的端到端虚拟开发与测试平台架构 11表。不同行业中机器人模拟的示例。白皮书 G enerAI赋能机器人可持续发展行业应用实例制造使用合成数据模拟锈蚀检测系统以验证人工智能不同条件下的模型。太空探索在SDG创建的模拟月球环境中测试月球无人机导航和检测的数据集。工业自动化使用sdg测试对象优化机器人装配线运动在不同场景下的操控。能源,石油和天然气模拟复制机器人的各种操作条件并增强预测性维护和检查。汽车模拟自动驾驶汽车的各种场景,包括具有挑战性的天气状况、不同的光照条件以及复杂的道路环境。医疗保健SDG 生成用于异常检测等任务的人工合成数据集诊断成像并维护患者隐私,同时加速模型开发。农业训练模型以优化作物管理,提供精准和控制环境下的效率。施工和采矿sdg优化了机器人操作以进行现场检查和物料处理。该架构通过为模型训练创建合成数据并将其整合到标准开发流程中,提升了仿真能力。软件通过实时场景仿真在真实硬件上进行测试,使用专用接口进行图像流序列化和传感器/执行器特定功能。这种方法允许进行性能验证和KPI计算,识别改进领域,并解决问题。最终,通过在受控的虚拟环境中进行机器人操作,仿真可提高安全性并降低风险,确保在部署前进行充分验证,并最大限度地减少操作故障或事故。 图9. P&L方法对NVIDIA工具集成的架构。白皮书 G enerAI赋能机器人可持续发展前置仿真机器人:佩菲尔与兰根案例研究整合复制器和isaac模拟器产生了显著的结果节省了收集、标记和训练计算机视觉模型所需时间的50%. 由 Replicator 生成的超高保真数据集提高了物理人工智能模型的准确性和鲁棒性,改善了垂直农业的机器人视觉系统。与此同时,Isaac Sim 实现了机器人操作的精确模拟,确保了准确的数据收集和有效的植物生长和健康监测。总体而言,通过利用合成数据和虚拟仿真,P&L 降低了运营成本并加速了上市时间。使用nvidia omniverse™复制器,SoftServe团队生成