
•⼤模型在机器⼈⾏业的应⽤潜⼒巨⼤,特别是在提升机器⼈⾃主智能和多模态感知、认知能⼒⽅ •⼈形机器⼈通过⼤模型控制各种⾏为,推动了⾏业发展;⼤模型被视为‘⼼灵’,有助于机器⼈在复杂环境中的决策和执⾏。•⼤模型对不同类型机器⼈影响显著,能提⾼机械臂、物流机器⼈等的泛化能⼒和执⾏效率,是通 ⽤⼈⼯智能发展的关键。2. ⼤模型促进机器⼈智能⾰新 •⼤模型关键能⼒:感知融合多模态数据、认知理解含义、⽣成 推理逻辑链、控制精准动作序列•⼤模型前景与挑战:在⼈形机器⼈结合应⽤中有极⼤潜⼒,各国机构包括⾕歌、英伟达等在⾃ 监督训练和具身智能上不断发展•国内外机器⼈⼤模型竞赛:通过挑战赛推动⼤模型在多样场景下的实践应⽤,国内⾼校如清华 、复旦等表现突出,证实了⼤模型结合机器⼈的有效性3. ⼤模型驱动机器⼈进化论 •⼤模型对⼈形机器⼈的影响:⼤模型使机器⼈能够⾃主规划动作轨迹,提⾼效率并降低成本,实现了单⼀任务到⻓链任务的转变,逐步赋予机器⼈执⾏复杂任务的能⼒。•⾕歌机器⼈发展⽅向:⾕歌的机器⼈模型(RT系列)从简单的关节运动规划发展到复杂的多 模态数据教育和任务执⾏能⼒,未来可能包括双⼿协作等更⾼级操作。以实现机器⼈仿真训练,借助其图形计算背景推动机器⼈在复 杂环境中的运动仿真和任务培训。 4. 英伟达⼈形机器⼈赋能解析 •⼤模型为⼈形机器⼈赋能,提供⾼逼真度的仿真环境和物理引擎计算,包括虚拟世界中的机器⼈和数字⼈形,并涵盖多种场景(如⼯⼚、咖啡厅)。•IsaacAI平台由四⼤组件构成:仿真场景(SMCM)、机器⼈应⽤(IsaacAPP )、算法模型(GEMS)、软件⼯具及硬件对接(Engine),⽀持机器⼈的仿真应⽤和技能训练。•英伟达为平台底层硬件计算提供⽀持,通过GPU等硬件产品促进机器⼈和⾃动驾驶汽⻋等领 域的发展,并在⼈形机器⼈⽅⾯进⾏投资,显示其在机器⼈领域能⼒打造和未来发展上的布局。5. 特斯拉⼈形机器⼈的软硬实⼒•特斯拉Optimus迭代速度快且超预期,受其软件端优势驱动。 •⼈形机器⼈软硬件成熟度、零件优化及整合能⼒是核⼼挑战;国内外⼚商均⾯临这些通⽤难题。 •国内⼤模型:主要依赖开源平台,结合本地数据训练。端到端整合能⼒和软硬件全能性是竞争⼒的关键。6. ⼈形机器⼈演进与⼤模型赋能 •⼈形机器⼈依赖⾼算⼒进⾏多传感器数据处理,影响运动速度 与精细度,对算⼒和通信技术提出挑战。•数据是关键,⽬前机器⼈训练主要在仿真环境中进⾏;合成数据技术⽇益发展,未来低成本数 据获取⼿段增多,合成数据将成为训练机器⼈的重要⼿段。格式是潜在解决⽅案,可能需要业界共同契机来实现,合作与 技术⾰新是解决数据孤岛的关键。Q&A Q:⼤模型如何影响机器⼈⾏业,并给⼈形机器⼈带来了哪些变化?A:⼤模型对机器⼈⾏业的影响主要体现在提升了机器⼈的智能⾃主 能⼒。传统深度学习算法在复杂 场景下的应⽤存在局限性,⽽⼤模型 的出现允许机器⼈在多模态交互、感知认知以及⾏为指令⽣成等 ⽅⾯实现更加⾃动化和通⽤化。特别是结合了多模态数据如语⾔、视觉的⼤模型,能够有效提⾼机器⼈对环境的感知和认知能⼒,从⽽⽣成更 复杂的⾏为指令。⼈形机器⼈通过⼤模型的控制,能够执⾏相⽐传统 机器⼈更丰富和灵活的任务,这推动了⼈形机器⼈及整个机器⼈⾏业 的发展。⼤模型可以理 解为”⼼灵”,为机器⼈提供决策能⼒,⽽机器⼈则作为执⾏这些决策的⾃动化设备。Q:⼤模型对不同类型的机器⼈有怎样的影响? A:⼤模型对所有类型的机器⼈都有积极影响。在⼯⼚环境下的机械 臂可以通过⼤模型加快识别不同 物体并控制关节运动,提升了机器⼈的泛化能⼒和效率。⼤模型可以替代⼈⼿进⾏教学和编程,从感知、决策到运动轨迹的⽣成都可以⾃动完成。在物流领域,结合地图和强 化学习的⼤模型可以帮助机器⼈优化路径规划。对于⼈形机器⼈,⼤模型则更是关键,它提供了通⽤⼈⼯智能的能⼒,⽀持机器⼈在 更多 维度的任务中实现⾃主决策和执⾏。不同类型的机器⼈都能通过⼤模 型在各⾃的模态或多模态上获得性能提升,但也指出这个过程仍在发 展中,机器⼈⾯临的三维实际环境交互远⽐⼆维屏幕算法 复杂。Q:⼤模型要实现对⼈形机器⼈的改变,需要哪些关键能⼒的提升? A:⾸先,机器⼈需要获得多模态的感知能⼒,这包括通过视觉、语⾳、触觉等,甚⾄可能是超出⼈类 感知范围的能⼒,⽐如红外、超声 波、或者特定的⽓味检测。⼤模型要解决的是如何将这些模态融合起 来形成对环境的整体感知。其次是提⾼认知层⾯的能⼒,即不仅能感知物体,还需要理解它们背后的意义和⽤途。⼤模型在认知层⾯已展 现出强⼤能⼒,⽐如对⼀个事物 的⽤途有⾮常准确的认知。第三是决 策和推理能⼒,能让机器⼈根据认知进⾏合适的⾏为选择。再进⼀步,⽣成逻辑思维链,形成动作代码,控制机器⼈精准的运动,泛化 能⼒则让机器⼈具备在未经指导的情况下⾃主学习和执⾏任务的能⼒,这对机器⼈的⾃主性和适应性⾄关重要。整体⽽⾔,感知、决策、运动控制和泛化能⼒是⼤模型提升的关键能⼒。Q:⽬前全球在机器⼈⼤模型领域有哪些主要的研究机构或项⽬?他 们的进展如何? A:在机器⼈⼤模型的研究⽅⾯,⾕歌因为transformer模型⽽独占鳌 头,他们有很多分 布在机器⼈领域的研究。此外,DeepMind和 Stanford共同的项⽬、英伟达发布的论⽂,以及华裔科学家吉姆范等 的⼯作,都在机器⼈与⼤模型结合领域表现突出。这些研究机构在探 索机器⼈形态简单化和⼤模型结合上取得了初步成效,验证了⾃监督 训练原理在结合⼤模型和机器⼈上的可⾏性。国内⽅⾯,达摩院在与 中国计算机学会联合举办的机器⼈⼤模型与具身智能挑战赛中展现了 实质进展。参与的⾼校⽤提供的⼈形机器⼈平台,在⼤模型的⽀持下 完成了咖啡厅场景中的多任务服务。这些进展代表该领域的实际应⽤前景,显示出未来机器⼈可通过⼤模型来进⾏更⾼效的⾃主训练和任 务执⾏。Q:⽬前有哪些重要的突破成果在⼤模型在⼈形机器⼈领域,以及海 外公司如⾕歌的⼤模型进化⽅向 及⻣科RT机器⼈⼤模型迭代的区别 和未来演进⽅向?A:⾸先,RT(robottransformer)模型是指⼀系列机器⼈变形器模 型。⾕歌最 初的RT1模型相对简单,主要能完成单⼀任务,如打开抽 屉,运⽤机械臂和底盘移动以及视觉定位和运动规划算法。⼤模型使 得机器⼈可以⾃⾏计算出最⾼效低成本的动作轨迹。RT2模型则引⼊了更⾼层次的决策能⼒,能够解决复杂的任务链,例如从抽屉中取出 指定物体。这个阶段的模型不仅处理关节运动,还包括⻓链任务和⾼层决策。接下来的演进⽅向,预计会是RTX模型,将包括多种模态数 据的整合,更复杂的机器⼈设计,以及对双⼿协作操作等能⼒的开发。⾕歌的⼤模型以简单功能起步,但逐渐向具备更丰富技能和能完 成更复杂任务链的⽅向发展,这将需要⼤量的数据训练和算法优化。Q:英伟达在机器⼈领域的布局情况,IIC平台具体是什么,并就英 伟达未来可能的突破性底层⼯ 具进⾏预测。A:英伟达过去以图形计算起家,并在推⼴元宇宙时发挥了积极作⽤,其GPU计算能⼒对于图形化环 境的仿真⾄关重要。英伟达推出的 IIC(Isaac)平台主要是⼀个以数字仿真为基础的机器⼈训练系统,其内容丰富,包含了速度孪⽣技术等组件。IIC平台不是⼀个⼤模 型,⽽是⼀个集成多种技术的平台,尤其是⽤于机器⼈仿真训练的 SXC系统,能够提供详细的架构和作⽤分析。按照预测,英伟达未来 可能会在底层⼯具⽅⾯进⾏突破,尤其是在促进复杂场景下的机器⼈运动能⼒这⼀⽅⾯,可能会包括更⾼级的仿真训练系统的开发,以及 更多与双⾜⼈形机器⼈相关的技术。Q:⼤模型如何赋能⼈形机器⼈? A:NVIDIA之前推出的Omniverse平台能够⽤于建筑设计以及复杂系 统如⼯⼚和汽⻋的数字孪⽣组装。Isaac系统为机器⼈构建了⼀个仿真 平台,包含四个主要组件。⾸先是仿真场景SMCM,这⾥⾯包含各种 物体、机器⼈的模型和数字代表⼈的数字⼈。这个场景的逼真度⾼,有相应物理引擎计算能⼒,能够处理流体、碰撞、运动等物理现象。第⼆个组件是IsaacSDK,它提供了为不同机器⼈设计的应⽤程序。第 三部分是IsaacGEMS,包括机器⼈应⽤所需的各种算法模型,如深度 学习视觉算法、激光雷达处理、2D/3D解析和通过强化学习训练的技 能。这些基本技能或API能够组合成完成复杂任务的应⽤程序。第四 部分是IsaacEngine,它提供软件开发扩展和配套⼯具,以及与ROS系 统的对接。NVIDIA的硬件,包括GPU和RTX系列,是整个平台的底 层计算⽀撑。利⽤这套系统,不管是⾃动驾驶汽⻋还是机器⼈,都能 在其中得到训练。结合GPU芯⽚的性能,NVIDIA在⼈形机器⼈领域 已有投资,对未来的发展很有信⼼,认为结合这些技术,NVIDIA在⼈形机器⼈场景中会有很⼤的发展潜⼒。Q:您如何看待特斯拉在⼈形机器⼈领域的软件竞争⼒? A:特斯拉的⼈形机器⼈Optimus的迭代速度相当快,这部分确实展 现了他们在软件领域的优 势。尽管机器⼈的步态⾏⾛和抓取动作明显 由软件驱动,但硬件成熟度上的提升没有特别⼤的⻜跃,像⼈形机器⼈这样由众多零件组成的复杂系统需要更⻓的周期来实现迭代。与之 相⽐,像trans former算法这样的软件,⼀旦验证,就能通过不断输⼊数据并借助强⼤算⼒快速迭代。英伟达的仿真训练系统和计算平台对 特斯拉的⼈形机器⼈有架构上的优势,但由于⼈形机器⼈要完成的任 务远⽐⾃动驾驶复杂丰富,挑战剧增。特斯拉可能会因为资源和品牌 优势发展得更快。Q:关于国内⼤模型对⼈形机器⼈的应⽤,您怎么看? A:华为投资了机器⼈公司,也在尝试构建平台化和⽣态系统,但⽬前关于他们的进展还难以预测。到 ⽬前为⽌,国内模型⼤多基于开源 系统,结合⾃身数据进⾏训练。百度、讯⻜等公司在中⽂模型上有显 著成就。⽆论如何转⽤⼤模型技术于机器⼈,硬件⽅⾯仍将是⼀个新 挑战。技术多已开源,主要看各⼚商端到端整合的实⼒。成功的⼤模 型将需要软件和硬件全领域的强⼤能⼒,同时包括训练和虚实结合的⽣态系统。Q:在具身智能发展过程中,⼤模型会如何演化以适应不同的感知和 运动需求? A:未来⼤模型的发展趋势将包括更多模态和数据的整合,例如加⼊触觉和听觉模型。不光是增强现有 的视觉和语⾔模型,还会提升动作 的速度和精细度,这些都是⼤模型需要演化和匹配进化的⽅向。 Q:⼈形机器⼈在技术和应⽤⽅⾯的当前状况是怎样的?⼤模型如何 赋能⼈形机器⼈?A:⽬前,⼈形机器⼈还处于实验阶段,各家都在尝试制作demo并探 索应⽤场景。这涉及到运动 能⼒、智能能⼒和效率的提升,⽐如完成 简单⼯作的能⼒和组装⼯作中的尝试。算法上,主要考虑传感器的帧 率、外界感知的数据量、机器⼈的运动速度与精细度,这些都要求⾜够的算⼒和通信能⼒,并且要考虑能耗。到了2024年,⼈形机器⼈的 开发还是需要软硬件结合和配合以迎合不同的应⽤场景。”⼤模型”通 过提供算法和数据处理能⼒,让⼈形机器⼈变得更加智能和⾼效,能 够更好地在不同的⼯作场景中执⾏任务。 Q:在⼈形机器⼈领域,⽬前和未来扩充数据的低成本⽅式是什么?如何应对数据孤岛问题?A:⽬前,机器⼈训练主要在仿真环境中进⾏。合成数据的⽣成⽅式 正在变得更加⾃动化和便捷,例如通过拍照上传场景并结合技术⽣成 虚拟场景。未来将有更多⼯具来扩展数据,⽐如可能会有3D场景的⽣成。合成数据可以减少成本,尽管它需要计算资源,但在数字化环 境中训练机器⼈是⾼效和低成本的⽅向。为了突破数据孤岛的问题,我认为技术上可以通过平台化将物理世界的数字化场景连接在⼀起,类似于互联⽹。未来可能需要发展契机,⽐如⾼品质的3D游戏场景 可能被⽤于机器⼈训练。 解决数据孤岛问题,不仅仅是技术挑战,更 涉及⾏业和公司间的利益协调,需要有意愿把资源整合起来。Q:未来⼈形机器⼈的迭代和⼤模型如何进化,及其在具身智能⽅⾯的演变会如何分阶段发展? A:具身智能应当属于⼈⼯智能的范畴,从弱⼈⼯智能到强⼈⼯智 能