您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国盛证券]:机械设备行业专题研究:机器人大脑是商业化焦点,Sim2real或成主流训练方案 - 发现报告

机械设备行业专题研究:机器人大脑是商业化焦点,Sim2real或成主流训练方案

机械设备2025-10-26张一鸣、何鲁丽国盛证券胡***
AI智能总结
查看更多
机械设备行业专题研究:机器人大脑是商业化焦点,Sim2real或成主流训练方案

机器人大脑是商业化焦点,Sim2real或成主流训练方案 从LLM到VLM再到VLA等,模型将机器人泛化性、执行动作的精确度、物理感知等性能逐步提高。LLM解决了大规模文本数据训练问题,VLM跨模态突破了文本的限制将图像视频也融入至大模型中,VLA则跨越了图像视频/文本的感知理解与机器人动作之间的鸿沟。早期VLA更多侧重视觉信息的输入,随着越来越多用于人形机器人中,触觉(Touch,通过力/触觉传感器获取的压力/摩擦力/纹理等信息)输入端也被加入到模型中,这可以提升模型的鲁棒性。各类VLA模型的性能也在逐步提升:RT-1发布时只回答了数据集建构和模型设计问题,并没有表现过多的泛化性和迁移性;RT-2则表现出了强大的泛化性,但其数据收集成本较高;ViLLA则可以采用无标注的视频来训练,同时也解决了之前机器人生产的动作不符合物理学问题。 增持(维持) 当前虚拟走向现实仍然存在巨大鸿沟,英伟达Sim2Real或为未来主流训练方式。Sim2Real的技术原理为利用合成数据生成技术,通过场景随机化、参数调整等方式让机器人接触大量不同数据积累经验,而后将仿真生成的精准数据与现实采集的少量数据输入Cosmos,生成更多样、更贴近真实情况的数据,用于训练机器人模型,使其能更好地适应现实世界。Sim2Real的核心纽带是串联3台计算机,第一台是AI超级计算机,为机器处理信息提供算力基础;第二台是仿真计算机,以Omniverse和IsaacSim为核心,让机器在虚拟世界掌握感知与交互能力;第三台是物理AI计算机,由GROOT、Cosmos和Jetson Thor构成,负责让机器人在真实世界执行任务。银河通用发布的DexonomySim开源合成数据集即是采用虚拟数据与真实数据合成而来,真实数据为辅(量少),虚拟数据为主。 作者 分析师张一鸣执业证书编号:S0680522070009邮箱:zhangyiming@gszq.com 分析师何鲁丽执业证书编号:S0680523070003邮箱:heluli3652@gszq.com 相关研究 1、《商业航天火箭端专题报告:下半年密集首发试射,开启商业航天元年》2025-08-132、《工程机械:国内外大周期均向上,利润弹性大》2025-06-173、《机械设备:触觉:机器人的下一个超级赛道》2025-03-02 海外Tesla Optimus采用的AI模型拟人化程度高,国内北京通用人工智能研究院有不错进展。Tesla Optimus的AI集成高度借鉴FSD((核心在于纯视觉和单一神经网络架构),并于xAI的Gork模型(处理自然语言和情感互动)深度融合,输入原始图像就可以直接规划出人类想要的动作执行,不依赖于激光雷达类似的点云图,拟人化程度高,且在尝试让机器人可以感知自己的身体物理特征(如手臂有多长等)。北京通用人工智能研究院的科研团队提出了全球首个“力位混合控制算法”的统一理论,无需使用传感器,相关任务成功率较只使用位置控制的策略提高了约39.5%。银 河 通 用 发 布 全 球 首 个 灵 巧 手 功 能 性 抓 取 合 成 大 数 据 集— —DexonomySim,推动具身智能走向实际应用。 投资建议:建议关注有涉及相关软硬件业务的上市公司如品茗科技(北京通用人工智能研究院)等。 风险提示:机器人应用模型开发不及预期风险,数据质量和数量不及预期的风险,时间推移风险,样本误差风险。 内容目录 LLM/VLM到VLA再到世界模型,人形机器人“大脑”发展迅猛...................................................................3全球人形机器人模型各异,Tesla optimus模型拟人化程度高.......................................................................8风险提示..............................................................................................................................................15 图表目录 图表1:LLM功能.................................................................................................................................3图表2:LLM工作机制...........................................................................................................................3图表3:VLM功能示例...........................................................................................................................4图表4:训练使用PrefixLM技术的VLM的示例.........................................................................................4图表5:RT-1的架构、数据集与评估概况................................................................................................5图表6:RT-2的训练中使用的动作字符串的表示形式................................................................................5图表7:Magma工作原理......................................................................................................................6图表8:LAM和ACT的组成...................................................................................................................7图表9:Gemini Robotics 1.5系列如何工作..............................................................................................7图表10:Tesla FSD V12神经网络架构....................................................................................................8图表11:Cortex1鸟瞰图.......................................................................................................................9图表12:Cortex2建设中.......................................................................................................................9图表13:Optimus模仿学习...................................................................................................................9图表14:Optimus视频学习...................................................................................................................9图表15:GO-1的框架..........................................................................................................................10图表16:GO-1中的MOE(混合专家)说明............................................................................................10图表17:Helix工作机制.......................................................................................................................11图表18:不同模型获取新机器人技能时的量化曲线.................................................................................12图表19:宇树世界模型架构..................................................................................................................13图表20:宇树世界模型中的决策模型架构..............................................................................................13图表21:力位混合控制算法可实现策略展示...........................................................................................14 LLM/VLM到VLA再到世界模型,人形机器人“大脑”发展迅猛 人形机器人的大脑是其核心控制系统,负责感知、理解、学习和决策等。机器人大脑主要有高性能计算平台和人工智能算法组成,主要负责处理感知(整合来自视觉、触觉等各类传感器的数据,形成对周围环境的全面理解)、决策(给出机器人执行任务所需的路径)、学习(学习新的算法适应新的环境等)。大模型是人形机器人实现高级认知和决策的关键技术,大模型从神经网络、深度学习以及LLM开始发展,其LLM的核心是基于大规模文本数据训练的Transfomer架构(采用注意力机制),LLM通过学习语言的统计规律与语义关联,实现对自然语言的深度理解、生成和推理。LLM本身不可以识别图像,但可以通过与图像编码器等组件结合为多模态模型,GPT系列、文言一心等均为LLM模型。 资料来源:GeeksforGeeks,国盛证券研究所 资料来源:GeeksforGeeks,国盛证券研究所 VLM是多模态模型,可以同时识别图像和文本,跨模态融合突破了文本的限制。LLM仅专注于单一文本模态,输入和输出均为自然语言,训练依赖于海量文本,基于Transformer“仅解码器”或“编码器-解码器”结构,无法直接处理图像、视频等视觉信息。VLM创新性的解决了这个问题,支