AI智能总结
报告导读:智元发布首个通用具身基座模型智元启元大模型,GO-1大模型将加速具身智能的普及,关注智元产业链的相关机会。 智元发布首个通用具身基座模型GenieOperator-1。3月10日,智元发布首个通用具身基座大模型GO-1,开创性地提出了Vision-Language-Latent-Action(ViLLA)架构,该架构由VLM(多模态大模型)+MoE(混合专家)组成,其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的LatentPlanner(隐式规划器)借助大量跨本体和人类操作视频数据获得通用的动作理解能力,MoE中的ActionExpert(动作专家)借助百万真机数据获得精细的动作执行能力,三者环环相扣,实现了可以利用人类视频学习,完成小样本快速泛化,降低了具身智能门槛,并成功部署到智元多款机器人本体,持续进化,将具身智能推上了一个新台阶。 GO-1:VLA进化到ViLLA。为了有效利用高质量的AgiBotWorld数据集以及互联网大规模异构视频数据,增强策略的泛化能力,智元提出了ViLLA这一架构。在推理时,VLM、LatentPlanner和ActionExpert三者协同工作。其中LAM(隐式动作模型)主要用于获取当前帧和历史帧之间LatentActions的Groundtruth(真值),它由编码器和解码器组成。LatentPlanner负责预测这些离散的LatentActionTokens,它与VLM主干网络共享相同的Transformer结构,同时引入ActionExpert。结果显示,相比已有的最优模型,GO-1成功率大幅领先,平均成功率提高了32%(46%->78%)。 GO-1的推出标志着具身智能向通用化、开放化、智能化加速迈进。GO-1大模型可泛化应用到各类的环境和物品中,快速适应新任务、学习新技能。同时,它还支持部署到不同的机器人本体,高效地完成落地,并在实际的使用中持续不断地快速进化,包括:1)从单一任务到多种任务;2)从封闭环境到开放世界;3)从预设程序到指令泛化。GO-1大模型将加速具身智能的普及,在商业、工业、家庭等多领域发挥更大的作用,通向更加通用全能的智能未来。 投资建议:重点关注国产机器人整机厂和零部件公司,包括:1)整机厂;2)执行器和电机;3)减速器;5)传感器;6)丝杠类。 风险提示:国产设备替代进度不及预期风险、人形机器人产业化不及预期风险、产业政策不及预期风险。 文章来源 本文摘自:2025年3月11日发布的《智元发布首个通用具身基座大模型GO-1》肖群稀,资格证书编号:S0880522120001 欧阳蕤,资格证书编号:S0880523120002 更多国君研究和服务 亦可联系对口销售获取 重要提醒 本订阅号所载内容仅面向国泰君安证券研究服务签约客户。因本资料暂时无法设置访问限制,根据《证券期货投资者适当性管理办法》的要求,若您并非国泰君安证券研究服务签约客户,为保证服务质量、控制投资风险,还请取消关注,请勿订阅、接收或使用本订阅号中的任何信息。我们对由此给您造成的 不便表示诚挚歉意,非常感谢您的理解与配合!如有任何疑问,敬请按照文末联系方式与我们联系。 法律声明