AI智能总结
事件:2025年3月10日,智元发布首个通用具身基座模型——智元启元大模型(Genie Operator-1),它开创性地提出了Vision-Language-Latent-Action (ViLLA)架构。 ViLLA架构介绍:它通过融合多模态大模型(VLM)和混合专家系统(MoE),实现了高效的场景感知、语言理解以及动作规 【东北机械|人形机器人】智元GO-1发布,关注智元链投资机会 事件:2025年3月10日,智元发布首个通用具身基座模型——智元启元大模型(Genie Operator-1),它开创性地提出了Vision-Language-Latent-Action (ViLLA)架构。 ViLLA架构介绍:它通过融合多模态大模型(VLM)和混合专家系统(MoE),实现了高效的场景感知、语言理解以及动作规划与执行能力。 其中,VLM借助海量互联网图文数据,赋予模型通用的场景感知和语言理解能力;而MoE中的Latent Planner和Action Expert分别负责通用动作理解和精细动作执行,通过隐式动作建模和扩散模型,将异构数据中的动作知识有效转化为实际操作能力,确保了信息流的一致性和协同优化。 ViLLA架构表现:它在多种复杂任务中展现出卓越的性能和泛化能力。 在“倒水”“清理桌面”和“补充饮料”等任务中,相比已有最优模型,成功率大幅提升32%(从46%到78%)。 此外,增加Latent Planner可进一步提升12%的成功率(从66%到78%)。 该架构还具备小样本快速泛化能力,能够在极少数据甚至零样本下适应新任务,显著降低了具身模型的使用门槛。 我们的观点:智元大模型持续进化,关注产业链投资机会。 ViLLA架构具备“一脑多形”和持续进化的特点,它作为通用机器人策略模型,能够快速适配不同机器人本体,支持在多种机器人形态之间迁移,实现群体升智。 智元在大脑与本体双重发力,#相关标的:博众精工、天准科技、中大力德、均普智能、绿的谐波、富临精工、步科股份、柯力传感等。