具身智能有望开启万亿级蓝海市场。在当前时点复盘机器人与人工智能的发展历程,机器人已经进入具身智能时代,与此同时,人工智能也将走向“物理AI”发展阶段。人形机器人是两者汇聚的交点,也是具身智能时代的临界点,有望成为新一代智能终端,并开启万亿级蓝海市场。 具身智能大模型为机器人“大脑”的核心。具身智能需要本体、智能体、数据、学习和进化架构四大核心要素,通用机器人本体又可以分为“大脑”、“小脑”和“肢体”三部分,其中,人形机器人“大脑”的核心为人工智能大模型技术,通过多模态模型建模、强化学习、地图创建和数据训练,能够管理和协调机器人的各种功能。大模型目前较为擅长需求理解、任务分解等高层级控制任务,规划级以下的控制规划属于传统机器人控制规划的范畴,更适合传统机器人更成熟的高频控制方法。多模态大模型为机器人高层级控制带来技术突破。多模态大模型具有理解图像、场景文本、图表、文档以及多语言、多模态理解的强大能力,可以直接用于具身智能对环境的理解,并通过提示词使之输出结构化内容如控制代码、任务分解等指令语言、图片、视频等。 国内外科技巨头与研究团队入局,具身大模型成果涌现。谷歌、特斯拉、微软、英伟达、李飞飞团队、特斯拉、字节跳动等国内外科技巨头和科研机构争相入局,具身大模型成果不断涌现:谷歌推出RT-1、PaLM-E、RT-2、RT-X等多个具身大模型;特斯拉坚持端到端算法路线,实现感知决策一体化并迁移至人形机器人;英伟达推出物理AI开发平台Nvidia Cosmo及一系列世界基础模型; 国内大厂字节GR-2在动作预测和泛化能力上表现出色。 具身大模型目前在泛化性、实时性、数据采集等方面存在挑战。当前的具身大模型通常存在泛化能力弱的问题,已经在特定场景达成较高成功率的模型在切换至不同场景时成功率大幅降低。实时性较差则体现在输出运动频率较低,使得机器人反射弧较长,低于人类和许多实际应用场景的需求。数据采集方面的挑战则体现在真实数据收集效率偏低、收集难度和成本偏高,合成数据的使用中则需要避免生成数据与真实数据差距过大或者样式单一。 云计算与边缘计算作为“大脑”的外延,保障机器人“大脑”高效运转。云计算是为机器人等终端设备提供算力的核心方式,云计算能够为AI、大模型与机器人的结合提供强大的计算能力和数据存储空间,以及能够随时随地获得所需资源和算法支持的灵活性、可拓展性;此外,边缘计算为云计算的数据传输成本、时延、安全性等方面的局限性提供了补充,为具身智能人形机器人落地保驾护航。 投资建议:2025年人形机器人行业进入小批量量产阶段,全球将有数千台人形机器人进入工厂场景训练,加速人形机器人“大脑”的发展。我们认为,目前人形机器人硬件端技术路线趋向收敛,软件端“大脑”智能水平的提升有望成为人形机器人自主性与泛化性提升的核心推动力。建议关注:1)“大脑”领域,布局大模型与机器人业务相结合的公司,如科大讯飞、中科创达、萤石网络、柏楚电子、华依科技、芯动联科、汉王科技等;2)AI+机器人领域,具备高壁垒的公司,如3D视觉领域奥比中光、大脑域控制芯片天准科技、新型传感器峰岹科技等;3)同步受益的机器人本体公司,如总成方案三花智控、拓普集团等。 风险提示:机器人算法迭代进步速度不及预期;人形机器人落地场景实际需求不及预期;市场竞争加剧。 1具身智能打开万亿蓝海市场 复盘机器人发展历程,具身智能时代已经到来。传统的工业机器人、协作机器人等需要按照提前设定好的程序步骤进行固定的工作,或者依靠传感器部件调整自身行为。通过搭载人工智能模型,具身智能机器人则有着智能化程度高、工作场景限制小、能够自主规划复杂工作的特点。 表1:智能机器人发展历程 具身智能机器人已经成为由“本体”和“智能体”耦合而成且能够在复杂环境中执行任务的智能系统。据高新兴机器人,具身智能机器人能够听懂人类语言,然后分解任务,规划子任务,在移动中识别物体,与环境交互,最终完成相应任务。 当前,已有不少研究者尝试将多模态的大语言模型与机器人结合起来,通过将图像、文字、具身数据联合训练,并引入多模态输入,增强模型对现实中对象的理解,帮助机器人处理具身推理任务。 图1:具身智能机器人是一个智能系统 复盘人工智能发展历程,下一发展阶段将是物理AI。在2025 CES的演讲上,黄仁勋表示,AI的发展有四个阶段,物理AI将是AI发展的下一个阶段,而通用机器人将是物理AI的核心载体。通用机器人给予人工智能身体,让人工智能有了直接改变物理世界的能力。AI对机器人的赋能主要集中在感知与决策层,使机器人能够与环境交互感知,自主规划决策行动。 图2:英伟达定义的人工智能发展四阶段 站在具身智能时代的临界点,人形机器人有望成为新一代智能终端,并开启万亿级蓝海市场。人形机器人兼具仿人外形与人工智能,具备操作人类生产生活工具的可能性,有望成为继个人计算机、手机和智能汽车之后的新一代智能终端。马斯克于2023年特斯拉股东会议上预测,未来全球的人形机器人数量有望达到100亿到200亿台,在人类生活和工业制造场景中得到应用,人形机器人将开启万亿级别蓝海市场。 2机器人“大脑”的时代机遇:具身智能大模型 2.1多模态大模型为机器人高层级控制带来技术突破 具身智能指的是机器人通过在物理世界和数字世界的学习和进化,达到理解世界、互动交互并完成任务的目标。据稚晖君,具身智能需要本体、智能体、数据、学习和进化架构四大核心要素。 图3:具身智能需要本体、智能体、数据、学习和进化架构四大核心要素 一般来讲,我们可以将一台通用人形机器人本体分为“大脑”、“小脑”和“肢体”三部分,分别对应决策交互模块、运动控制模块和执行模块。其中,人形机器人“大脑”的核心为人工智能大模型技术,通过多模态模型建模、强化学习、地图创建和数据训练,能够管理和协调机器人的各种功能。“大脑”是机器人智能与高级决策的核心,也是具身智能时代机器人区别于程序控制机器人(传统工业机器人、协作机器人等)的关键环节。 图4:“大脑”、“小脑”及“肢体”三大部分组成人形机器人 让机器人“大脑”实现突破最核心的推动力是大模型实现涌现、成为真正的生产力。大模型的能力与机器人的需求十分契合,只需要告诉机器人它要做的任务是什么,机器人就会理解需要做的事情,拆分任务动作,生成应用层控制指令,并根据任务过程反馈修正动作,最终完成人类交给的任务,整个过程基本不需要或者仅需少量人类的介入和确认,基本实现了机器人自主化运行,无需掌握机器人专业操作知识的机器人应用工程师介入。 图5:大模型推动机器人产业进入具身智能时代 大模型目前较为擅长需求理解、任务分解等高层级控制任务。根据《基于大模型的具身智能系统综述》,传统机器人的分层控制可以分为规划级、动作级、基元级、伺服级四个层次,具身智能机器人的控制一般可以粗略地分为高层和低层,其中高层负责全局、长期的目标,包括需求级、任务级、规划级和动作级;低层负责具体操作与及时反馈,包括基元级与伺服级。与传统机器人相比,具身智能机器人增加了需求级与任务级的控制。虽然大模型具有丰富常识与较强的推理能力,但精确性、实时性较差,所以目前往往不会直接参与机器人的低层次控制,而是通过需求理解、任务规划、动作生成等方式进行较高层级的控制。规划级以下的控制规划属于传统机器人控制规划的范畴,更适合传统机器人更成熟的高频控制方法。 图6:具身智能系统的控制层级 多模态大模型突破单一模态大模型的局限性,强化了机器人多模态信息整合、复杂任务处理等泛化能力,是人形机器人大模型的技术支撑。语言、图片、视频等单一模态大模型以大语言模型(LLM)为基础,将强大的LLM作为“大脑”来执行多模态任务。但LLM只能理解离散文本,在处理多模态信息时不具有通用性。 另一方面,大型视觉基础模型在感知方面进展迅速,但推理方面发展缓慢。 由于两者的优缺点可以形成巧妙的互补,单模态LLM和视觉模型同时朝着彼此运行,结合上部分的图像、视频和音频等等模态,最终带来了多模态大语言模型(MLLM)的新领域。形式上,它指的是基于LLM的模型,该模型能够接收多模态信息并对其进行推理。从发展人工通用智能的角度来看,MLLM可能比LLM向前迈出一步。MLLM更加符合人类感知世界的方式,提供了更用户友好的界面(可以多模态输入),是一个更全面的任务解决者,不仅仅局限于NLP任务。 图7:MLLM的模型结构 2.2国内外科技巨头与机构入局,具身大模型成果涌现 具身智能机器人操作系统有望推动人机交互的革命和人形机器人商业化落地进程,成为国内外科技巨头和科研机构的兵家必争之地: 1)微软:发表论文《ChatGPT for Robotics》等系列论文探究使用GPT控制机器人,微软建立高级机器人API或函数库(技能库),用户使用自然语言描述需求后,GPT灵活选用已有API或自行编程完成任务; 2)谷歌:连续发布SayCan、Palm-E、RoboCat、RT-1、RT-2、RT-X等多个具身智能大模型,探究不同具身智能机器人操作系统的技术路线,包括使用真实数据训练的VLA路线以及通过合成数据训练的路线等; 3)英伟达:在2025CES上提出用于加速物理AI开发的平台Nvidia Cosmo及一系列世界基础模型,世界基础模型可以预测和生成虚拟环境未来状态的物理感知视频的神经网络,以帮助开发者构建新一代机器人; 4)李飞飞团队:发布VoxPoser系统,通过3DValueMap+LLM+VLM相结合的方式,根据用户自然语言直接输出运动轨迹操控机器完成任务; 5)特斯拉:Tesla Optimus能够完成分拣物品、做瑜伽等操作,其神经网络训练是完全端到端的,即直接从视频输入中获取信息,并输出控制指令; 6)国内团队:智元机器人、字节跳动、科大讯飞等众多国内厂商已经推出具身智能系统或机器人产品。 图8:全球前沿具身智能大模型或机器人操作系统 目前的具身智能架构分为端到端模型与冻结参数的大模型结合基础模型。端到端的架构可以直接从输入数据到目标结果,不需要进行提示词工程,较为简洁高效,往往在规划级、动作级中使用;冻结参数的大模型结合基础模型使用的大模型通常是在广泛的数据上预训练好的,在利用大模型的强大能力的同时保留了对特定任务进行微调的灵活性,在需求级、任务级中使用较多。使用预训练模型可以显著减少训练时间和所需的数据量,普遍适用于数据较为稀缺的任务。 图9:具身智能的不同架构举例 2.2.1谷歌:SayCan、RT-1、PaLM-E、RT-2到RT-X 1)SayCan:定位High-Level,Do As I Can, Not As I Say 2022年4月发布,SayCan模型的核心出发点是为机器人提供既有用又可行的行动指引。PaLM-E虽然可以将任务拆分为符合语义逻辑的子任务,但是无法判断其所设定的子任务是否能在现实世界中执行。究其原因在于,大语言模型缺少对真实物理世界的客观原理的深刻理解与经验参考,其生成的子任务虽合逻辑,但是机器人在执行过程中可能会遇到无法顺利操作的困难。以“我把饮料洒了,你能帮忙吗?”为例,现有的大语言模型可能会回答“你可以试试用吸尘器”、“对不起,我不是故意洒的”,虽然这些回应听起来很合理,但当前环境中的机器人并不具备使用吸尘器的能力,亦或者当前环境中根本没有吸尘器。 图10:大语言模型对“我把饮料洒了,你能帮忙吗?”的回复 SayCan尝试将大模型LLM与物理任务联系起来并解决上述问题。其中,Say代表大模型LLM,用于输出可用的高层级运动指令,Can代表机器人在当前环境下能做的事情,二者通过值函数(Value Function)的方式结合起来,共同决定选择哪条指令用于实际执行。 图11:SayCan对于“我把饮料洒了,你能帮忙吗?”的决策流程 2)RT-1:开启Transformer与机器人的结合 2022年,Google提出Transformer架构。Transformer最初是为了解决翻译问题,仅仅依赖于注意力