您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [中泰证券]:机器人系列报告一:具身智能:决定机器人泛化能力天花板的“大小脑” - 发现报告

机器人系列报告一:具身智能:决定机器人泛化能力天花板的“大小脑”

机械设备 2025-03-09 中泰证券 绿毛水怪
报告封面

机器人系列报告一:具身智能——决定机器人泛化能力天花板的“大小脑” 2 0 2 5.0 3.0 9 分析师:闻学臣执业证书编号:S0740519090007 分析师:刘一哲执业证书编号:S0740525030001 分析师:苏仪执业证书编号:S0740520060001 摘要 ◼具身智能是一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息理解问题、做出决策并实现行动,从而产生智能行为和适应性。具体而言,具身智能在机器人上的应用体现可以划分为三阶段:感知、推理、执行。 ◼具身智能是机器人与人工智能发展的交汇点。机器人的通用性取决于泛化性的发展程度,自20世纪50年代以来,经过多轮发展,机器人开始从传统的自动化工业场景机器人,向通用泛化场景的机器人方向发展。而人工智能在几十年发展过后,在今天迎来了智能程度、通识程度更高的生成式大模型时代。在当前时间点,人工智能可以真正为机器人赋予“大脑”,机器人也可为人工智能提供“身体”,两者深度融合,而融合的交点——具身智能,则是人工智能与机器人相互促进发展而形成的必然的产业趋势。 ◼目前具身大模型可以分为两大流派,一类是端到端大模型,一类是分层具身大模型。1)端到端大模型:能够直接实现从人类指令到机械臂执行,即输入图像及文本指令,输出夹爪末端动作。2)分层具身大模型:不同层次模型协作,上层大模型进行感知与决策,底层硬件层和中间响应快的小模型进行决策的分解与执行。目前,由于受数据制约难以达到性能要求,端到端大模型尚未成为主流选择,更多厂商还是选择以分层模型为机器人的具身智能。 •训练具身大模型的痛点:数据。机器人需要用海量数据进行训练,使其变得更加智能。但机器人是非常新的领域,严重缺乏训练数据的积累。对应而言,目前主要的数据收集方法有四种:1)远程操作,即由实验人员操作机械手柄,远程控制机器人做出相同动作,以此来积累数据;2)AR,即通过AR环境对机器人进行训练,积累数据;3)仿真,即通过海量算力进行模拟运算,计算得出海量机器人训练数据集;4)视频学习,即通过多模态大模型,直接让机器人通过视频学习人类动作,从而积累训练数据。 ◼人形机器人产业未来展望:从专用到通用,从ToB到ToC。短期来看,任务相对聚焦,对泛化能力要求不高工业制造场景下的任务正在更快进入商业化阶段。在工业制造场景实现商业化落地之后,海量机器人的具身数据叠加算力技术的进步,机器人的能力将循序渐进逐步解锁,并向商用服务、家庭服务等更开放的场景进行延伸,届时市场有望达万亿级。 摘要 ◼投资建议:作为机器人的“大小脑”,在硬件已达到较高工艺水平的情况下,具身智能的技术能力或将成为机器人发展的天花板。当前多家领军机器人企业均已各自的方式在具身智能领域投入较多资源与精力,以提升自家机器人的泛化行为能力。我们建议投资人持续关注具身智能产业的技术变革突破、商业化落地路线、节奏与进展等。具体到标的上,建议关注索辰科技(物理AI、机器人子公司)、能科科技(特种行业AI能力领先)等。 ◼风险提示:机器人产业相关政策落地不及预期;机器人商业化落地推进不及预期;AI与具身智能产业技术发展不及预期;行业竞争加剧;研报信息更新不及时的风险等。 目录 具身智能:机器人与AI的交汇 2 具身大模型赋能人形机器人蜕变 3 C O N T E N T S 具身智能赋能下,未来机器人发展方向 CCONTE什么是具身智能 什么是具身智能 ◼具身智能的定义:一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息理解问题、做出决策并实现行动,从而产生智能行为和适应性。 •具身智能的实质:强调有物理身体的智能体通过与物理环境进行交互而获得智能的人工智能研究范式。 1.1具身感知 ◼机器人需要具备环境感知能力,依据感知对象的不同,可以分为四类:物体感知、场景感知、行为感知、表达感知。◼具身感知的过程主要包括以下几步: 1.2具身推理:任务规划 ◼具身感知的过程主要包括以下几步:任务规划、导航、具身问答。 ◼任务规划:任务规划(Task Planning)是具身智能的核心任务之一,将抽象的非可执行人类指令转换为具体的可执行技能。这一步骤的完成需要两步:1)将人类指令分解为机器人可执行的技能,2)执行技能。 ◼结合大模型的任务规划:大模型作为转换器、大模型作为分解器。 •作为转换器:LLM+P,用LLM将状态信息描述成PDDL语言再进行规划,取代以往需要人工针对实际问题书写PDDL语言对任务进行建模; •作为规划器:可以zero-shot进行任务规划。 资料来源:哈尔滨工业大学,CSDN,中泰证券研究所 1.2具身推理:导航 ◼具身导航(Embodied Navigation):智能体在3D环境中移动完成导航目标。◼早期的具身导航,通过构建一系列基于规则的组件和算法,实现有效的环境感知、定位、路径规划和避障。而基于学习的导航则利用深度学习与强化学习技术,提高模型对复杂环境和新场景的泛化能力。不同于传统算法依赖预定义的规则和手工设计的特征,基于学习的导航算法从大量数据中学习环境特征和导航策略,实现强自适应性和高灵活性。•视觉导航:基于学习的导航的一个重要分支,它依靠计算机视觉来理解环境信息并做出导航决策。•视觉语言导航:通过自然语言指令和视觉图像进行导航的任务,其目标是开发一种能够与人类进行自然语言交流并在现实3D环境中导航的具身智能体。1)大模型出现之前:主要通过RNN,LSTM,Transformer等网络来提取命令中的语义信息;2)大模型出现后:利用大模型作为辅助来帮助规划器输出规划或者大模型直接作为规划器来输出规划。 资料来源:哈尔滨工业大学,中泰证券研究所 资料来源:哈尔滨工业大学,中泰证券研究所 1.2具身推理:具身问答 ◼具身问答:机器人需要主动探索环境,定位目标物体或位置获取环境中的信息,然后基于获取的信息回答问题。该任务可视为导航、VQA任务的结合。 •相比于VQA等已有问答任务,具身问答的特点在于机器人具有主动行动能力。 资料来源:哈尔滨工业大学,中泰证券研究所 1.3具身执行 ◼具身执行,就是把任务具体执行出来,其中最重要的环节就是技能学习。 ◼技能学习:以技能描述、环境观察为输入,输出完成技能所需的7Dof轨迹(主要指人手腕或者机械臂末端执行器的位置、朝向、末端状态)。技能学习主要有两类方法: •模仿学习:收集专家演示数据,用神经网络拟合。 •强化学习:设计奖励函数,机器人通过交互学习行为策略。 •两者的差别在于:模仿学习是从样例中学习,机器人学习过程中不与环境进行交互;而强化学习从交互中学习,机器人学习过程中与环境进行交互。 图表:模仿学习的三种策略 资料来源:哈尔滨工业大学,中泰证券研究所 资料来源:哈尔滨工业大学,中泰证券研究所 1.3技能学习+大模型:通用执行模型结构 CCONTE中 泰 证 券 研 究 所具身智能:机器人与AI的交汇 2.1机器人的通用性取决于泛化性的发展程度 ◼在上个世纪六十年代,人类已经制造出机器人并且可以控制其执行给定的动作。但是对于复杂抽象的人类指令,早期需要专家人工设计动作轨迹,然后再由机器人执行。一个理想中的智能机器人应该是“通用”的,可以适用于各种场景,进行推理决策并执行相关技能,完成各种任务。 ◼从人工设计专门的程序到通用型智能机器人,存在着巨大的技术发展空间,其中最关键的问题之一即为泛化性,包括人类指令、环境配置、物体形状位置、机器人类别上的泛化性。泛化性描述了机器人因为学习场景和应用场景的任务设置不一致导致的性能变化情况,这衡量了机器人在特定维度上的通用性。 ◼从泛化性的角度来看,智能机器人技术可以划分为以下几个阶段,其对应泛化性逐渐变强。 资料来源:CSDN,中泰证券研究所 2.2机器人发展线:从自动化工具到直接影响物理世界的智能体 ◼从历史的角度来看,工业机器人的硬件进化不断发展,从自动化设备到移动机器人,从协作机器人到人形机器人,每一步都代表着技术的进步和创新。当下,已经进入了AI大模型与机器人在底层技术创新和应用融合的交叉时代。 ◼技术的每一次进步都会带来机器人应用场景的突破,且一般会在精准、重复的工业场景作业流程中率先得到应用。未来,如何提升智能机器人在开放场景的可用性,是具身智能正在解决的问题。 2.2人工智能发展线:从理性主义到深度学习 ◼在机器人领域的应用上,生成式AI技术正在兑现提升机器人关键能力的潜力,在环境感知、自主决策、学习与适应等多个方面均有表现。 ◼基于网络数据训练的大模型似乎正在触及AI认知的边界,ScalingLaw下的预训练大模型性能似乎快要达到极限,参数量和数据量的扩充已经难以给模型带来质的突破。AI想要进一步发展,必须与物理世界建立更加紧密的联系,具身智能将是AI继续向AGI进步的关键途径。 资料来源:甲子光年,中泰证券研究所 2.2具身智能:两条发展线的汇聚点 ◼人工智能和机器人技术的发展并非孤立进行,而是相互促进、共同演进的。人工智能为机器人赋予了“大脑”,使其具备感知、思考和决策能力;而机器人则为人工智能提供了“身体”,使其能够与真实世界进行交互,获取经验和知识。 ◼具身智能的兴起是人工智能和机器人技术各自发展到一定阶段的必然结果,是两者深度融合的体现。人工智能的持续进步需要与物理世界的交互能力,而机器人的未来发展也离不开更高级别的智能化水平。 资料来源:甲子光年,中泰证券研究所 2.3 2024年迎来具身智能投资热 ◼如果说OpenAI的ChatGPT引爆了2023年对大语言模型的投资热潮,那么Tesla入局人形机器人和黄仁勋的“AI的下一个浪潮是具身智能”,则彻底带火了具身智能与人形机器人领域的投资热潮,成为2024年科技产业投资的最大热点。 ◼从投资角度看,头部人形机器人的本体研发集成厂商已经历多轮融资,估值较高,行业整体投资热点正从人形机器人本体向具身智能模型和其他上游零部件迁移。 资料来源:IT桔子,甲子光年,中泰证券研究所 CCONTE中 泰 证 券 研 究 所具身大模型赋能人形机器人蜕变 3.1具身大模型&非具身大模型 ◼从物理空间的角度来划分,大模型可以分为非具身大模型(Disembodied Model)、具身智能大模型(又被叫做机器人大模型)(Embodied VLA Model)。它们的区别是能否生成运动姿态(例如夹爪的末端位姿等),即是否能跟物理机器人联系起来。 3.1具身大模型:分层模型or一体化端到端 ◼目前,具身大模型可以分为两大流派。一类是端到端大模型,一类是分层具身大模型。 •从人体“大脑-小脑-肢体”的架构来看,分层大模型通过不同层次模型协作,利用底层硬件层和中间响应快的小模型弥补上层大语言模型的不足,推动机器人在实际场景的应用,并越来越多地采用基于学习的控制方法。•VLA等端到端模型能够直接实现从人类指令到机械臂执行,即输入图像及文本指令,输出夹爪末端动作。•分层式路线一度是主流选择,因为端到端路线受数据制约难以达到性能要求;机器人数据正在逐步积累,端到端路线在未来可能成为主流。 资料来源:HiRobot:Open-EndedInstructionFollowingwithHierarchicalVision-Language-ActionModel,中泰证券研究所 资料来源:CSDN,中泰证券研究所 3.2端到端大模型 ◼在机器人中,端到端大模型可实现直接端到端地从人类指令到机械臂执行,即输入是图像及文本指令,输出是夹爪末端动作。以谷歌的RT-1到RT-2的进化迭代为例: •谷歌RT-1——关注泛化能力:2022年,谷歌机器人研究团队历时17个月基于13个机器人得到了130k episodes以及超过700个任务的数据,在该数据集的基础之上,基于模仿学习中行为克隆学习范式,把Transformer应用机器人