行业研究公司研究宏观策略财报招股书会议纪要中央经济工作会议低空经济 DeepSeek AIGC 大模型

产业深度07期：机器人产业深度（七）：机器人的大脑——具身智能

2024-08-20肖群稀、鲍雁辛国泰君安证券F***

AI智能总结

2024年人形机器人产业发展概览

1. 具身大模型：理解三维物理世界的关键技术

2024年，人形机器人领域最具突破性的进展集中在具身智能领域。主要进展包括：

3月：Covariant发布端到端具身大模型RFM-1。
3月：具身智能创业团队Sergey Levine和Chelsea Finn创立Pi（Physical Intelligence）。
3月：Figure AI发布接入OpenAI GPT-4V的操作演示Figure 01 demo。
4月：李飞飞创立World Labs，致力于解决AI在三维空间感知和理解方面的难题。
5月：特斯拉发布视频，展示了Optimus在工厂里精准分拣特斯拉电动车4680电池的场景。

国内人形机器人产业硬件供应链优势明显，但在具身智能、数据采集和人才领域存在短板。

2. 具身大模型的主要路径

具身智能大模型主要有两种路径：

端到端大模型：如谷歌的RT模型，直接从人类指令到机械臂执行。
分层端到端大模型：如Tesla FSD、Figure AI等，通过决策大模型和操作大模型的相互配合，分层端到端的方法需要的训练数据相对较少，能够完成各种新任务。

3. 数据采集：具身智能的最大壁垒

数据采集的主要方式包括远程操作和仿真合成数据。互联网上各类文本、图像和视频数据集庞大，但机器人的场景和交互有价值的数据量小，限制了AI模型在人形机器人上的泛化能力。特斯拉Tesla Bot开发团队使用人类的真实运动方式来训练机器人，英伟达推出MimicGen和Robocasa模型，通过真人的遥操作数据捕获，再通过生成合成运动数据和模拟环境，加速机器人技术的研发和应用。国内人形机器人创新中心正加速建设人形机器人训练场。

4. 具身智能的估值基础

具身智能的估值基础包括硬件、数据、模型和人才：

硬件：硬件是一切的基础，没有自己的硬件就无法根据算法和数据进行硬件的快速优化和修改。
数据：涉及数据的采集、组织管理以及与模型的闭环开发，需要有强大组织能力的团队。
模型：越来越多的算法陆续开源，但要实现高质量、高性能的人形机器人，需要专业的算法团队进行深入研究和开发。

5. 风险提示

竞争环境恶化
新技术的应用速度低于预期

结论

2024年，人形机器人产业在具身智能领域取得了重要进展，但仍然面临数据采集和人才短缺的挑战。分层端到端的具身大模型成为主流方案，但数据采集依然是最大的瓶颈。硬件供应链的优势明显，但仍需补齐在具身智能和数据采集方面的短板。

产业深度 2024.08.2007期机器人产业深度（七）：机器人的大脑——具身智能摘要: 机器人产业深度（六）：机器人的关节——高效电机 2023.11.27 机器人产业深度（🖂）：机器人的触觉——六维力矩传感器 2023.09.15 机器人产业深度（四）：机器人的眼睛——3D工业视觉 2023.08.20 机器人产业深度（三）：机器人的关节——精密执行器 2023.06.25 机器人产业深度（二）：AI大模型赋能人形机器人，迈向通用人工智能的一大步 2023.05.19 机器人产业深度（一）：机器人产业：技术奇点靠近，需求拐点来临 2023.03.05 往期回顾 2024年人形机器人最具突破性的进展主要体现在具身智能领域：3月，Covariant发布端到端具身大模型RFM-1，具身智能创业团队SergeyLevine和ChelseaFinn创立Pi（PhysicalIntelligence），FigureAI发布接入OpenAIGPT-4V的Figure01demo。4月，李飞飞创立WorldLabs，致力于解决AI在三维空间感知和理解方面的难题。5月，特斯拉发布视频，展示Optimus精准分拣特斯拉电动车4680电池的场景，使用完全端到端神经网络，只利用2D摄像头视频和机载自传感器，直接生成关节控制序列，完全靠视觉辅助和人类示范进行训练。国内人形机器人产业硬件供应链优势明显，在具身智能、数据采集、人才领域的短板需要补齐。 分层端到端是目前具身智能的主要路径。大模型分为非具身大模型（基础大模型）、具身智能大模型（机器人大模型），区别是能否生成运动姿态。非具身大模型如GPTSora等，输入和输出的模态都是语言、图片和视频。具身智能大模型输入视觉、语言信号，输出三维物理世界的操作，其中，端到端的具身大模型对数据和算力要求高如TeslaFSD、谷歌RT模型；FigureAI等大多数公司都采取了分层端到端的具身大模型，一般分为三层：基础大模型（LLM或VLM）、决策大模型、操作大模型，其中决策大模型以ChatGPTforRobotics、谷歌PaLM-E为代表，技术方向从LLM向强化学习（RL）演进，基于RL的范式可以使模型能够在不同环境和任务中学习和适应实现更高级的决策能力。操作大模型根据决策大模型的输出执行具体动作，需要与机器人硬件深度集成，且必须通过数据采集来实现，技术方向从“MPC+WBC”向“RL+仿真”演进，MPC更适合具有精确模型和短期优化目标的场景，RL更适用于不确定性高、需要长期学习和自适应的环境。在操作大模型领域，大多数厂商都刚起步。 数据采集的主要方式：远程操作、仿真合成数据。互联网上各类文本、图像和视频数据集庞大，机器人的场景和交互有价值的数据量小，限制了AI模型在人形机器人上的泛化能力。特斯拉TeslaBot开发团队使用人类的真实运动方式来训练机器人，英伟达推出MimicGen和Robocasa模型，通过真人的遥操作数据捕获，再通过生成合成运动数据和模拟环境，加速机器人技术的研发和应用。国内人形机器人创新中心加速建设人形机器人训练场。 具身智能估值逻辑：硬件、数据、模型、人才。硬件是一切的基础，如果没有自己的硬件，就无法根据算法和数据进行硬件的快速优化和修改。涉及数据的采集、组织管理以及与模型的闭环开发，需要有强大组织能力的团队，核心团队需要具备组织大规模工程师的经验；越来越多的算法陆续开源，开源算法可以提供基础的功能和技术但要实现高质量、高性能的人形机器人，需要专业的算法团队进行深入研究和开发 风险提示：1）竞争环境恶化；2）新技术的应用速度低于预期。产品研究中心肖群稀(分析师) 0755-23976830 xiaoqunxi027589@gtjas.com 登记编号S0880522120001 鲍雁辛(分析师) 0755-23976830 baoyanxin@gtjas.com 登记编号S0880513070005 目录 1.具身大模型：能够理解三维物理世界的模型4 1.1.非具身大模型vs具身大模型：是否可以生产运动姿态4 1.2.具身大模型：端到端&分层端到端4 1.3.主流方案：分层端到端，典型代表FigureAI5 2.具身大模型的主流方案：分层端到端7 2.1.基础大模型：LLM&VLM7 2.2.决策大模型：从LLM向RL演进8 2.3.操作大模型:从“MPC+WBC”向“RL+仿真”演进10 3.数据采集：具身智能最大的壁垒之一12 3.1.机器人场景数据主流采集方法：远程操作、仿真合成数据13 3.2.远程操作+仿真合成数据，混合数据才是未来？14 3.3.人形机器人训练场打造如火如荼18 4.具身智能估值基础：硬件、数据、模型、人才20 5.风险提示22 前言： 2024年人形机器人最具突破性的进展主要体现在具身智能领域：3月 11日，Covariant发布端到端具身大模型RFM-1，3月12日具身智能创业团队SergeyLevine和ChelseaFinn宣布创立Pi（Physical Intelligence），3月13日FigureAI发布接入OpenAIGPT-4V的操作演示Figure01demo。4月，李飞飞创立WorldLabs，致力于发展AI的空间智能，以解决AI在三维空间感知和理解方面的难题。5月5日，特斯拉Optimus发布一则视频，Optimus在工厂里精准分拣特斯拉电动车4680电池，Optimus使用完全端到端神经网络，利用2D摄像头视频和机载自传感器，直接生成关节控制序列，完全靠视觉辅助和人类示范进行训练。国内人形机器人产业硬件供应链优势明显，在具身智能、数据采集、人才领域的短板需要补齐。图1：人形机器人供应链数据来源：国泰君安证券研究绘制 1.具身大模型：能够理解三维物理世界的模型 1.1.非具身大模型vs具身大模型：是否可以生产运动姿态从物理空间的角度来划分，大模型可以分为非具身大模型（基础大模型）、具身智能大模型（机器人大模型），它们的区别是能否生成运动姿态。（1）非具身大模型：代表的模型有GPT、Sora、文心一言、通义千问等，这类模型输入的是语言、图片和视频，输出的模态是语言、图片和视频。大模型采取Transformer架构，以与训练+微调的形态有效摆脱对基于场景数据训练的依赖，解决了长距离信息关联的问题。在人形机器人的应用，大模型集成了多模态的感知模块，大幅提升了机器人额环境感知和人机交互，上层规划的能力。（2）具身大模型：以自动家数大模型和机器人大模型为代表，如 TeslaFSD、谷歌RT、RFM-1、ViLa和CoPa等，具身大模型输入的是视觉、语言信号，输出的是三维物理世界的操作。图2：具大模型：非具身大模型&具身大模型数据来源：国泰君安证券研究绘制 1.2.具身大模型：端到端&分层端到端具身智能大模型主要有两个路径：（1）端到端的具身大模型，以谷歌的RT模型为代表；（2）基于LLM或VLM的具身分层大模型，大多数的机器人公司都采取了这个方案，典型代表有：TeslaFSD，FigureAI，星海图，银河通用，智元机器人等。图3：具身大模型：端到端大模型&分层端到端大模型数据来源：国泰君安证券研究绘制端到端的大模型同时训练决策和操作，直接端到端地实现从人类指令到机械臂执行，其特点有：1）需要大量真实长任务数据才能有效，且要覆盖所有可能的任务，所需的数据量估计需要达到万亿级别。以谷歌的RT模型为例，谷歌花了上千万美金16个人耗时17个月收集得到了13万条厨房数据训练RT，模型在厨房表现很好，但除了厨房成功率却骤降至30%。泛化性难其实一定程度上是由于数据采集没有做到scalable。归根到底是由于机器人的物理数据不如互联网图像/文本数据那样大量且易得，与自动驾驶这一单一任务相比，如果每种任务都需要自动驾驶那么多数据、这一数据量要大得多。2）推理速度慢。RT2采用的LLM是谷歌的PaLM-E，频率1-3Hz，响应速度0.3s~1s。图4：RT2：输入图像及文本指令，输出夹爪末端动作数据来源：国泰君安证券研究绘制 1.3.主流方案：分层端到端，典型代表FigureAI 由于端到端大模型目前面对局限性，因此目前大多数的机器人公司都采取了分层端到端的方案，通过决策大模型和操作大模型的相互配合，分层端到端的方法需要的训练数据相对较少，能够完成各种新任务。多层端到端大模型的上层是多模态通用大模型，可以调度中间技能API，来实现完整的从任务的感知、规划到执行的全流程；中间层是决策大模型（任务/运动规划），通过数据训练的泛化的技能，包括自主建图、自主导航、物体抓取、开门开抽屉开冰箱、移动操作、挂衣服叠衣服柔性物体操作的泛化技能；底层是硬件驱动执行算法，实现机器人的平衡，实时精准的运控。图5：分层端到端大模型：从限定场景和任务到多样复杂场景和任务数据来源：国泰君安证券研究绘制典型代表：Figure02采取了基于VLM的分层大模型。在Figure发布的演示中，Figure01能理解周围环境，流畅地与人类交谈，理解人类的需求并完成具体行动，包括响应人类想吃东西的问题递过去苹果，然后一边将黑色塑料袋收拾进框子里一边解释递苹果的原因，将杯子和盘子归置好放在沥水架上。在Figure01的视频里，OpenAI提供了视觉和语言理解能力，而FigureAI则提供了机器人的动作规划和控制能力。OpenAI和Figure合作用的小模型，动作输出频率200Hz，从Figure01的Demo视频展示中，响应速度几乎没有延时。Figure02搭载了机载的视觉语言模型（VLM），通过机载麦克风和扬声器，实现了与人类的高效对话，具备了快速的常识性视觉推理能力，能够自主执行多种复杂任务。图6：Figure02基于VLM的分层大模型数据来源：Figure@X 典型代表：银河通用采取三层大模型系统。底层是硬件层，中间层是些响应快小模型（如：三维感知、自主建图、自主导航、物体抓取、开门开抽屉开冰箱、移动操作、挂衣服叠衣服、柔性物体操作等），上层是用来做推理慢的做任务规划的大语言模型LLM。当得到指令，LLM负责分析，安排调度哪个小模型API。小模型执行完后，LLM分析结果，研究下一步该怎么做。图7：银河通用：三层大模型系统数据来源：银河通用 2.具身大模型的主流方案：分层端到端 2.1.基础大模型：LLM&VLM 大模型采取Transformer架构，以与训练+微调的形态有效摆脱对基于场景数据训练的依赖，解决了长距离信息关联的问题。在人形机器人的应用，大模型集成了多模态的感知模块，大幅提升了机器人额环境感知和人机交互，上层规划的能力。Figure01采用OPENAI的多模态大模型，类似于RT-1+PaLM-E的模型融合。图8：OCRBench对基础大模型的评估数据来源：OCRBench 2.2.决策大模型：从LLM向RL演进决策智能面临开放变化环境情况下的泛化问题，决策大模型使用大模型解决决策任务中的环境变化、开放环境、策略泛化性问题。其核心任务是基于任务理解，自动生产运控指令，为操作模块提供指令输入，也就是将复杂的任务分解为一系列动作指令，然后交由操作大模型逐一执行。以ChatGPTforRobotics为例，将prompt封装成函数或类，将复杂任务拆解为子任务序列，并逐步调用相应的prompt，生成python代码指令。首先，定义一组高级机器人API或函数库。该库可以针对特定的机器人类型进行设计，并且应该从机器人的控制栈或感知库映射到现有的低层次具体实现。为高级API使用描述性名称非常重要，这样ChatGPT就可以推理它们的行为。接下来，为ChatGPT编写一个文本提示，描述任务目标，同时明确说明高级库中的哪些函数可用。提示还可以包含有关任务约束的信息，或者ChatGPT应该如何组织它的答案，包括使用特

点击免费查看完整报告