证券研究报告2024年04月17日 人形机器人步入软件定义和AI驱动时代 人工智能系列报告(三) 核心结论 基于对人形机器人发展阶段及核心竞争力的分析,我们认为人形机器人已经跨入了一个全新的软件定义加AI驱动的时代。软件不仅承载着人形机器人的基础操作系统和应用算法,而且通过不断迭代升级,为人形机器人赋予了超越传统机械设备的智能特性。软件和AI不仅开启了人形机器人在各行各业广泛应用的可能性,更定义了人形机器人的功能边界。 基于人形机器人所展现出的高度机械化特性以及在视觉感知方面对自动驾驶算法的成功复用,我们认为人形机器人处于由高动态向高度智能化发展的阶段。高动态是指机器人在运动能力上表现优秀,特别是平衡性、越障碍能力等。当前人形机器人机械化程度较高且具备较强的运动控制及环境感知能力。运动控制方面,波士顿动力的Atlas人形机器人身体协调性非常出色,除了行走,还完成翻滚等高难度动作;感知方面,特斯拉Optimus基于完全端到端训练的神经网络架构,底层感知、识别算法等等已经和FSD打通复用。 分析师 我们认为人形机器人的核心竞争力在于其通用性和泛化性,即智能化程度,也就是在面对各种未知环境、任务和交互情境时的高度适应性和自我学习能力。人形机器人的设计初衷是通过模仿人类的形态和行为能力,让其能无缝使用人类所有的基础设施和工具,以便在多种环境中执行任务,提高生产效率,尤其是在替代人类执行一些可能危险、困难或不适宜的任务。人形机器人的商业化进程中深受应用场景局限性的影响,提高智能程度能够显著拓宽人形机器人应用场景,打破现有局限,提升其对复杂环境的适应性和任务执行的灵活性。 郑宏达S080052402000113918906471zhenghongda@research.xbmail.com.cn 相关研究 计算机:大模型企业级B端收入有望高速增长—计算机行业周观点第7期2024-04-14计 算机: 广州数 科集团 ,国企市 值管理 标杆,打造新质生产力—2024-04-09计 算机: 继续看 好端侧 智能—计 算机行 业2024年4月研究观点2024-04-07 大模型成为“AI大脑”,通用人形机器人曙光已现。1)“决策”+“认知”是智能机器人智能化水平的高层次判断标准。根据当前技术形态研判,国内外的人形机器人目前已普遍处在L3阶段,并随着大模型时代的到来逐渐向L4和L5阶段进行发展,而实现人形机器人智能化等级的跃升,提升其决策和认知能力是必经之路更是核心难点之一。2)大模型+机器人是AI重要落地场景,大模型的泛化能力为通用人形机器人的发展带来曙光。大模型凭借其庞大的知识库和强大的理解能力所带来的泛化能力,赋予了人形机器人更高的通用性,使其能够满足不同场景下的多样化任务需求;同时大模型的辅助编程等功能还能有效降低软件开发成本,有望加速人形机器人商业化落地。 建议关注:1)视觉感知:海康威视、大华股份、虹软科技、智微智能;2)机器人大模型:科大讯飞、商汤-W、云从科技-UW。 风险提示:人形机器人技术发展不及预期、政策法规环境不确定风险、供应链与制造成本上升风险、国际竞争加剧与技术替代风险。 内容目录 一、为什么我们认为人形机器人步入软件定义时代?............................................................41.1人形机器人现在处于什么发展阶段?...........................................................................51.2人形机器人的核心竞争力在于什么?...........................................................................61.3为什么我们认为人形机器人步入软件定义时代?.........................................................7二、大模型成为“AI大脑”,通用人形机器人曙光已现.............................................................82.1人形机器人走向通用,“决策”+“认知”是必经之路.........................................................82.2具身智能技术持续突破,通用人形机器人新纪元将至..................................................92.2.1 ChatGPT for Robotics:大模型赋能机器人的初步探索.....................................102.2.2 PaLM-E:具身多模态视觉语言模型,是具身智能领域的一次重大飞跃............112.2.3 RT-2:全球首个VLA多模态大模型,能够理解视觉输入,机器人模型里程碑.122.2.4 VoxPoser:实现零样本机器人任务轨迹规划.....................................................132.2.5 RoboAgent:实现通用机器人小数据集的快速训练...........................................142.2.6 RT-X:基于多个数据集的机器人通用大模型.....................................................142.2.7 Eureka:基于GPT-4的人工智能代理...............................................................152.2.8 RobotGPT:ChatGPT运用于机器人的框架......................................................162.2.9 EVE:依赖端到端神经网络实现自主工作..........................................................162.2.10 Figure 01:能听、能说、能自主决策的人形机器人........................................172.2.11 GR00T——通用人形机器人基础模型..............................................................18三、建议关注........................................................................................................................19四、风险提示........................................................................................................................19 图表目录 图1:汽车产业发展历程..........................................................................................................4图2:人形机器人发展大事记..................................................................................................5图3:波士顿动力Atlas俯身下蹲抓起工具包..........................................................................5图4:波士顿动力Atlas蹦上高台............................................................................................5图5:波士顿动力Atlas推完箱子后保持身子平衡,不前倾摔倒.............................................6图6:波士顿动力Atlas前空翻落地.........................................................................................6图7:Tesla Optimus Gen2用手指抓取鸡蛋(屏幕右侧实时显示了手指压力).....................6图8:Tesla Optimus Gen2叠衣服(目前尚不能自主执行叠衣服操作)................................6图9:优必选人形机器人发展历程及展望................................................................................7图10:泛化能力包括跨语言泛化、跨任务泛化、跨领域泛化、结构泛化、组合泛化、鲁棒性等.............................................................................................................................................9图11:2023年至今“大模型+机器人”发展进程......................................................................10图12:传统机器人任务需要工程师在循环中不断改进..........................................................11图13:接入ChatGPT后工程师无需在循环中调整...............................................................11图14:ChatGPT for Robotics的设计原则............................................................................11图15:PaLM-E主要架构......................................................................................................12图16:PaLM-E在复杂的移动操作任务表现出色..................................................................12图17:RT-2架构...................................................................................................................13图18:Voxposer系统流程....................................................................................................14图19:RoboAgent采用的多任务动作分块MT-ACT架构........................................