您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国金证券]:机器人行业深度:垂直领域具身智能机器人的野望 - 发现报告

机器人行业深度:垂直领域具身智能机器人的野望

机械设备2025-06-17满在朋、李嘉伦国金证券A***
AI智能总结
查看更多
机器人行业深度:垂直领域具身智能机器人的野望

投资逻辑 垂直领域具身智能机器人,为什么是现在看好? “大脑”成熟度逐步提升,打造具身智能落地基础:机器人“大脑”主要功能包括实时交互、多模态感知、自主可靠决策、涌现和泛化等,产业从最基础的LLM(大语言模型)+VFM(视觉基础模型)过渡至VLM(视觉语言模型)多模态模型,并进一步增加运动控制实现VLA(视觉语言动作模型)。近年目标检测、3D语言映射、对象表示、策略学习、任务规划等研究突飞猛进,显著提升了机器人感知、决策、控制能力,打造具身智能落地基础。 垂直领域缺数据、推理慢、控制难等问题有望解决,加速产业化落地:目前的通用机器人距离成熟产业化应用还有一定距离,其中受到了真机数据有限、大模型推理时间太长、运动控制难度较高等多种因素影响。要解决这些问题,我们认为更多的还是要针对某一垂直领域场景进行突破,数据方面通过供应链、机器人企业、用户、政府等共同发力实现场景零到一突破,通过机器人部署增加真机数据获取量,加速实现“数据飞轮”;推理时间的问题可以通过调优更“小”的垂直领域模型解决,贴合场景应用需求同时匹配边缘算力;同时我们认为不必追求人形形态,仅上肢的具身智能工作站、轮式机器人也有较好应用前景,其运动控制算法更成熟,更容易实现产业化落地。 哪些场景前景大? 潜在场景寻找思路:我们一方面认为工业机器人渗透率越低,未来的应用前景越大,因为工业机器人完成了标准化行业的自动化升级,剩下的柔性化程度较高的行业则需要利用大模型的泛化能力实现自动化,例如塑料化工、食品加工、家电等行业有较多工序工业机器人应用成熟度较低;另一方面认为可以从“缺工”角度出发,招工难是终端用户最直接的需求痛点,例如餐厅、家政、物流、养老、服装等行业有较好具身智能机器人应用前景。 服装:服装行业是典型的劳动密集型行业,尤其是缝纫环节主要依靠人工难以实现自动化升级,主要由于处理布料柔性化程度过高无法通过工业机器人完成。但目前整体来看针对布料处理的大模型、传感器均有了一定的成熟度,1X世界模型具备针对布料折叠生成长时程任务模拟能力、FLIP框架在布料折叠任务中可生成长期规划方案、SSFold方法可对未见过的布料完成折叠、帕西尼灵巧手传感器可实现不同布料材质识别。同时缝制机械领军企业杰克股份联合多家高校开始攻关服装机器人,服装行业的垂直机器人开发有望加速。 康养:我们认为康养场景是具身智能机器人最终实现家庭应用的最优过渡场景,下游面临“招工难”痛点,同时产业目前从硬件和物品传递、病患移动等常见任务处理能力上看均有一定的成熟度。海外有1X积极开发家用机器人,其大模型性能不断提升,国内有傅利叶、优必选、亿嘉和等越来越多的企业切入该赛道,有望加速产品成熟。同时两部门发文支持机器人在家庭、社区和养老机构等场景试点应用,政策支持也有望助力产业实现关键的零到一突破。 物流:物流行业经过多年自动化升级已经在仓储、传送、分拣等环节具有了较高的自动化程度,但其中剩下了一些工作量较大的例如拆零拣选环节仍以人工为主柔性化程度较高,后续有望通过具身智能机器人填补空缺并集成进现有的自动化系统。目前全球物流巨头GXO与多家机器人企业合作探索应用,其中Digit已经实现了商业化运营,Figure Helix模型在物流行业应用后性能也快速提升展示了巨大成长潜力。物流行业在终端用户、物流装备企业、机器人企业的共同推动下有望成为一个“爆款”场景。 投资建议 看好垂直领域具身智能机器人应用机会,尤其是服装、康养、物流等行业,建议关注杰克股份、华中数控、奥比中光。 风险提示 机器人大模型技术发展不及预期、政策支持不及预期。 1.垂直领域具身智能机器人,为什么是现在看好? 1.1“大脑”成熟度逐步提升,打造具身智能落地基础 机器人“大脑”主要功能包括实时交互、多模态感知、自主可靠决策、涌现和泛化等。需要规模数据集、云边端一体计算架构、多模态感知与环境建模等多方面技术能提供支撑和实现融合创新,以端到端具身大模型为核心的机器人“大脑”才能取得突破和发展。 图表1:机器人“大脑”技术架构 目前的大模型已经在视觉和语言处理方面取得重大突破,在机器人领域具有巨大应用潜力: 机器人“大脑”最基础的模型为LLM(大语言模型)+VFM(视觉基础模型),其中LLM主要是主要是通过深度学习技术训练的大规模神经网络,主要用于理解和生成自然语言,VFM一般以卷积神经网络(如ResNet等)或者Vision Transformer(ViT)等为基础模型,通过自监督学习的方式提取图像的特征表示,随后将特征提取器用于下游任务。 图表2:机器人主要大模型 谷歌SayCan模型就是典型的LLM+VFM架构,解决了LLM缺乏真实世界经验,不适用于机器人在特定环境中执行任务的问题。通过预训练技能的价值函数对齐(Grounds)大语言模型或者通过价值函数的训练使大语言模型对用户指令进行推理分解获得任务步骤,使其提出既可行又在情境上合适的自然语言行动。 图表3:谷歌SayCan模型基于LLM+VFM来理解用户指令推理分解任务步骤 多模态模型指一个模型能够接受输入不同“模态”,例如图像、文本或音频信号。VLM(视觉语言模型)同时融合了LLM和VFM,是一种同时接受图像和文本的多模态模型,同时接收图像和语言作为输入,并根据语言指令和图像信息产生输出,完成图像问答任务,实现更准确的任务规划和决策。例如清华大学交叉信息院高阳研究组提出ViLa算法,通过利用GPT-4V这类VLM,使机器人能够在复杂环境中主动进行任务规划。 图表4:清华大学Vila算法采用GPT-4V等VLM在复杂环境中主动进行任务规划 VLA(视觉语言动作模型)在VLM的基础上进一步增加了运动控制,解决了机器人的运动轨迹决策问题,能够减少将高层次任务映射到动作所需要的训练数据。例如谷歌的RT-H模型利用VLM来预测语言动作,再将这些语言动作与运动动作进行条件匹配,为机器人预测动作。这种动作层次结构使得模型能够在许多语义不同的描述之间共享结构,与直接将任务映射到动作相比,这在各种多任务数据集上能实现更好的数据共享。这种层次结构还使人类能够选择提供语言修正,以防止任务失败,然后使用这些新的语言动作来预测更好的动作。一旦人类完成干预,RT-H会像之前一样预测语言动作。 图表5:谷歌RT-H模型能够将高层次任务映射为低层次运动,减少训练需要的数据 目前预训练大模型研究发展迅速,显著提高了机器人感知、决策、控制能力。 图表6:目前预训练大模型研究发展迅速,显著提高了机器人感知、决策、控制能力 1.2垂直领域缺数据、推理慢、控制难等问题有望解决,加速产业化落地 1.2.1从场景获取真机数据,加速实现“数据飞轮” 机器人产业具有巨大成长潜力的底层逻辑是“数据飞轮”,通过更多的机器人部署能带来更多数据以供训练,最终优化出更成熟的模型强化机器人性能进一步推动放量,形成自我加速的正向循环。 图表7:“ 数据飞轮”是机器人产业具有巨大成长性的底层逻辑 相比于通过互联网大量的文本和图像数据进行训练大语言模型,能够用于机器人模型训练的特定数据很少,尤其是3D数据,虽然多模态视觉和语言模型可以分析2D图像,但缺乏3D空间关系、3D规划、3D特征等。目前出现了较多由机器人企业、科研机构整合的机器人数据集,但数据的量级依旧偏少。 图表8:傅利叶开源机器人数据集Fourier A ctionNet首批上线超3万条真机训练数据 目前有一些方法来解决数据瓶颈,但仿真数据的保真度和规模有限,依旧是真机数据训练效果最好。 图表9:解决数据瓶颈的常用方法 为了获得更多真机数据,目前有机器人企业通过数据采集工厂进行数据收集。智元基于数据采集工厂中的家居、餐饮、工业、商超和办公五大核心场景推出了AgiBot World数据集。 图表10:智元数据采集工厂 我们认为要扭转真机数据不足的问题,更多的还是在某一细分垂直场景实现机器人应用突破,让训练数据结构从“正三角”转为“倒三角”,加速实现“数据飞轮”。 图表11:垂直场景部署让训练数据结构从“正三角”转为“倒三角” 1.2.2需要的模型更“小”,解决推理太慢痛点 模型的大小与性能之间存在一定的正相关关系,更大规模的模型通常能习得更丰富的模式和更复杂的表示,从而在许多任务上实现更好的性能表现。描述性能与模型关系的Scaling Law理论由OpenAI在2020年提出。Scaling Law是指模型的性能与计算量、模型参数量和数据大小三者之间存在的关系。具体地,当不受其他因素制约时,模型的性能与这三者呈现幂律关系。这意味着,增加计算量、模型参数量或数据量,都可能会提升模型的性能,但是提升的效果会随着这些因素的增加而递减。 图表12:模型训练的性能随着计算量、参数量、数据量的增加而提升 Scaling Law的理论是针对训练阶段而言的,而不是推理阶段。从推理阶段看,目前机器人大模型普遍推理时间较长,实时性还有较大改善空间。 图表13:目前机器人大模型普遍推理时间较长,实时性还有较大改善空间 Figure通过加入一个更小模型的方式来解决推理速度太慢的问题。Figure推出的Helix VLA模型通过部署两个模型解决了VLM模型基础架构通用性强但响应速度较慢的问题,通过再加入一个视觉运动策略速度快但通用性差的模型进行互补,这种解耦架构可以让系统在最佳时间尺度上运行,系统2可以“慢思考”高层次目标,而系统1可以“快思考”以实时执行和调整动作。 图表14:F i gure通过加入一个更小模型的方式来解决推理速度太慢的问题 在具体的垂直场景中,模型并不是越大越好,更大的模型算力需求更大、推理时间更长、能耗/维护成本更高,选择基于垂直场景专业知识和数据进行优化训练的垂直大模型更加适合。 图表15:垂直大模型更适合特定场景应用 1.2.3不追求人形形态,控制算法更成熟 机器人的应用落地除了大模型的“大脑”外,还有负责运动控制的“小脑”。“小脑”主要是依照具体的运动轨迹要求,根据负载情况,通过驱动器、驱动执行电机完成相应运动轨迹要求的系统。通常包括运动控制器、伺服驱动器、执行器、运动反馈单元等。 图表16:机器人“小脑”包括运动控制器、驱动、执行器、运动反馈单元等 人形机器人的运动控制难度较高,根据《基于动作捕捉技术对仿人机器人运动学分析与仿真》信息,人形机器人下肢可简化为14自由度系统,其中,髋关节为3个自由度,分别为横滚、俯仰和偏转,通过1个虎克副和1个旋转副来连接;同样的传动方式也作用于踝关节的3个自由度,每个膝关节1个前向自由度,通过1个旋转副连接。 图表17:人形机器人仅下肢就有14个自由度,控制难度大幅增加 双足行走的过程较为复杂,步态优化控制和鲁棒稳定性等研究上仍存在有待解决的问题,尤其是在具体场景中进行应用要求更高。 图表18:双足行走的过程较为复杂 所以尽管双足行走理论上由于其他行走方式,考虑到垂直场景以功能实现为优先,下肢可以采用轮式的方案进行过渡,整体的控制难度更低。 图表19:双轮类人机器人可以简化为两轮倒立摆运动学模型 1X发布的轮式机器人EVE搭载的世界模型已经可以根据动作指令生成控制轨迹完成移动。 图表20:E V E搭载的世界模型已经可以根据动作指令生成控制轨迹完成移动 部分垂直场景不需要机器人进行移动,在这种固定位置的情况下机器人更像是搭载了大模型的工业机器人,在硬件、运动控制策略等方面成熟度较高,一旦模型成熟就可以快速实现产业化落地。 图表21:如果是仅有上肢的机器人在运动控制上可以沿用工业机器人的策略 目前例如华中数控、拓斯达等原先拥有“小脑”+工业机器人技术储备的企业均推出了仅有上肢的机器人产品,搭配上合适的垂直大模型有较好的产业化应用前景。 图表22:华中数控开发的具身智能工作站 图表23:拓斯达双机械臂联动控制 2.哪些场景潜力大? 2.1潜在场景寻找思路 2.1.1工业/服务机器人渗透率的逆向思考,工业机器人渗透率越低未