AI智能总结
首席证券分析师:周尔双执业证书编号:S0600515110002zhouersh@dwzq.com.cn 证券分析师:钱尧天执业证书编号:S0600524120015qianyt@dwzq.com.cn 研究助理:陶泽执业证书编号:S0600125080004taoz@dwzq.com.cn 投资要点: 1.人形机器人为何需要高智能的大模型? 尽管人形机器人的形态早已实现工程可行,但其真正实现产业化落地的关键,在于摆脱传统工业机器人“控制刚、泛化弱”的局限,补足对不确定性的理解与适应能力。工业机器人主要基于确定性控制逻辑运行,缺乏感知、决策与反馈能力,导致高度依赖集成,成本高、通用性差。相比之下,人形机器人以“通用智能体”为目标,强调感知—推理—执行的完整链路,必须依托大模型支撑的多模态理解与泛化能力,才能适应复杂任务与动态环境。当前多模态大模型的兴起,为人形机器人提供了“初级大脑”,开启从0到1的智能进化,并通过数据飞轮实现模型能力与产品性能的持续提升。然而整体智能化仍处于L2初级阶段,通往泛化智能仍面临建模方法、数据规模与训练范式等多重挑战,高智能大模型将是贯通通用人形机器人路径的核心变量。 2.从架构端和数据端看,目前机器人大模型的进展如何? 当前机器人大模型的快速演进,主要得益于架构端与数据端的协同突破。架构上,从早期的SayCan语言规划模型,到RT-1实现端到端动作输出,再到PaLM-E、RT2将多模态感知能力融合至统一模型空间,大模型已逐步具备“看图识意、理解任务、生成动作”的完整链条。2024年π0引入动作专家模型,动作输出频率达50Hz;2025年Helix实现快慢脑并行架构,控制频率突破至200Hz,显著提升机器人操作的流畅性与响应速度。数据端,已形成互联网、仿真、真机动作三类数据协同支撑的结构化体系:前两者提供预训练量级与泛化场景,后者则直接提升模型在物理世界中的实用能力。其中,真机数据采集对高精度动捕设备依赖度高,光学动捕以精度优势适配集中式训练场,有望成为具身模型训练的核心数据来源。当前主流训练范式正由“低质预训练+高质后调优”快速迭代,模型智能的跃迁正转向“从数据堆料到结构优化”的阶段。 3.未来大模型的发展方向是什么? 面向未来,具身大模型将在模态扩展、推理机制与数据构成三方面持续演进。当前主流模型多聚焦于视觉、语言与动作三模态,下一阶段有望引入触觉、温度等感知通道;Cosmos等架构尝试通过状态预测赋予机器人“想象力”,实现感知—建模—决策闭环,构建更真实的“世界模型”,提升机器人环境建模与推理能力;数据端,仿真与真实数据融合训练成为主流方向,高标准、可扩展的训练场正成为通用机器人训练体系的关键支撑。 4.投资建议 模型端建议关注【银河通用(一级公司)】【星动纪元(一级公司)】【智元机器人(一级公司)】,数据采集领域建议关注【青瞳视觉(一级公司)】【凌云光(688400.SH)】【奥比中光(688322.SH)】,数据训练场领域建议关注【天奇股份(002009.SZ)】。 5.风险提示 大模型技术进展不及预期,高质量数据获取受限,人形机器人需求不及预期。 1.人形机器人为何需要高智能的大模型? 2.从架构端和数据端看,目前机器人大模型的进展如何? 3.未来大模型的发展方向是什么? 4.相关标的 5.投资建议与风险提示 1.1人形形态并非技术难点,核心在于通用智能的补足 ⚫人形形态的机器人早已实现工程落地,但长期停留在“仿形不仿智”阶段。过去的人形机器人主要以模仿人类形态为目标,相关技术早在数十年前已初步成熟。早期典型代表如2000年本田推出的ASIMO与2013年波士顿动力的Atlas,虽具备出色的运动能力,但执行逻辑高度依赖预设行为库。这类机器人可完成跑跳等复杂动作,体现了运动控制硬件的成熟度,但其行为均来自人工设定的指令序列,无法自主理解任务或适应环境变化。因此,本质上这类产品仍是“人形的机器”,而非“具备人类智能的机器人”。它们缺乏对环境的感知、任务的理解与泛化能力,尚不具备真正的智能交互与通用任务执行潜力。 1.2多模态大模型的出现,为人形机器人装上“智能大脑” ⚫本轮人形机器人热潮的底层驱动力,是市场对其“智能性”的高度期待。随着多模态大模型的突破,机器人首次具备了“感知—理解—决策”的潜力,被视为拥有“大脑”的关键起点。大语言模型(LLM)的成功,验证了通过大规模互联网文本训练神经网络具备推理能力的可行性;而视觉语言模型(VLM)进一步拓展模态边界,使模型可以“看懂图像、理解语言”。LLM专注于文本推理,VLM则通过融合图像/视频与语言等模态信息,构建起跨模态的统一表征体系,从而支持模型理解现实世界的更多维度。 ⚫动作模态的融入,让模型端真正赋予机器人执行操作的能力。仅能感知、理解世界并不是机器人大脑的终极目标,机器人的最终目标是在认知的基础上实现与现实世界的动作交互。目前机器人模型的核心迭代方向,是将动作模态融入现有的视觉语言模型。 1.3初级具身智能模型撬动人形机器人产业0-1落地 ⚫当前大多数人形机器人仍处于展示阶段,核心瓶颈在于智能程度不足。一旦具备初步智能化能力,机器人即可在特定场景中落地应用,并通过任务反馈不断优化模型,开启数据飞轮与产品迭代循环,从0-1迈向1-100的演化。 ⚫数据飞轮是驱动智能系统能力提升的核心机制。本质是“收集数据—改进模型—提升产品—吸引更多用户和数据—再次改进”的正向循环,有望带动人形机器人快速迈入迭代加速期。 1.4当前模型水平有限,距离真正泛化仍有较远距离 ⚫现阶段人形机器人仅在智能化的初级阶段。北京市人形机器人创新中心牵头,联合上海市、浙江省人形机器人创新中心,以及优必选、宇树科技、中国信息通信研究院、工业互联网研究院等多家头部企业与科研机构,共同制定了全球首个《人形机器人智能化分级》标准,从感知、决策、执行、协作四维度划分L1-L5五级。目前主流产品智能水平普遍仅在L2左右,尚未具备自主泛化与应变能力。未来向更高智能等级进化仍需突破模型、数据与算力多重门槛。真正实现通用智能机器人仍有较长路径要走,需在技术、数据体系和生态协同上持续积累。 1.人形机器人为何需要高智能的大模型? 2.从架构端和数据端看,目前机器人大模型的进展如何? 3.未来大模型的发展方向是什么? 4.相关标的 5.投资建议与风险提示 2.1发展历程:三条主线驱动,加速技术衍变 ⚫多模态、动作频率和泛化能力三条主线驱动技术衍变。 1)多模态:22年4月Saycan发布,能够根据任务指令在动作库中输出最优动作。22年12月RT1发布,动作输出升级为由Transformer生成的动作Token。23年3月PaLM-E发布,较Saycan在任务理解能力上显著升级。23年7月RT2发布,结合RT1和PaLM-E两者优势,将动作信息纳入模型输出空间。 2)动作频率:RT2只能输出1-5Hz的动作序列,为克服这一问题。24年10月π0发布,引入采用FlowMatch模型的动作专家,动作输出升级为50Hz的动作轨迹。25年2月Helix发布,采用快慢脑结构,操纵频率进一步提高,输出200Hz动作序列。 3)泛化能力:由于现实世界极其复杂,不可能通过枚举穷尽所有场景,因此机器人必须具备“零样本泛化”能力。纵观模型发展史,各模型均强调多任务联合训练、预训练迁移能力以及跨平台迁移能力,核心目的就是提升零样本泛化表现。 2.2.1SayCan:语言模型与可行性评估结合的任务规划框架 SayCan是由Google于2022年提出的一种将语言模型(LLM)与机器人可行性模型相结合的任务规划系统。它的核心思想是将自然语言指令拆解为一系列子任务,然后由LLM(如PaLM)生成可能的动作候选,再由一个训练好的“Can”模型(基于Q-learning的Affordance Model)评估每个动作在当前环境下的可行性。 具体流程:SayCan首先接收一段用户指令(如“请帮我从厨房拿一瓶水”),通过语言模型推理出多个可能的操作步骤(如“走到冰箱前”、“打开冰箱”、“拿出水瓶”),之后使用训练得到的可行性模型为这些步骤打分,最终选取可执行性最高的动作序列传给机器人控制器执行。该方法巧妙地将LLM的语义理解能力与机器人在现实场景中的动态感知能力连接起来,实现了“说得通也做得到”的人机交互模式。 2.2.1SayCan:语言模型与可行性评估结合的任务规划框架 SayCan在真实机器人平台上展示出显著优于传统方法的任务执行能力,验证了“语言+可行性打分”架构的有效性。在实验中,SayCan在真实世界的厨房环境中执行了101项任务,规划成功率为81%,执行成功率为60%,比未经过现实世界约束的LLMs执行准确性提高了约15% SayCan的两阶段结构在工程部署和模型泛化上存在一定限制,难以满足大规模通用机器人系统需求。1)语言理解模块和可行性模型是独立训练,无法实现全局端到端优化,导致部分情况下任务分解与动作打分之间存在语义脱节;2)可行性模型依赖预定义的状态特征和Q值训练,对不同场景需重新标注和学习,迁移成本高;3)系统整体对任务顺序依赖强,缺乏自主replanning能力,难以处理开放环境中的任务中断或失败恢复。 2.2.2 RT-1:端到端Transformer控制模型 ◆Google Robotics于2022年发布的RT-1(Robotics Transformer 1),基于Transformer模型及简约标记化方法,利用大规模开放式语言及视觉数据实现实时、可扩展、可泛化、适用于实际场景的机器人运动控制。RT-1使用Transformer编码器将图像帧与语言指令联合编码,输出动作token(例如控制机械臂的末端位姿与夹爪状态)。训练数据来自于机器人远程操作演示,总共包含13万条动作轨迹,涵盖700多个任务目标。 ◆具体流程:当听到用户的简单指令如“帮我拿起桌子上的一瓶水”时,EfficientNet会接收图像信息,然后FiLM层把语言指令与图像结合,输出token到Tokenlearner,并由其提取关键Token输送给Transformer,最后由Transformer输出具体动作token序列,如关节旋转几度、电机如何运行等。 ◆RT-1是业界首个大规模部署的机器人端到端Transformer控制模型,实现了从感知输入到控制输出的全流程统一。相比SayCan模块化架构,RT-1提供了更高效率和更强适应能力的系统训练范式,大大简化了机器人模型设计与训练流程。模型在厨房、实验室等家庭环境中实现了可扩展的多任务执行,平均任务成功率大幅超过传统控制策略。 2.2.2 RT-1:端到端Transformer控制模型 ◆RT-1实现了端到端的高效控制流程,在真实环境中的多任务执行中展现出极高的稳定性、泛化能力与工程适应性。实验表明:1)RT-1可在家庭厨房场景中执行超过700项具体任务,在3000多次真实测试中平均成功率达97%,典型操作如“移动物品”“打开抽屉”等成功率超过90%;2)模型具备较强的语义泛化能力,能够理解并正确响应指令的多种表达方式,例如“请递杯子”与“帮我拿那个水杯”均能正确执行;3)具备良好的任务扩展能力,新任务可通过行为克隆(Behavior Cloning)快速适配,无需重训练整个模型,显著提升数据利用效率与部署灵活性。 RT-1仍受限于任务平台耦合、语义理解能力弱等问题,在通用性与认知层智能上尚未突破。1)模型在特定机器人平台和场景(如厨房)上训练,迁移到其他平台需重新收集大量数据,缺乏跨平台泛化能力;2)仅使用图像和指令做输入,缺乏触觉、语音等其他模态的感知,对复杂任务(如操作失败后的反馈修正)处理力有限;3)缺乏高阶规划机制,执行策略主要依赖短期视觉反馈,难以完成逻辑顺序复杂的任务链;4)语言指令解析深度不够,面对多条件或因果逻辑类表达(如“先清理再放杯子”)的执