传统机器人泛化能力弱 莫拉维克悖论指出,对计算机而言,实现逻辑推理等人类高级智慧只需要相对很少的计算能力,而实现感知、运动等低等级智慧却需要大量的计算资源。机器人领域的传统深度学习模型是在针对特定任务定制的小型数据集上进行训练的。面对新任务,机器人需要再次收集数据训练、设定方案和测试,从而导致了大量的资源和人力损耗,这限制了机器人在不同应用程序中的适应性。 大模型加持使任务级编程成为可能 大模型的出现,让高成本的垂直领域AI开发,变成“预训练大模型+特定任务微调”的形式,可以大幅提高模型的泛化能力,提高开发速度。尤其是在机器人相关领域,多模态基础模型可以将从不同传感器收集的多模态异构数据融合和对齐成紧凑的紧凑同质表征,提升感知、决策和控制等环节能力。大模型能够更好训练机器人、使任务级编程成为可能、有望降低机器人交互门槛、提升感知能力,或将解决传统机器人泛化能力弱、落地难度高等痛点,加速应用推广。 OpenAI加持机器人智能提升 2024年3月13日,美国机器人初创公司Figure发布了一段公司最新人形机器人Figure01展示视频,其智能大脑为OpenAI大模型。在该视频中,机器人Figure01不仅实现与人进行流畅对话,理解人类对其的指令,还可以在理解指令的同时对面前的物体进行抓取和摆放,从而模拟了人类在处理家务的场景。OpenAI加持下的Figure01机器人展现了优秀的智能反馈,显示了其较强的泛用能力,有望扩展机器人更广泛的应用场景。 投资建议 大模型助力机器人有望提升应用广度和深度,成为重要的人工智能应用终端。相关产业环节包括:(1)算力:海光信息、中科曙光、紫光股份、浪潮信息、神州数码、高新发展、寒武纪-U、景嘉微等;(2)机器视觉:海康威视、大华股份、商汤-W、虹软科技、奥普特、天准科技、凌云光、大恒科技、奥比中光等;(3)智能操作系统:中科创达等;(4)硬件:芯动联科、赛微电子、苏州固锝、汇川技术、双环传动、鸣志电器、伟创电气、绿的谐波、拓普集团、蓝思科技、三花智控等;(5)整机:优必选、石头科技、科沃斯等。 风险提示:AI技术升级迭代不及预期;智能机器人产业化不及预期;下游需求不及预期;行业竞争加剧的风险等。 1.大模型有望提升机器人泛化能力 1.1传统机器人泛化能力弱 莫拉维克悖论(Moravec's paradox)由汉斯·莫拉维克(Hans Moravec),罗德尼·布鲁克斯(Rodney Brooks),马文·闵斯基(MarvinMinsky)等人于20世纪80年代提出。莫拉维克悖论指出:和传统假设不同,对计算机而言,实现逻辑推理等人类高级智慧只需要相对很少的计算能力,而实现感知、运动等低等级智慧却需要大量的计算资源。如AlphaGo可以战胜世界围棋冠军李世石,但如果让机器人完成却并不简单。 机器人应用场景划分为封闭式和开放场景 封闭式场景指采用经典的定制化模式。预设机器人的任务执行边界,用户下发指令后,先收集现有数据进行训练,在限定范围内穷举出所有任务可能性,尽可能覆盖更多的解决路径,典型如工业场景的运输机器人。 开放场景则是指不受强封闭式规范和范围限制的长尾问题,如商超服务、居家养老等。当机器人与人、环境进行大量的交互,数据集或存在少样本、甚至零样本的突发情况,这对机器人理解、处理多种任务的泛化能力要求极高。如自动分拣领域中,机器人可以完成相对更标准化的物流分拣、仓库分拣,而种类、特性更多的商超分拣则较难实现。 机器人面临着泛化能力弱等痛点 机器人领域的传统深度学习模型是在针对特定任务定制的小型数据集上进行训练的,面对新任务,机器人需要再次收集数据训练、设定方案和测试,从而导致了大量的资源和人力损耗,这限制了机器人在不同应用程序中的适应性。 1.2大模型加持有望解决痛点 大模型是具有大量参数和较高计算资源需求,用于处理复杂任务并取得优异性能的机器学习模型。大模型的出现,让高成本的垂直领域AI开发,变成“预训练大模型+特定任务微调”的形式,可以大幅提高模型的泛化能力,提高开发速度。 尤其是在机器人相关领域,多模态基础模型可以将从不同传感器收集的多模态异构数据融合和对齐成紧凑的紧凑同质表征,而这正是机器人理解和推理所需的。其学习到的表征可望用于自动化技术栈的任何部分,包括感知、决策和控制。 图表1:大模型能力对应智能机器人需求 图表2:赋能机器人的大模型概览 大模型能够更好训练机器人 2024年1月4日,谷歌DeepMind机器人团队推出AutoRT,将大模型例如大型语言模型(LLM)或视觉语言模型(VLM))与机器人控制模型(RT-1或RT-2)相结合,创建一个在新环境下可以部署机器人收集训练数据的系统。通过收集更多的体验式训练数据和更多样化的数据,AutoRT可以帮助扩展机器人学习,更好地训练机器人适应现实世界,理解人类实际需求。 图表3:大模型能够更好训练机器人 大模型使任务级编程成为可能 根据Robotics:Modelling,Planning and Control书中的分类,机器人编程分为四个级别:任务级,动作级,初始级,伺服级。高层级负责任务定义和动作规划,低层级负责实时运动控制。在大模型之前,一般只有第四步的控制和反馈环节是由计算机自动完成,前面的任务定义、拆解和机器人运动代码生成主要是机器人工程师完成。 图表4:机器人任务级交互有望到来 由于大模型具备较强的自然语言处理等能力,可以有效帮助机器人首先理解任务内容,然后将任务拆解,最后编程执行,完成任务,这将使得任务级编程成为可能。 所谓任务级编程,指的是根据人下达的指令,实时编写出完成指令对应的程序并执行,使一个机器人能够完成各种任务,泛化能力将获得明显提升。 大模型有望降低机器人交互门槛 传统的机器人管线需要专门的工程师编写代码、部署运行、反馈优化来改进流程。 而在大模型的加持下,非技术性用户可以使用自然语言等指令与机器人交互,更直接参与到需求实现的过程中,降低了交互门槛,有利于机器人应用推广。 图表5:非技术性用户可通过大模型参与机器人迭代 大模型提升感知能力 与周围环境交互的机器人会接收不同模态的感官信息,如图像、视频、音频和语言等。这种高维数据对机器人在环境中的理解、推理和互动而言至关重要。大模型可以将这些高维输入转换成容易解读和操作的抽象结构化表征。尤其是多模态基础模型可让机器人将不同感官的输入整合成一个统一的表征,其中包含语义、空间、时间和可供性信息,使得机器人在进行目标识别、避障、三维重建、语义分割等任务时有可能实现更高的高精确度。 2.OpenAI加持机器人智能提升 2.1OpenAI加持Figure01 2024年2月29日,美国机器人初创公司Figure宣布从OpenAI、微软、英伟达、Jeff Bezos、英特尔、Parkway Venture Capital等筹集到新一轮6.75亿美元融资,估值达到26亿美元,并将与OpenAI合作开发下一代人形机器人大模型。 图表6:Figure公司注资公司 北京时间3月13日,Figure发布了一段公司最新人形机器人Figure01展示视频。该机器人智能大脑为OpenAI大模型。在该视频中,机器人Figure01不仅实现与人进行流畅对话,理解人类对其的指令,还可以在理解指令的同时对面前的物体进行抓取和摆放,从而模拟了人类在处理家务的场景。Figure01还可以解释自己的行为,并对自己的行为进行评价,同时Figure01在进行对话时,说话语调中还模拟了人在自然条件下的停顿。该段视频采取一镜到底拍摄模式,无加速或剪辑。 图表7:Figure01机器人展示 目前机器人Figure01可实现的能力:(1)描述周围环境;(2)使用常识逻辑推理进行决定,例如:“放在桌子上的盘子和杯子接下来可以放入沥水架中”;(3)将模棱两可的高级需求(“我饿了”)转化为符合前后语境的行为(“将苹果递给人类”); (4)用通俗易懂的话语描述它为什么执行特定行为。(例如“这是我唯一可以给你在桌子上能吃的东西”) 图表8:Figure01机器人技术原理展示 机器人内部大模型:一个可以理解语言对话的大型预训练模型为Figure01提供了强大的短期记忆能力。例如一个问题“你能把他们放在那里吗?”中“他们”指的是什么,“那里”指的是“哪里”,回答问题体现了其反思记忆能力。 低层次双手操作系统:所有行为均由神经网络视觉运动变换策略驱动,将像素直接映射到动作方面。神经网络以10hz的频率接收图像,并以200hz的频率生成24-DOF动作(手腕姿势和手指关节角度)。这些动作成为高速率“设定点”,供更高速率的全身控制器跟踪。这是一个有用的关注点分离:互联网预训练模型对图像和文本进行常识推理,以得出高级计划。学习的视觉运动策略执行计划,执行那些难以用手操作的快速反馈行为,例如在任何位置操纵可变形的袋子。同时,全身控制器确保安全、稳定的动力,例如保持平衡。 2.2Figure01展现优秀智能反馈 机器人Figure01展示能力:可理解周围环境,对人类需求进行正确回复,流畅进行交流,并对自己的行为进行评价。人类对Figure01发出“我饿了”的需求,机器人将桌子上的苹果进行传递。在人类将垃圾放在机器人身前,机器人将垃圾进行处理并解释此前传递苹果的原因,然后将被子和盘子放置进沥水架内,最后在交谈中对自己此前的行为进行评价。 图表9:Figure01将食物进行传递 图表10:Figure01进行垃圾处理 图表12:Figure01与人进行对话并对此前行为进行评价 图表11:Figure01整理餐具 3.投资建议 3.1机器人赛道融资活跃 2023年12月29日,深圳市优必选科技股份有限公司(9880.HK)正式在港交所上市,成为中国人形机器人第一股。优必选科技发行价为90港元,发行11,282,000股,募资净额9.06亿港元。 根据The Robot Report统计,2023年12月,机器人公司通过41项投资筹集了7.49亿美元。2023年机器人投资达到约129亿美元。 图表13:2023年各月机器人公司融资情况 2024年2月29日,美国机器人初创公司Figure宣布从OpenAI、微软、英伟达、Jeff Bezos、英特尔、Parkway Venture Capital等筹集到新一轮6.75亿美元融资,估值达到26亿美元,并将与OpenAI合作开发下一代人形机器人大模型。 3.2算力、机器视觉等领域有望受益 大模型赋能机器人,能够更好训练机器人,使任务级编程成为可能,有望降低交互门槛,提升感知能力,或将解决传统机器人泛化能力弱、落地难度高等痛点,加速应用推广。OpenAI加持下的Figure01机器人已展示出优秀智能,随着大模型水平进步、机器人硬件性能提升、软硬件适配加强,机器人有望提升应用广度和深度,成为重要的人工智能应用终端。 相关产业环节包括:(1)算力:海光信息、中科曙光、紫光股份、浪潮信息、神州数码、高新发展、寒武纪-U、景嘉微等;(2)机器视觉:海康威视、大华股份、商汤-W、虹软科技、奥普特、天准科技、凌云光、大恒科技、奥比中光等;(3)智能操作系统:中科创达等;(4)硬件:芯动联科、赛微电子、苏州固锝、汇川技术、双环传动、鸣志电器、伟创电气、绿的谐波、拓普集团、蓝思科技、三花智控等;(5)整机:优必选、石头科技、科沃斯等。 4.风险提示 AI技术升级迭代不及预期:AI技术升级迭代不是线性发展的,存在长期无法突破关键技术难点的风险; 智能机器人产业化不及预期:智能机器人产业链长,产业化进程存在不及预期的风险; 下游需求不及预期:下游需求分散,受宏观经济、成本等多种因素影响,下游需求存在不及预期的风险; 行业竞争加剧的风险:一旦看到明确的行业机会,行业内的公司和新进入者涌入可能导致行业竞争加剧的风险。