: 2023年5月17日,特斯拉召开2023年股东大会,展示了一直备受关注的人形机器人Optimus进化情况,机器人作为AI技术的重要载体成为市场焦点。在ChatGPT掀起的AI风潮下,机器人与大模型有望实现产业共振。 特斯拉股东大会召开,人形机器人Optimus进化 在机器人领域,特斯拉的人形机器人一直备受关注。2021年,马斯克发布了仅处于概念阶段的特斯拉通用机器人计划,2022年人形机器人擎天柱(Optimus)实体亮相,在没有连线或后援的情况下能简单走几步。2023年特斯拉股东大会上,马斯克展示了TeslaBot的最新进展:Tesla Bot不仅可以流畅行走,多个Tesla Bot还可以一起往前行走,并且边走边发现并记忆周遭的环境,此外,还能够精准控制力道,各种物体拿捏自如。 Tesla Bot技术支撑——AI域、技术域 特斯拉机器人可以简单拆分2个域,即AI域及技术域。 AI域:采用FSD computer作为算力核心,是人形机器人的核心及未来发展的重要趋势。FSD算法主要依赖于神经网络和计算机视觉技术。其核心是神经网络模型,可以实现车辆的环境感知和物体识别,FSD算法在机器人的感知、决策和控制方面也起到重要作用。 技术域:机器人头部包含信息屏幕,用来展示信息,此外机器人由轻质材料组成,并且四肢包含40个左右的机电执行器,并通过力反馈感应系统来实现平稳和敏捷双脚行走。研究团队使用电机扭矩控制(motor torque control)操纵人形机器人腿部的运动,让机器人「落脚」力度保持轻缓。 ChatGPT风起,机器人与大模型有望实现产业共振ChatGPT掀起的AI浪潮依旧在全球范围内疯狂蔓延,机器人作为AI技术的重要载体成为市场焦点。在当前所处的“模型”范式后,下一个“行动”范式节点是以机器人为代表的物理空间革新,而当前AI大模型的技术突破为下一范式来临注入强大推动力。大模型对机器人的赋能体现在1)感知系统及方式的革新;2)提升控制、规划决策和交互能力。代表研究包括谷歌的具身多模态语言模型PaLM-E、微软的ChatGPT以及商 汤“书生2.5”模型对机器人在人机交互、行动规划决策、问题处理和智能控制等多任务领域的实验。 我们认为AI现实场景应用中的探索,最终目的是给大语言模型“穿上机器人外衣”,进而转化为生产力提升。因此要进一步关注目前可以用大模型进行改造的硬件机器人类型及应用场景:1)服务类机器人;2)工业机器人;3)人形机器人。 受益方向梳理:机器人产业链、机器视觉、大模型 在各大厂商加速布局AI算法和机器人产业链,寻求多领域场景落地可能性的背景下,我们认为重点关注领域及受益标的包括:机器人产业链(三花智控、绿的谐波、鸣志电器)、机器视觉(虹软科技、海康威视、大华股份)、视觉领域大模型(商汤科技、云从科技)。 风险提示 核心技术水平升级不及预期的风险,AI伦理风险,政策推进不及预期的风险,中美贸易摩擦升级的风险。 1.特斯拉股东大会召开,人形机器人Optimus进化 在机器人领域,特斯拉的人形机器人一直备受关注。 2021年,在「特斯拉AI日」上,马斯克发布了特斯拉的通用机器人计划,并用图片展示了人形机器人Tesla Bot的大致形态。但当时的Tesla Bot只是个概念,动作展示部分是由工作人员穿着特制的紧身服装,扮成机器人的模样表演了一段舞蹈。 一年后在2022「特斯拉AI日」上,人形机器人擎天柱(Optimus)实体亮相,缓缓走出并和观众打了个招呼。初次亮相的Optimus在没有连线或后援的情况下,只能简单走几步。 在最近的2023年特斯拉股东大会上,马斯克展示了Tesla Bot的最新进展: 1、Tesla Bot已经可以流畅行走。 2、多个Tesla Bot可以一起往前行走。 3、Tesla Bot不是在简单走路,而是边走边发现并记忆周遭的环境。 除了行走之外,马斯克还展示了人形机器人更为细节的能力:特斯拉展示了Optimus电机转矩控制的能力,能做到控制力道不打碎鸡蛋。此外,特斯拉的人形机器人还能够灵活抓取放下物体,各种物体均可拿捏自如。 2.Tesla Bot技术支撑——AI域、技术域 2.1.AI域:已打通FSD和机器人的底层模块 AI域:采用FSDcomputer作为算力核心,配备8个Autopliot Cameras作为传感器,支持深度学习、大数据分析,Dojo训练,自动标记等算法。 我们认为AI域是人形机器人的核心,机器人只有通过不断的机器学习的训练,才能完成指定的任务。此外特斯拉人形机器人是特斯拉自动驾驶的集大成者,因为人形机器人的核心与智能驾驶共用FSD系统,我们预计智能驾驶很多神经网络系统将会应用在人形机器人中。 AI域是人形机器人未来发展的重要趋势,无论是工业机器人重视的人机协作能力,还是服务机器人随着人工智能技术的突破,进入快速扩张期,同时逐渐向仿生领域迈进,甚至是特种机器人建筑煤炭灾后重建等方向进军,机器视觉和智能语言都是其赋能千行百业的必要前提。 非拥有AI域机器人:从流程上可分为四步,即编程、行动、生成指令集和执行控制,软件层面上专精型机器人通过基于云计算或者虚拟主机进行软件编程,通过执行已配置的业务逻辑进而完成固定任务。 拥有AI域机器人:从流程上可分为感知、评估、规划、执行四步。软件层面上主要通过机器学习和神经网络不断进行迭代训练,进而完成理解人类语义和机器视觉上的物体识别,从而通过规划生成完成任务的多种路径,由评估模块生成最低能效完成任务的简单路径,最后生成规划指令集,传导到完成制动。 马斯克透露,特斯拉已经打通了FSD和机器人的底层模块,实现了一定程度的算法复用。FSD算法指的是其全自动驾驶(Full Self-Driving)系统所采用的算法,采用它是为了实现车辆的自主导航和自动驾驶功能,让车辆能够在各种交通环境下进行感知、决策和控制。 FSD算法主要依赖于神经网络和计算机视觉技术。其核心是神经网络模型:通过对实时传感器(如相机、激光雷达等)获取的数据进行处理和分析, 并从中提取有关道路、车辆、行人和障碍物等信息,可以实现车辆的环境感知和物体识别。 人形机器人的灵魂——AI机器视觉:机器视觉是AI深度学习的一种应用与技术方向,无论是人形机器人还是智能驾驶都是机器视觉的落地方向之一 。我们认为特斯拉在智能驾驶和人形机器人在机器视觉的路径上具有异曲同工之妙。一套完整的训练、测试(工作)运动包含传感器、感知、评估、规划、制动器五个部分。 首先由传感器收集数据,随后数据通过神经网络的运算进行数据转换及数据清洗,生成计算机可以识别的数据信息;然后评估模块基于感知模块生成的数据生成完成任务的多种路径;由评估模块选择使用最低能效完成任务的简单路径,随后生成规划指令集;最后由规划生成控制指令集,完成对制动器的判定,让机器人完成指令任务。 特斯拉利用大规模的数据集训练模型,可以提高算法在复杂环境下的性能和鲁棒性。特斯拉这次称已经打通了FSD和机器人的底层模块,并认为自动驾驶的本质其实就是机器人。 FSD算法在机器人的感知、决策和控制方面也起到重要作用。和特斯拉环境感知主要依赖视觉相似的,机器人同样也是如此。在感知层面,特斯拉的一个重要技术是Occupancy Network (占据网络),用于对3D空间中一些长尾障碍物的检测,来估测障碍物的位置大小,甚至可以估计物体的运动情况。FSD算法利用传感器数据进行环境感知,这些传感器也可以帮助机器人感知周围环境,识别物体、人和障碍物等,帮助机器人在执行任务时识别和定位物体。 2.2.技术域:电机扭矩控制是机器人精准控制力道的关键方法 技术域:机器人头部包含信息屏幕,用来展示信息,此外机器人由轻质材料组成,并且四肢包含40个左右的机电执行器,并通过力反馈感应系统来实现平稳和敏捷双脚行走。 研究团队使用电机扭矩控制(motor torque control)操纵人形机器人腿部的运动,让机器人「落脚」力度保持轻缓。大会上视频展示了使用这种控制方法,机器人的动作甚至无法打碎鸡蛋,说明机器人的脚步很轻。 3.ChatGPT风起,机器人与大模型有望实现产业共振 3.1.下一范式蓄势待发,机器人“智”+“力”双剑合璧 人工智能对话大模型应用ChatGPT掀起的AI浪潮,依旧在全球范围内疯狂蔓延,这一轮浪潮背后,生成式AI技术与大语言模型技术备受关注,这也使得机器人行业成为市场焦点。 前微软全球执行副总裁陆奇博士在演讲中提到,在我们当前所处的“ 模型”新范式后,下个范式“行动”范式,是以自动驾驶、机器人和空间计算组合的物理空间中革新范式。所以暨LLM(大语言模型)后的下一个范式必然是机器人,从当下的时间节点看,硬件实体机器人也是大模型的重要落地场景。 AI大模型有望突破局限,让机器人生“智”。机器人的大模型包含LLM (大语言模型)、VLM(视觉-语言模型)、VNM(视觉导航模型)。机器人的“大脑”AI域不局限于ChatGPT运用的语言大模型 , 谷歌在LM-Nav的研究中提到,LLM+VLM+VNM三个模型相互结合,从自然语言(冗余口语化描述)到文本(地标的字符串)到图像(根据文本找图像中的物体),能够最终生成机器人的路径规划。 以此行为模式为基础,机器人能进行人机互动,同时实现一定程度的“随机应变”。我们认为AI大模型算力近乎无限制,机器人的体能富余,两者结合后在应用端将带来巨大的想象空间。 3.2.AI赋能机器人:革新感知方式,融合控制与交互 多模态大模型带来机器人感知层面提升:1)降低前端硬件设备要求;2)降低人工标注成本;3)革新感知方式。机器人给感知系统的边界条件是相对苛刻的,而前端能源和算力有限,这是智能硬件目前面对的重要瓶颈,如果AI能直接赋能边缘侧,云端算力的压力将减轻。同时,能理解图像的多模态大模型加持的3D视觉感知技术,能将采集到的数据在感知侧直接完成标注,而无需将海量原始数据传输到CPU、GPU,大幅节省算力开销且降低延时。除此以外,FSD算法(特斯拉推出)、注视点算法、深度神经网络处理声音信号、辅助机器人运动决策的数据感知等,有望全面优化机器人感知系统。 谷歌于2023年3月发布大模型结合实际机器人最新工作PaLM-E。PaLM-E-562B集成了参数量540B的PaLM和参数量22B的视觉Transformer(ViT),是目前已知的最大的视觉-语言模型。该模型在多任务中表现了强大的感知能力,机器人可以在要求下完成颜色归类任务,研究人员给出的输入不限于语言指令,还掺杂了视觉信息。同时,在任务中它还可以从抽屉里拿东西,然后走过去递给人。 多模态大模型带来机器人管理层面提升:1)提升控制力;2)实现规划与决策;3)带来人机交互全新范式。在控制层,一直以来rule base的机器人解决的都是简单的商业场景 , 因为其不能预判 , 无法解决复杂场景 , 而Robot Transformer能够基于多维数据解决机器人灵巧手问题,打造小型化、能耗低、逻辑简单,具备自学习能力的产品。在规划决策层,大模型可以植入多种先验知识库,与现场随机性结合,获得兼顾了历史经验积累和现场随机变化的可执行机器人规划命令,同时实现群体智能最优化决策。在交互层,未来两大可能是新的3D交互方式以及大语言模型助力AR眼镜成为随身AI助理。 商汤科技于2023年3月发布多模态多任务通用大模型“书生2.5”,在多模态多任务处理能力方面实现多项全新突破。例如辅助完成居家机器人场景中各类复杂任务,在各个场景进行问题拆解,逐级决策。 3.3.打开市场:加速三大机器人场景落地 我们认为特斯拉、谷歌、微软等各大巨头在AI现实场景应用中的探索,其最终目的是给大语言模型“穿上机器人外衣”,通过机械域将其应用切入到工作和现实生活场景中,进而转化为生产力提升。因此要进一步关注目前可以用大模型进行改造的硬件机器人类型及应用场景。 1)对话为主的服务机器人(包括简单行动能