您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国盛证券]:中美共振,人形机器人产业奇点到来 - 发现报告
当前位置:首页/行业研究/报告详情/

中美共振,人形机器人产业奇点到来

机械设备2024-05-06张一鸣、邓宇亮、刘嘉林国盛证券单***
AI智能总结
查看更多
中美共振,人形机器人产业奇点到来

AI赋能机器人及Optimus进展成为双主线。人形机器人产业趋势的共识在多轮行情中逐渐形成,呈现AI技术发展+产业巨头加持+政策支持的三重共振,AI赋能机器人及特斯拉Optimus进展也成为板块的双主线。 多模态视觉语言模型与机器人的结合超大众预期。2023年12月特斯拉发布Optimus Gen-2的视频,相比于第一代Optimus人形机器人,第二代Optimus增加六维力传感器、触觉传感器,进步明显,速度快30%、重量减轻10kg。 灵巧手:空心杯电机是最可靠动力源,传动方案多样。灵巧手是人形机器人的亮点,是具备高度灵活和精细控制能力的末端执行器。从动力源看,目前空心杯电机仍是最可靠方案,空心杯作为高效的微特电机,天然适配灵巧手。传动方面,绳驱与连杆为当前主流,其中绳驱方案一定程度上模拟了人手的肌腱结构,排布灵活且需要的内部空间较小,是最具潜力的方案。 旋转执行器:减速器是核心,谐波仍为当前主流方案。旋转执行器是机器人普遍采用的执行器,适用在机器人关节处,核心是减速器。特斯拉在2023年AI day上展示了三款旋转执行器,对应小中大三个功率等级。旋转执行器的动力源通常是无框力矩电机,而减速器则存在不同方案的选择。常用的精密减速器当中,行星减速器与谐波减速器是较适合于机器人的种类,其中谐波减速器由于其高传动比的特性,是人形机器人性能最优的方案。 线性执行器:行星滚柱丝杠和大功率密度电机是关键,设备国产化是丝杠大规模量产前提。线性执行器是特斯拉人形机器人的特色方案,主要由电机+丝杠组成,主要用于大臂、和下肢。特斯拉对于线性执行器的要求主要是大导程、承载力足够大、且体积小、反应速度快。对于电机而言,大功率密度电机更符合要求,但是工艺上仍需要解决大功率密度电机中存在的噪音大、效率低、温度高等问题。对于丝杠而言,反向式行星滚柱丝杠负载更大、体积更小,更适合用于人形机器人。 机器人加速国内传感器行业发展,国内传感器厂商为机器人蓄力。机器人了解周围环境需要广泛的信息,传感器是重要的“中介”,是机器人软硬件结合关键步骤之一,人形机器人需要的传感器种类众多,包括但不限于触觉/力/扭矩/视觉/惯性等传感器,传感器技术涉及物理、电子、材料学等多种学科融合,存在极高的技术壁垒,因此过去在传感器市场中占据一席之地的更多是国外厂商。行至今日,国内众多优秀的传感器公司如雨后春笋般出现,如发布多维触觉传感器的帕西尼、具备全方位3D视觉产业链技术的奥比中光、具备玻璃微熔拉压力传感器技术的安培龙等,国内传感器厂商有望在人形机器人浪潮中充分受益。 投资建议:(1)第一梯队:鸣志电器、绿的谐波、三花智控、拓普集团、金力永磁;(2)丝杠&设备:北特科技、贝斯特、五洲新春、浙海德曼、华辰装备、日发精机;(3)传感器:安培龙、峰岹科技、东华测试、柯力传感、汉威科技。 风险提示:机器人量产进度不及预期、产业链国产化进度不达预期、测算误差风险。 一、AI赋能机器人及Optimus进展成为双主线 1.1复盘:AI技术发展&产业巨头加持&政策支持三重共振 行情复盘:人形机器人从2022年二季度开始进入大众视野,在多轮行情的交易与博弈中,产业趋势的共识逐渐形成。 1)2022年4月,马斯克接受公开访谈,声称已在布局人形机器人,随后产业链消息不断,行情启动。2022年6月3日马斯克在推特预告,人形机器人原型机“擎天柱”(Optimus)可能在9月30日AI DAY发布,进一步带动行情。 2)8月中旬板块达到高点后开始回调,参与者对AI DAY持观望态度。9月30号AI DAY上展示的机器人无超预期表现,板块继续回调,之后经历3个月的盘整期,直到AI行情到来。 3)2023年年初开始,由于ChatGPT3.5的推出,AI行业热度攀升。人形机器人作为AI的终极应用,在AI行情的轮动中震荡上行。 4)5月中旬特斯拉在股东大会上展示了人形机器人的最新进展,几乎同一时间段,英伟达创始人黄仁勋在ITF World2023半导体大会上提出“具身智能”概念。受上述两个事件催化,人形机器人率先由传感器领涨,后辐射至整个板块。 5)在经历数月盘整期后,2023年10月丝杠走出独立行情,但板块内的结构性行情并未明显拉升人形机器人指数。 6)2023年底至2024年初,板块跟随大盘下行,随后在超跌叠加特斯拉定点的预期中反弹。经历了多轮行情,我们认为人形机器人的产业趋势逐渐得到认可,量产前夕大有可为。 图表1:人形机器人行情复盘(基于wind人形机器人指数) 至今,机器人行业已呈现AI发展&产业巨头&政策支撑三重共振特性,在产业起点积蓄力量。多模态大语言模型的出现,代表人形机器人“大脑”层面难题取得突破。同时2022年以来产业巨头陆续入局,中、美等国政策支持也相继推出,在三重共振下,人形机器人有望形成类似于汽车、智能手机的全球性产业链。 图表2:机器人行业的三重共振 第一:AI技术发展。通用人工智能大模型是实现“具身智能”的关键一环,近年人工智能快速发展,机器人装上“大脑”成为可能。机器人的大脑需要解决解理、决策、执行三个层面的问题,以ChatGPT3.5为代表多模态大语言模型解决了机器人理解人类语言和外部世界的问题;谷歌RT-1模型以图片序列、自然语言指令作为输入,是一种视觉-语言模型(VLMs),展现了较强的泛化能力和鲁棒性,主要解决了前两个层面的问题;而谷歌RT-2模型则是基于视觉-语言-动作模型(VLA)的端到端模型,加入了动作模态,提高了机器人的泛化能力、涌现能力和策略的完成率。RT-2已经足够具身化,将机器人执行层的感知、任务拆解、硬件驱动实现了AI化。 图表3:RT-2模型执行将番茄酱推向蓝色方块的指令,展现了强大的泛化能力 第二:产业巨头入局。自特斯拉机器人亮相以来,全球产业巨头纷纷布局人形机器人领域。特斯拉作为行业引领者,于2022年9月30日举办的AI DAY上首次公开展示人形机器人;2023年年初,三星向本土机器人厂商Rainbow Robotics投资590亿韩元,约合人民币3.19亿元;2023年3月,OpenAI领投挪威机器人公司1X Technologies;2023年5月,NVIDIA创始人黄仁勋表示下一波人工智能浪潮是具身智能(embodied AI); 谷歌在推出有5620亿参数的PalM-E模型后,其旗下AI团队DeepMind在2023年6月20日展示了用于机器人的AI智能体RoboCat,并于7月发布机器人大模型RT-2;2024年3月,黄仁勋在机器人大会上公布其GR00T项目,推出人形机器人通用基础模型Project GR00T和一款基于NVIDIA Thor系统级芯片(SoC)的新型人形机器人计算平台Jetson Thor。 图表4:采用NVIDIA Jetson芯片的迪士尼orange机器人 第三:政策支持,中美共振。2022年以来国内人形机器人相关政策频出,北京、上海、深圳等地都出台了推动产业发展的地方性政策。2023年10月,工信部印发《人形机器人创新发展指导意见》,将人形机器人提升到与计算机、智能手机、新能源汽车同等的战略高度,并表示人形机器人有望在2027年成为经济增长的新引擎。美国方面,2024年3月,美联储半年度货币政策提出,未来几年美国可能快速采用人工智能和机器人等新技术,有望提高生产力增长速度。 图表5:中美机器人相关政策梳理 1.2 2024年多模态视觉语言模型与机器人的结合超大众预期 1.2.1机器人执行层三大层面均已突破,未来重点在于软硬件结合 机器人执行主要有三大层面:1)第一层:理解需求和环境,即通过传感器等了解周围环境,搞明白机器人所处的环境是室内还是室外,整个厨房长什么样,要拿的蔬菜是什么样子等等;2)第二层:拆解任务和路径规划,即机器人明白任务以后,需要将任务拆解成哪几步,并计划好机器人应该走多远,机械臂和灵巧手该怎么动,每个地方用多大力度等;3)第三层:驱动硬件执行任务,机器人将任务拆解完计划好运动步骤以后,将规划转为机械指令给到驱动系统上,驱动系统确定完速度、动量等物理因素后,机器人开始执行任务。 ChatGPT解锁了机器人新的范式,将人机交互简单化,但以其为代表的大语言模型(LLM)只解决了机器人执行层第一层部分通用性的问题,准确性仍有待提升。随着2023年Chatgpt大火,基于Transformer架构的大语言模型逐步走进大众视野,传统的机器人驱动方式需要工程师将任务转化为系统代码,运行过程中工程师需要不停的编写新的代码和规划来纠正机器人的行为,该过程成本高昂并且效率低下。ChatGPT可以为机器人场景生成代码,无需任何微调,就可以控制不同的机器人执行各种任务,且参与人员不仅限定在技术人员,原本机器人需要通过编程告知所需的执行任务,LLM取代了这个过程,使得人机交互成为更简单的事情。通过将GPT-4整合到机器人Alter3中有效地连接LLM与Alter3的身体运动,通过程序代码将人类行为的语言表达映射到机器人的身体上从而实现了直接控制。 图表6:LLM在机器人上的应用 机器人应用模型主要有两大难点,缺乏大规模多样化的数据和泛化能力。1)缺乏大规模和多样化的机器人数据,模拟场景花费高效果一般,现实世界更加复杂多变,这限制了模型吸收广泛的机器人经验的能力。对于机器人技术来说,数据收集尤其昂贵且具有挑战性,因为数据集管理需要大量工程自主操作,或使用人类远程操作收集演示。2)缺乏可表达的、可扩展的、足够快的实时推理模型,这些模型可以从此类数据集中学习并有效地进行泛化。 为了应对以上难点,2022年底Google提出了多任务模型RT-1,突破了之前机器人的零泛化性能和解决了部分机器人训练数据集缺乏的问题。RT-1主要解决的是机器人执行层的第二层问题,即任务拆解和任务实现路径规划。在RT-1大模型的加持下,机器人在可看见的任务、非可看见的任务、背景有干扰和远景场景四个类别下都表现出远高于基准的泛化性和稳健性,机器人执行从未做过的任务的成功率大幅上升,即使在有干扰的场景下成功率也大幅上升。此外,研究人员还采用了不同型号的机器人进行来训练模型,若未来大模型能对不同的机器人进行预训练,那么将会形成机器人AI通用的训练集。 图表7:RT-1模型下的机器人在各个场景中的任务训练 2023年是人形机器人与各类大模型结合有较大突破的一年,从23年7月底Google Deepmind推出的RT-2模型,RT-2突破了机器人执行层的第三层,即将硬件驱动执行任务AI化。Google deepmind研究团队将动作(action)模态加入到VLM模型并经历多次训练后,该模型能够解释全新的命令,并通过执行基本推断来响应客户的要求,并将动作以文本token的形式表示,再将文本token分解为机器人动作,详细的机器人动作完全取代过去模型输出的对执行层的的控制信号,形成闭环控制。在此之前的VLM大模型更多的是在机器人执行层对第一、二层进行优化,硬件执行任务的驱动更多还是采用传统控制论方法,RT-2的VLA所展现的是AI大模型控制机器人的可能性。 图表8:RT-2的架构与训练 人形机器人三大执行层面均已打通,随后2024年产业重点转向大模型与机器人硬件上更好的融合。如斯坦福团队于2024年初发布的炒菜机器人Mobile ALOHA,斯坦福机器人研究团队核心解决了两个问题:1)硬件端:打造了即插即用的全身远程操控硬件和证明了复杂任务的高性能双臂移动操作的可行性,这是机器人广泛应用于各种复杂场景的关键点;2)软件端:Mobile ALOHA展示出了强大的模仿学习能力,机器人通过静态ALOHA数据协同训练的模仿学习,可以学习各种精细复杂的任务,研究人员通过50次的示范可以把机器人的自主任务成功率提升到80%+,另外,用户使用Mobile ALOHA远程操控未见过的任务时,熟练度可以迅速接近专家级程度。Mobile ALOHA的硬件和软件都已开源,预计斯坦福所展示的机器人在应用