您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国泰君安证券]:计算机行业专题研究:机器人与大模型催化,具身智能东风已至 - 发现报告

计算机行业专题研究:机器人与大模型催化,具身智能东风已至

信息技术2023-05-28齐佳宏、李沐华国泰君安证券北***
计算机行业专题研究:机器人与大模型催化,具身智能东风已至

具身智能是AI的终极形态。具身智能最大的特质就是能够以主人公的视角去自主感知物理世界,用拟人化的思维路径去学习,从而做出人类期待的行为反馈,而不是被动的等待数据投喂。这也是人工智能的行为主义学派所坚信的真正智能的代表。 具身智能旨在创建机器与环境交互的软硬件结合且可自主学习进化的智能体。“具身智能”的基本假设是,智能行为可以被具有对应形态的智能体通过适应环境的方式学习到,并且具身智能的根本科学立场是,只有通过行为的有效执行才能代表真正理解,反面例子是,即使是可以辨识万物的视觉大模型也不知道如何倒一杯水。因此计算机视觉、NLP技术以及各类大模型仅仅是具身智能的工具,通用人工智能才是具身智能的终极目标。 大模型+机器人成果显著,具身智能落地的东风已至。特斯拉利用一些技术方法改进了人形机器人的动作和控制,包括电机扭矩控制、环境发现与记忆、基于人类演示训练机器人,人形机器人的成熟也为具身智能的发展提供了重要土壤,并且具身智能带来的AI价值远比人形机器人更大;谷歌、微软以及阿里在大模型与机器人的结合上,均作出了效果杰出的探索,其背后意味着大模型为工业机器人的开发打开了新的大门。 继续推荐科大讯飞、金山办公、淳中科技、虹软科技。科大讯飞:同时拥有AI大模型与诸多行业数据的稀缺标的。采用“1+N”架构,将大模型落地于教育、医疗、人机交互、办公等多个行业,5月6日已发布星火大模型。金山办公:国产办公软件龙头,全力发力AI战略,加大AI人才投入力度,与微软有直接映射关系。淳中科技:视频融合显控厂商;虹软科技:机器视觉算法及应用厂商。 风险提示:产业链不成熟的风险,技术迭代不及预期风险。 1.具身智能——AI的终极形态 1.1.具身智能的行为主义——人工智能的第三个流派 从符号主义到联结主义,智能体与真实世界的交互日益重视。上世纪五十年代的达特茅斯会议之后的一段时期内,对人工智能的研究主要限于符号处理范式(符号主义)。符号主义的局限性很快在实际应用中暴露出来,并催动了联接主义的发展,形成了包括多层感知机、前向神经网络、循环神经网络,直至今日风靡学术界与产业界的深度神经网络等多种方法。这种用人工神经网络模拟认知过程的方法在适应、泛化与学习方面的确取得了很大的进展,但并未真正解决智能体与真实物理世界交互的难题。该难题“莫拉维克悖论”可以通俗地表述为:要让电脑如成人般地下棋是相对容易的,但是要让电脑有如一岁小孩般的感知和行动能力却是相当困难甚至是不可能的。 针对以上问题,“具身智能(”Embodied AI)概念应运而生。针对智能体的交互问题,明斯基从行为学习的角度提出了“强化学习”的概念。1986年,布鲁克斯从控制论角度出发,强调智能是具身化(Embodied)和情境化(Contextlized)的,传统以表征为核心的经典AI进化路径是错误的,而清除表征的方式就是制造基于行为的机器人。Rolf Pfeifer在其著作《How theBody Shapes the Way We Think》中通过分析“身体是如何影响智能的”对“智能的具身化”做了清晰的描述,阐明了“具身性”对理解智能本质与研究人工智能系统的深远影响。以上这些工作为人工智能的第三个流派——以具身智能为代表的行为主义方法奠定了坚实基础。 1.2.具身智能旨在创建机器与环境交互的软硬件结合智能体 “具身智能”的基本假设是,智能行为可以被具有对应形态的智能体通过适应环境的方式学习到。可以简单理解为各种不同形态的机器人,让它们在真实的物理环境下执行各种各样的任务,来完成人工智能的进化过程。拆分来理解,“具身”的基本含义是认知对身体的依赖性,即身体对于认知具有影响,换句话说,身体参与了认知,影响了思维、判断等心智过程。“具身”意味着认知不能脱离身体单独存在。此外,“具身”相对的概念是 “ 离身 ”(Disembodiment),指的是认知与身体解耦(ChatGPT为代表的大模型就仅仅实现了离身智能);“智能”代表智能体(生物或机械)通过与环境产生交互后,通过自身学习,产生对于客观世界的理解和改造能力。此外,一些通过强化学习训练的机器人,也可以被认为是具身智能的一种形式,如OpenAI的单手还原魔方机器人等。 因此,具身智能旨在基于机器与物理世界的交互,创建软硬件结合、可自主学习进化的智能体。 具身的概念是可检验、可测量的。人所理解的世界概念,其中既包括人类独有的责任心、荣誉、感情、欲望等非具身的概念,也包括了杯子、车等实体以及相应行为的具身概念。而具身概念是具备可达性、可检验性以及可解释性的,即具身的概念对应的实体和行为是可以被测量,可以通过任务的完成来验证以及通过具身学习来实现概念的推断。相比之下,非具身概念基本要素不能实现可测量及可检验。 1043897 图1: 1.3.“知行合一”——具身智能的根本科学立场 “知行合一”是具身智能的科学立场。根据具身智能的技术实现逻辑,“知”是建立在“行”之上的,也就是说只有通过“具身”才能理解某个场景。比如有个卧室,其具有睡觉、休息、放衣服等行为特征,这类行为是基于人的身体设计的,因此真正理解卧室的场景,就是要能够直接通过坐上椅子、躺在床上等行为任务去验证。同理,机器人通过理解场景,能够实现以上行为才能代表它真正理解了该场景。因为从本质上,物体和场景的类别大多是由功能和任务来定义的,“我能用来干什么,那它是什么”,比如锤子不能叫木棍,锤子有它独特的行为属性。 图2: 具身知识在中国古老汉字中都占据较高比例。甲骨文等古老汉字,绝大多数就是通过行为的表征来刻画一个概念,比如“争”的古老写法中,代表两个人的手拔一根绳子,因此,理解行为才是理解概念及场景的关键。 图3: 所以,计算机视觉和NLP更多是具身智能的工具,而通用人工智能才是具身智能的终极目标。具身智能要能够实现使用身体(各个部位)完成物理任务的一些现象,比如外国人不会用筷子,但仍能叉起来吃东西,因此具身智能也要通过物理环境完成任务的过程中,表现出完成之前没有覆盖的场景。所以,根据具身智能的特点可以研判,如同经典力学领域的速度、动量、弹性等概念奠基了物理学领域,驱动了后续科学的发展,同理,具身智能因其实现了知识、概念、可解释以及行为因果关系,其有望成为通用人工智能的驱动力。 图4:类似于人类, 1.4.具身智能的实现需具备三种基本特性 具身智能首先要具备可供性。可供性意味着要让机器知道物体和场景能够提供的是什么,比如整个身体、部件怎么和场景进行有效拟合。根据《Gendexgrasp: Generalizable dexterous grasping》论文中的案例,用两、三、五根手指去握一个柱子,倘若不同的手都能够产生无误的握杆效果,就代表有了可供性,而物理学正是机器理解可供性的关键。 图5: 具身智能还要具有功能性。具身智能在把物体作为工具使用的过程中,要能够以任务执行为导向去理解功能。从智能体来理解世界,核心就在于任务——改变实体状态,是任务实现来驱动智能体的。例如,在解决“铲土”任务过程中,需要实现用不同的工具去铲土,比如杯子、铲子、平底锅等,都要能够让智能体实现“铲土”这个任务。因此,具身智能的功能性就是赋予了物体一个功能,用来解决某个特定任务。 图6: 具身智能需要实现因果链。就以上提到的“铲土”例子,智能体能否顺利铲起土来是有因果关系的,例如控制挥动锤子的方式、动量、冲量等指标的改变程度和改变过程,需要用数学和物理的因果链来控制。人工智能研究院朱松纯教授团队介绍了一种学习和规划框架,并证明了所提出的学习和规划框架能够识别对任务成功有重要意义的基本物理量,使智能体能够自主规划有效的工具使用策略,模仿人类使用工具的基本特性。 智能体学习如何使用工具涉及到多个认知和智能过程,这个过程即使对人类来说也并不容易。让机器人掌握工具使用所涵盖的所有技能是一项有挑战性的难题,这项工作包括三个层面:其一是底层的运动控制。很多研究基于阻抗控制(Impedance control)来跟踪工具使用的运动轨迹,或在不同阶段改变力和运动约束,或使用基于学习的方法来控制机器人运动轨迹。在底层控制中,鲁棒地执行运动轨迹是关注的核心。其二是中间层表征。各种利于下游任务的中间表征被提出,以便更好地理解工具的使用。尽管引入这些表征有利于学习更多不同的工具使用技能,但它们目前仍然局限于工具的形状和任务之间的几何关联。其三是理解在工具使用中的涉及的高层概念,比如物体的功能性(Functionality)和可供性(Affordance),以及工具使用中涉及的因果关系与常识,从而实现更好的泛化能力。 图7: 现有的具身智能工作大多集中在以上三种基本特性中的某一层面。要么主要关注于机器人的动作轨迹而不去理解任务本身,要么旨在高层次概念理解而过度简化运动规划,都不能够较全面的涵盖所有层面。因此,机器人还远远没有办法基于特定的情境去制定工具使用的策略,并且由于运动学结构的显著差异,机器人观察到的人类使用工具的策略对其来说可能并不是最理想的方式。例如给定一组物体(典型的工具或其他物体),机器人如何判断哪一个会是完成任务的最佳选择?一旦选择了一个物体作为工具,根据机器人和工具特定的运动学结构和动力学限制,机器人该如何有效地使用它?这些问题也正是行业的前沿研究领域。 2.具身智能的发展需要围绕“行为理解”解决三个核 心科学问题 2.1.具身智能首先得实现人类行为的有效克隆 要机器理解实体与行为,就得回答三个核心的科学问题。首先,从机器认知角度,如何让机器看懂行为?其次,从神经认知角度,机器认知语义与神经认知的内在关联如何?再者,从具身认知的角度,如何将行为理解知识迁移到机器人系统? 要实现具身智能,就必须先回答机器能否克隆人类的行为这个问题。行为认知是智能科学中的重要和核心问题,要让机器理解世界代表着:理解实体+理解行为,因为不确定性的世界空间就可以归类为实体与行为两者。 图8:要实现机器理解行为必须拆分为“理解实体+理解行为本身” 深度学习框架在行为认知中遇到了瓶颈。因为深度学习得到长足发展,计算机视觉领域有两个要素,一个是以物体为中心的感知,一个是以人为中心的感知。配合不断进化的深度学习算法,复杂物体识别可以十分成功,但是要机器明白从人类视角的这个行为的真实语义,却十分困难。 市场表现来看也是如此,很多商用产品都是基于物体检测,行为理解的产品都是很少的。之所以人为中心的感知十分困难,是因为深度学习本身达到了瓶颈。根据卢策吾教授的研究结果,行为识别的SOTA要远低于物体识别。 图9:当前的计算机视觉相关技术在行为识别上存在一定局限性 行为理解的关键是要在极大语义噪声中提取行为理解要素。行为是一个抽象概念,因而需要在图像中捕抓行为相关要素。要衡量图像的语义判断区间,可以用语噪比(语噪比=支撑语义判断区间/全图像区间)来刻画,即抹去图像上的某个区域使得其他人无法识别出行为类型的最小区域。卢策吾教授团队通过计算发现,物体识别的语噪比要远大于行为识别,这意味着遮住较大区域仍可以识别物体,但哪怕遮住一小块区域就无法识别行为。因此,可以得出结论,行为理解的关键是要在极大语义噪声中提取行为理解要素,也就是需要在很大干扰情况下,真正挖掘图像的真实语义。而这个工作是无法通过增加深度学习的工作量来达到的。 图10: 将行为认知问题分解为感知到知识、知识到推理融合的两个较为简单的阶段,是一个较优的科学路径。离散语义符号是被不同行为所共享的,比如吃饭、读书和打扫都有着“手-握-某物”的标签,通过对这些共享标签的迁移、复用和组合,可以形成行为原语,从而构造“中间层知识”,这种组合可以有着一定的泛化能力,即通过原语组合,机器可以做出没见过的行为。 图11:将行为认知过程分解为两个较为简单的阶段 图12:从构建原语知识到组合为行为的流程如下所述 因此,构建海量原语知识以及逻辑规则库是首当其冲的工作。人类理解行为的基本原因,约等于人类各个部件在干什么事情,因此首先得构建大量的