核心洞察 1.具身智能算法会在协作机器人、工业机器人等更加成熟的硬件平台上率先实现商业化落地2.找到1-2个相对简单的工业场景是实现具身智能商业化的关键,找到场景之后,训练所需的数据量并不是主要矛盾3.软件算法和硬件方案都需要随着测试实验不断迭代,最快预计3年左右可以实际在产线应用4.行星减速器可以用于机器人下肢,但上肢的精密操作必须使用谐波减速器5.传统工业机器人厂商如果与科技大厂合作进入具身智能领域,会非常有竞争力;初创公司的机会在于必须使用足式底盘的场景Q:大模型在具身智能领域里,目前进展到什么阶段,能完成什么任务?A:首先是具身智能算法:具身智能算法与大模型这种通用智能算法不太一样,因为具身智能算法有比较明确的要求,需要机器人作为物理载体, 要跟物理环境有真实的接触,以及各种形式的反馈。将这些反馈作为其中一项决策信息输入,根据这些输入来输出最终的决策。 所以具身智能算法与最近刚出现的传统大模型算法还是有一点点区别,传统大模型算法都是在服务器里面或者用一个比较大型的计算中心进行很多数据训练,得到一些对真实世界有一定理解的智能体,但是这种智能体只能回答一些问题,他缺少了与物理环境的反馈和交互,这就是他与具身智能算法的区别。 具身智能距离实际应用还有多远的距离?20240120 核心洞察 1.具身智能算法会在协作机器人、工业机器人等更加成熟的硬件平台上率先实现商业化落地2.找到1-2个相对简单的工业场景是实现具身智能商业化的关键,找到场景之后,训练所需的数据量并不是主要矛盾3.软件算法和硬件方案都需要随着测试实验不断迭代,最快预计3年左右可以实际在产线应用4.行星减速器可以用于机器人下肢,但上肢的精密操作必须使用谐波减速器5.传统工业机器人厂商如果与科技大厂合作进入具身智能领域,会非常有竞争力;初创公司的机会在于必须使用足式底盘的场景Q:大模型在具身智能领域里,目前进展到什么阶段,能完成什么任务?A:首先是具身智能算法:具身智能算法与大模型这种通用智能算法不太一样,因为具身智能算法有比较明确的要求,需要机器人作为物理载体, 要跟物理环境有真实的接触,以及各种形式的反馈。将这些反馈作为其中一项决策信息输入,根据这些输入来输出最终的决策。 所以具身智能算法与最近刚出现的传统大模型算法还是有一点点区别,传统大模型算法都是在服务器里面或者用一个比较大型的计算中心进行很多数据训练,得到一些对真实世界有一定理解的智能体,但是这种智能体只能回答一些问题,他缺少了与物理环境的反馈和交互,这就是他与具身智能算法的区别。 正是由于这些区别,所以目前在行业里面会以大模型为基础,把大模型加载到硬件载体上,通过硬件载体与环境及任务之间的操作以及传感数据的收集和反馈等等,训练出具身智能算法。据我所知,目前在人形机器人领域,具身智能算法的应用还比较有限。 我先讲的是具身智能算法在哪些机器人载体上应用比较多,其实他主要应用是在协作机械臂这部分,不管是单臂、双臂还是机械臂,或者下肢是轮式,上肢是机械臂这种样式的机器人。 第一,协作机械臂类型的机器人的技术已经比较成熟,各种算法也比较成熟,尤其是运动控制算法。这类机器人硬件都比较成熟,所以发生故障的概率比较低。正由于成熟性能和故障率低等原因,在收集协作机械臂机器人与物理世界之间的数据时,也就是让他做任务的时候,协作机械臂机器人肯定会通过各种各样任务演练跟环境进行各种交互,产生各种各样的数据,而收集这些数据正是用来训练具身智能算法所需要的。因此由于他的稳定性和成熟性,做各种任务的成功率比较高,所以收集有效数据的效率也相当高,这就是为什么目前具身智能算法主要运用在协作机械臂机器人上。 第二,为什么具身智能算法在人形机器人上使用不多,和上述原因类似。因为目前人形载体还属于比较初步的发展阶段,无论是运动控制还是整个硬件,因为对于制造业来讲,人形机器人是一个综合的制造业,内部综合性比较强,内部零件多且复杂,正是由于他的复杂性,人形机器人的成熟度还没有达到一定程度,所以在人形机器人中,主要是通过仿真来获取做具身智能算法的数据。 因为在仿真环境中,使用人形机器人获取数据的效率非常高,但是在真实环境事件中获取数据并训练数据的效率相当低,因为每天发生的故障率相当高,不可能让人形机器人做各种各样的任务,每一种任务都能保证一定的成功率,目前成功率还比较低的,所以人形机器人主要在仿真中收集训练数据,在仿真中进行训练。 所以从我的角度来看,具身智能算法还仅局限在协作机械臂上,在人形机器人上,具身智能算法的应用程度并不广泛。而且人形机器人天然地将操作和平衡性相结合,操作可以进行训练,但同时也要保持机器人的平衡性,这需要在运动控制算法上有相当高的进步,但是目前来看,效果并不理想。 Q:目前业内有LLM、VLM和VLA等具身智能算法框架处在什么阶段?距商业化落地还差什么?多久可以达到应用水准? A:以最近发生的事情举例,斯坦福的做饭机器人就是一个机械臂机器人。在首次公布的视频中,他确实能做很多炒饭,厨房打扫比较流畅,整体没有问题。但是斯坦福后续发布了ALOHA的纠错集锦,从中可以看出很多任务都不是由机器人自主完成的,需要人为干预,不然不可能达到100%的成功率,甚至有一些复杂的场景,ALOHA的失败率很高。 由此可见,LLM、VLM和VLA这些框架,在学术界理论层面,他们都有自己的一套理论,在自己搭建的机器人上进行训练。但因为他们训练之后,会对这些机器人产生的数据进行后期处理,我个人猜测他们为了达到某种能让机器人更智能化的目标,对自己的数据进行了一定的清洗,最终能训练出一个具有部分智能性的具身智能算法,但是这种算法还不是一个完整的算法,只能完成部分场景下的部分工作。 即使他们训练出一个计算智能算法,比如让ALOHA专门做厨房里的炒菜和整理厨房,他依然不能做到完美,会发生故障,还需要人为干预。因此,具身智能算法在单一的场景下仍具有缺陷,更何况在各种行业里宣称的未来的通用人工智能,这种能在多种复杂环境下通用的具身智能算法更 难实现。所以我觉得目前这些算法框架的应用场景仍很局限,尤其是任务的泛化性能上表现欠缺,所以我对此持悲观态度。 Q:具身智能若想实现商业化应用,目前最需要解决的是什么问题?是缺数据还是底层算法逻辑的问题? A:从个人角度来看,想要把某一件产品推向市场,或者让大家共同发展他,那么一定要把这件产品做成具有一定经济效益的产品。所以如果想要具身智能算法在未来能够更加通用智能化,目前迫切需要做的是找某几个固定场景,这种固定场景不能过于复杂,比如在厨房中烹饪和打扫就偏于复杂,还需要找某些更为简单的场景。 在简单的场景下或设定好的固定场景下,让产品能够在这些范围内实现具身智能化,能够产生一定的经济效益,至少把这台机器放到产线上要比工人强一点点,能够造成正向的经济收益,那么这种产品就是有意义的,能够面对市场化的,在未来就能够具备一定的量产化途径。所以只要能够量产化,市场能看到在某种具体场景下,这种产品的应用具备一定的经济效益,那么大家都会去寻找各自的拓展方向,以此来激励学术界和市场,在各个方面都做出具有具身智能化的产品,我觉得这是推动具身智能算法商业化落地的途径。 您刚才说的从底层逻辑或者底层算法层面去推动落地,我觉得短时间内达不到。因为大模型也是最近1到2年才公开出现,即使他很惊艳,但在我看来,大模型依然达不到稳定智能体的范围,我不认为他很聪明,大模型只是获取了人类的知识,只是知识量很庞大,具备一些情感,但是依然达不到成熟智能体的程度。所以如果单独从底层算法去突破,这就是长期过程,不是一蹴而就的。我认为在某个具象化的场景中做出具有经济效益的产品,从各场景环境去推动,反而能够促使具身智能算法的进一步发展。 A:我觉得Google还是的场景比较复杂,他的场景就是整理家务,是轮式底盘+上肢协作机械臂的机器人。我觉得环境还是偏于复杂,所以我更偏向于在工厂中做具象化的事情来进行训练。 现在的工业机械臂都是固定基座,固定在单一的产品线上,机械臂的动作都已固定设计,机器人只需要做这些固定动作。每一个机械臂都有各自提前规划好的任务序列,但是我觉得如果这样做,产线就固定了,这个机器人只能做这条产线上的任务。如果要让他做其他任务,比如将产线迁移到其他工厂,生产其他产品,这些迁移工作是比较复杂的。所以我觉得在工厂里,可以不用固定基座的机械臂,改用轮式底盘+上肢机械臂的方式进行操作。 首先这种方式可以适用不同产线,机器人可以四处移动。再者,在工厂中,可以对轮式底盘+上机械臂机器人训练所有所需要的产线动作,但是这种训练的数据量远没有做家务那么庞大,因为家庭环境过于复杂,但是工厂中虽然有很多产线,每条产线的任务不同,但毕竟是规则化和序列化的动作,所以在工厂里面做具身智能算法的训练可以训练机械臂完成多种任务,这样机器人就可以做产线切换,只需要一套机器人就可以完成整个工厂范围多种加工序列的工作,不需要针对各种各样的产品或各种各样的工具,单独制作不同机械臂和产线。 这样无疑能够提升工厂效益,而且由于工厂中各种任务都比较规则,所以训练机械臂和轮式底盘式机器人相对简单,数据量肯定不需要13万条,可能万级别的数据量就足够。因此,他的训练又非常简单,我个人认为非常有经济效益,可以作为初步切入点。然而,在家庭中做各种家务的场景过于复杂,我认为目前的算法还达不到这种复杂程度,虽然Google发布了机器人,但他们是属于学术界发布,学术界每年都会发布很多新概念,但是真正应用到实际产品上的屈指可数。 Q:特斯拉的Optimus预计率先应用在特斯拉工厂里,其进展是否乐观? A:我认为特斯拉把Optimus应用在工厂中的这个做法是正确的。 第一,特斯拉有自己的汽车工厂,其中有很多工位需要人或机器人做,这便于特斯拉做各种训练或者数据采集,他可以实刻为机器人提供任务或者场景,由此来采集数据和训练数据。所以我认为在国内,小鹏与特斯拉在想法上有相似之处,他们都选择在自己的工厂里先进行实践,因为利用的是自己的工厂,所以进行初期任务的训练和数据采集非常方便。 第二,特斯拉把Optimus应用在他们的汽车工厂有一定的可实施性。首先,工厂中的序列化操作使具身智能算法的训练相对简单,在某些固定产线上做特定工序,对于人形机器人来讲,只要他的机械臂和操作性能好,那这些任务就很简单,再加上具身智能算法的训练,那么其多产线泛化能力也会比较强。 但是我认为有一个地方存在问题,那就是特斯拉将双足用于工厂中,我个人觉得有些过量应用,其实完全不需要双足。因为足式与轮式机器人相比,最大的区别在于足式具有越障或复杂地形能力,而轮式不行,但是在工厂内上肢操作能力更为重要,而不是底盘的移动能力,所以底盘是两条腿还是两个轮子没有差别,反而用两个轮子效率会更高。因此特斯拉将人形机器人放在工厂里是可以使用的,而且也很合适,但是不如改成轮式的,成本更低,移动效率更高。 Q:如果特斯拉最终实际落地的是轮式平台+机械臂的硬件组合,要训练出一套能在工厂实际使用的模型,大概需要多长时间? A:我觉得大约需要3年时间。 A:对,还有硬件,因为机器人很重要的一部分是硬件载体。机器人需要智能算法和硬件载体,智能算法要做数据训练,这需要时间。硬件载体需要不断迭代,因为可能需要根据工厂的不同任务适配不同硬件,所以硬件迭代也需要一定时间。 Q:机器人硬件架构的不同,是否会导致软件算法的不同? A:第一,我个人认为想做一个通用型的操作机器人非常困难,因为人类世界的任务千奇百怪,而人有灵巧的手和手臂,能够完成人类世界至少80到90%的操作任务,但是机械不行,人的自由度相当高,人手臂上的各种皮肤传感器或者压力传感器极其丰富。但是机器人要想多一个自由度,必然要加一个电机,但是不可能无限度加,所以机器人的协作臂只能在某几个固定的场景适用,一旦场景不适合这套硬件载体,就需要根据具体任务,去增加自由度或者增加传感器等等,无论从任务的可操作性还是从机械臂制造成本来看,不同的任务场景下都是需要