
触觉是精细操作的关键 Q:您在2021 年成立戴盟机器人,当时的契机是什么呢? 王煜:最主要是为了转化科研成果。经过多年的研究与实践,我深刻认识到触觉传感在人形机器人领域的重要性。随着人形机器人技术的不断进步和市场需求的日益增长,我认为,触觉传感器技术已经成熟,具备了转化为商业产品的潜力和条件。这一转化不仅能够推动人形机器人技术的发展,也将为其商业落地带来新的可能。Q:戴盟机器人为什么会将重点放在触觉传感器上呢? 王煜:有这样一个视频,一个眼睛圆圆的小女孩,视力很好,但她的皮肤却没有感知,当她想从火柴盒里取出火柴并点火时,能看得清清楚楚的她却需要比平常人花上多5 倍的时间才能成功。 这个案例说明了触觉对精细操作的重要性,如果没有掌握到真正的操作能力和足够的信息,即使是看似简单的操作,如用螺丝刀拧螺丝,也难以完成,因为这需要真正的技能和手感。虽然AI 和机器人技术在某些领域取得了进展,但在执行更复杂的任务时,仍然存在局限性。更精细的操作能力和真正的技能是目前技术难以实现的,不能光靠视觉和强化学习。 具体来说,从视觉和图像出发可以建立多个pick and place 模型,实现位移。但精细 操作还需要手能做功,根据力的反馈做精细运动,就像工业界装配中存在公差,比如拧螺丝时空隙较小,需要更大的力,所以需要熟练工人操作,这就是技能的问题。戴盟想要做有精细操作能力的机器人,有了触觉传感和手,机器人就可以自己探索、学习、掌握技能。如果把具身智能称为大脑,那么中脑或小脑则是大关节控制,精细操作为细小脑,也可叫「具身技能」,需要有硬件、学习方法、数据的支持。不到具身技能的层次其实无法发挥人形机器人的作用,我们不能只有pick and place,比如拖地这个操作不止是拿起拖把,还需要用力拖地。 Q:那现在触觉的探索有什么新发现以及有哪些技术路径呢? 王煜:前沿科研探索发现,人手的神经有三类,有一些神经能记住手指受力变形中半秒钟的变化,还会利用半秒以前变形的历史指导下一步。这意味着部分手部操作不需要大脑控制,触感信息的处理在手上的神经系统就可以完成计算。当然,在新的、复杂的环境,就需要大脑的参与。 灵巧手的手指需要有触觉传感器收集信息、进行力反馈,还要能控制。主要是两种思路:一是产生数据后学习,建立多个小模型再整合,如开盖、拧螺丝等不同操作各有小模型;二是由数据驱动,像人一样学技能,类似马斯克机器人的端到端神经网络,甚至不一定需要全面的模型。 但无论哪种方法,最基本的要求是,灵巧手的功能要做到足够好,触觉传感信息充足,人手与机器人灵巧手的触觉信息都需要采集,这也是戴盟十分重视的环节。 2 Q:那在「具身技能」这样的关键点上,除了触觉传感器之外,您认为还需要哪些关键的技术? 王煜:除了触觉传感技术外,灵巧手是否「够精致」,同样十分关键。如果偷工减料,技能表现将大打 折扣。因此,追求极致的精细度至关重要,比如电机够多够好,尽管这可能会导致成本上升。 目前市场上较为畅销的产品通常只有9 个自由度,而像马斯克所提的至少需要12-15个自由度。 如果产品不能达到高标准,就无法满足高技能要求,进行有效操作。只有保证基础牢固后,我们才能去探究如果精细操作出现问题,到底是传感信息不足、学习方法不当还是模型不完善。当然,自由度低的灵巧手成本更低,肯定有特定的应用场景,但无法满足很多技能需求。 不过戴盟从一开始就致力于将手部做到极致,再根据需求降维开发不同的产品,即当产品不需要高级技能时,我们可以降低成本,减少自由度,但需要明确的是,往下走的路很清楚,但更需要做到往上走,即当有高级技能需求时,我们的产品也能满足。这其实和波士顿动力的理念是相似的,他们是将腿部做到极致,赋予了机器人强大的能力。我们认为,只有通过这种方式,才能充分发挥机器人的潜力,并根据市场需求定义产品,同时控制好价格。 Q:您在之前的采访中提到,机器人的「灵巧手」比「足」更难发展,这是为什么呢?王煜:主要问题在于灵巧手手部操作的难度较高,与腿部操作不同,手部操作的难点不在于动力学本身,而在于与物体互动时达到一定技能水平的工作。 简单来说,灵巧手的硬件技术尚未跟上。手的硬件比身体和腿都难做,进程较慢,以前手指关节的驱动系统使用线缆拉动,会存在反馈时间延迟,影响操作效率。但现在的全电又对空间有要求,空间有限,电机得做得越来越小,优质的电机还很贵,每个约1 万人民币,想做15 个自由度的灵巧手,光电机的成本就15 万了,所以现在每家企业都需要有自研电机的人才。 软件方面,灵巧手的进展也相对落后。与已广泛应用于工业自动化领域、通过预编程控制的夹爪或机械手不同,灵巧手的抓取模型等都不够完善,目前还做不到将精细操作技能反映在程序中,实现自动化操作。 我们这批最早研究灵巧手的人一开始认为精细操作和技能是物理问题,只需做好模型后解决控制即可,后来发现涉及的因素太多,物理模型无法准确覆盖。机器人的手是硬的,人手却是软的,因此模型并不准确,不是真实物体的模型,但如果要做真实人手的物理模型,很容易发现,这是做不完的。 另外,传感技术也存在不足,手部缺乏足够的物理信息反馈,这影响了操作的精确性。而且,如果仅依赖视觉反馈,信息量也是不够的。因此,自2012 年Schunk 的SVH灵巧手以来,灵巧手的发展相对缓慢,尽管有了一些进展,但整体上仍然面临挑战。与之相比,腿部硬件的发展较为成熟,从大功率到全电动,国内外已经形成了一条完整的发展路径,成本也得到了有效控制。从全球来看,波士顿动力表现最为出色,其最新的产品完全摒弃了机械性,转而采用全电动,成功解决了复杂的动力学问题,实现了精确控制,甚至能够完成翻跟头等动作。值得关注的是,模型预测控制(MPC)在1980 年左右被开发出来在石化领域普及应用,而波士顿动力坚持将MPC 控制人形机器人这条路走通了,这如今成为他们的招牌技术,也给现在的人形机器人控制奠定了良好的基础。 人形机器人不能只依赖视觉模仿学习 Q:感觉您对「大脑」的态度比较谨慎,那您认为人形机器人还需要在哪些技术方向做出突破呢? 王煜:最近十年,AI 技术的发展打破了机器人传统的pick and place 模式,具备 基础的理解能力以及能做更智能的操作规划。现在人形机器人行业内引领潮流的是AI 大模型与视觉图像,这种思路更重视「大脑」、与人的交互,成果也比较直观,比如在家庭场景中最重要的是机器人如何理解人的需求,在人饿的时候拿来食物、甚至用微波炉加热,但需要注意的是,具体到执行切苹果的操作技能,中小脑、甚至是细小脑就十分重要了。 随着AI 大模型的兴起,通过视觉技术和模仿学习,简单的二指或三指就可以实现基础的拖拽操作。 但实际上,现在只能完成一些抓取杯子、倒水或洗碗的简单任务,在更复杂的工业和家庭场景中远远不够。 值得关注的是,操作技能不可仅依赖基于视觉感知的模仿学习,仅依靠视觉感知不够,需要在收集的数据中引入触觉信息。有的技术思路是自研数据采集手套,由人带上后采集信息,并让机器人也带上同样的手套。现在进展比较好的是由人带上两指爪,并安装上相机假装洗碗,然后机器人通过模仿学习在旁边洗碗。但碗如果太重太滑,没有及时调整,这就是没掌握好技能。 我们需要认识到技能的重要性和难度,尽管触觉传感器技术太难、成本太高、很少人做,但依旧有往这方面突破的强需求,因此戴盟还有市场空间。 Q:在您看来,人形机器人会在哪些场景率先商业落地,戴盟对此有什么计划?王煜:主要还是工业场景。比如汽车装配有大操作和小操作,虽然大操作更多,但只要有工具就会有小操作。包括半导体生产线,每个工人负责一道工序,但如果人形机器人只学一个技能、替代一个工人,实在是太浪费了。机器人需要能适应不同的任务,要代替至少5 个工人做精细化操作才有价值。 工业场景对「大脑」的要求相对低些,因为做的事情很具体,甚至不需要理解,比如现在的工业机器人在特定场景下执行固定流程的任务。难度更高的任务需要使用工具,具体执行是做功,需要根据力和加速度信息执行,比如抬起、安装轮胎,就是一个突然加速到突然减速的过程。 戴盟的触觉灵巧手技术,已经在工业场景中展现出其商业价值,尤其是在柔性物料处理和精密装配的自动化领域。这些领域对操作精度和灵活性有着极高的要求,而戴盟的灵巧手技术能够提供无可替代的操作能力,已经被市场所认可。 同时,灵巧手技术也是人形机器人的重要组成部分。人形机器人的设计理念是模仿人类的行为和动作,而手部的灵活性和灵巧性是人类进行各种活动的关键。因此,戴盟的灵巧手技术不仅在工业自动化领域有着广泛的应用前景,也是推动人形机器人技术发展的关键因素。 通过将灵巧手技术应用于人形机器人,戴盟能够进一步提升机器人的自主操作能力和应用范围,使其在家庭服务、医疗辅助、灾难救援等多个领域发挥更大的作用。这种技术的融合和创新,将进一步巩固戴盟在人形机器人领域的领先地位,推动整个行业的发展和进步。