AI智能总结
多模态(视觉、听觉、触觉)融合感知将在智能机器人操作中发挥至关重要的作用。机器人操作是机器人与环境交互的基本能力,视觉可以可靠地捕捉全局设置,音频即使在被视觉遮挡的情况中也会立即发出警报,触觉可以提供物体的精确局部几何结构,表征目标的状态。过去,工业机器人通过编程或拖动示教的方式,针对特定任务,可以保证机器人执行任务的可靠性和高效性。未来,智能机器人在面对复杂场景和无序场景,应对不确定性和多变任务时,利用多模态融合感知进行机器人操作的研究变得非常重要。目前,视觉与声学的融合是研究较为集中的领域,视觉与触觉的融合的研究还远远不够。 视觉传感器:摄像头的像素和拍摄帧率不断提高,体积不断缩小,深度相机成为视觉传感器的新需求。基于深度学习的方法,利用物体不同位姿的RGB及深度图像作为样本训练网络,能够输出物体的类别及姿态。目前应用比较多的是Intel的双目结构光,分辨率最高为1280像素*720像素,频率为90Hz的深度信息,且不易受到阳光中的红外线干扰,能在室外强光环境中使用。TOF目前的分辨率普遍为640*480像素,仍需提高。与工业场景不同,在生活场景中,很多物体刚性低,在操作过程中容易发生形变,准确识别物体的形变程度并判断当前操作的状态很重要,视觉传感器主要通过跟踪物体表面特征点的位置变化来判断,精度不高。 触觉传感器:应变、压阻、电容、视觉几类各有优劣。1)基于应变的传感器精度较高,应用于各类多维力和力矩传感器。2)压阻及电容传感器是根据外力产生的电阻、电容变化来计算受力,可以以薄膜传感器的形式出现,设计成阵列式来使用,受材料和工艺影响大,MEMS工艺是主要方向。3)基于视觉的传感器是新兴的类型,在判定和区分物体纹理上有较大优势,但是尺寸很难缩小。瑞士苏黎世联邦理工学院开发了一种多相机光学触觉传感器,由四个摄像头组成,这些摄像头位于柔软、透明的材料下面,该材料内部含有嵌入式的散布球形颗粒。摄像头跟踪这些球形颗粒的运动,当有外力施加到材料上时,材料的变形会引发这些球形颗粒的运动。研究人员还开发了一种机器学习架构,分析球形粒子的运动,该系统可以重建导致材料变形的力,提供施加到其表面的接触力分布信息。 基于视触融合的机器人操作,可以弥补单一传感信息在完成复杂任务时所面临的问题。多传感器融合可以对物体高效率、高精度地进行三维建模,进行物体分类,并且对滑觉检测有更强的适应力。但是,视觉与触觉模态的融合具有很大挑战,体现在:1)视觉模态容易获取,触觉模态更困难,两种模态数据量相差较大;2)所见非所摸,采集到的视觉信息和触觉信息很难进行配对。未来需要在视触融合的认知机理、计算模型、数据集、应用系统上综合解决融合感知、融合学习、融合计算问题。 斯坦福李飞飞教授提出了同时利用视觉、声学、触觉来进行机器人操纵任务的框架。具体包括如何捕获视觉(来自相机)、声学(来自接触式麦克风)、触觉数据 (来自触觉传感器)及其各自的特征;用于融合多种模态的多感官自注意力模型框架;如何利用多感官数据完成具有挑战性的机器人任务,即密集包装和倾倒。对于视觉、音频和触觉在机器人操作任务中的作用,通过实验有以下结论:视觉通常提供物体的位置信息,但它经常受到遮挡。音频提供即时反馈,还指示对象的特性,如材质,但在没有接触时信息量较小。触觉捕捉手上物体的动力学,这可以很好地表征局部几何形状以及接触力的方向和大小。 风险提示:1)新技术出现;2)投资过度。 文章来源 本文摘自:2024年1月17日发布的《人形机器人产业热点:多模态融合感知》肖群稀,资格证书编号:S0880522120001 鲍雁辛,资格证书编号:S0880513070005 更多国君研究和服务 亦可联系对口销售获取 重要提醒 本订阅号所载内容仅面向国泰君安证券研究服务签约客户。因本资料暂时无法设置访问限制,根据《证券期货投资者适当性管理办法》的要求,若您并非国泰君安证券研究服务签约客户,为保证服务质量、控制投资风险,还请取消关注,请勿订阅、接收或使用本订阅号中的任何信息。我们对由此给您造成的不便表示诚挚歉意,非常感谢您的理解与配合!如有任何疑问,敬请按照文末联系方式与我们联系。 法律声明