AI智能总结
RESEARCHCENTERFORSOCIAL COMPUTINGANDINFORMATIONRETRIEVAL 什么是智能机器人? 机器人的从古至今 穆王惊视之,趋步俯仰,信人也。巧夫!领其颅,则歌合律;捧其手,则舞应节。千变万化,惟意所适。王以为实人也,与盛姬内御并观之。 ——《列子·汤问》 周穆王西巡狩猎遇见了一个名叫偃师的奇人。偃师造出了一个机器人,与常人的外貌极为相似,达到了以假乱真的程度。那个机器人会做各种动作。掰动它的下巴,就会唱歌;挥动它的手臂,就会翩翩起舞。 机器人的从古至今 古希腊数学家阿基塔斯研制出一种由机械蒸汽驱动的鸟状飞行器,并被命名为“鸽子”。其腹部是一套用于产生蒸汽的密闭锅炉。 机器人的从古至今 莱昂纳多·达·芬奇在1495年左右绘制了人形机器人的草图。现在被称为莱昂纳多的机器人,能够坐起、挥动手臂、移动头部和下巴。 机器人的从古至今 机器人从“玩具”变成“工具”,并应用于工业领域 1973年,KUKA公司推出的世界第一台拥有六个机电驱动轴的工业机器人,FAMULUS 1961年,世界上第一台工业机器人Unimate,用于堆叠金属 一定的自主性:编程后可自主运行,自主判断和决定接下来的操作 机器人的从古至今 工业机器人已经相对成熟,人们开始探索更多场景、更智能的机器人 更好的自主性:应对的场景和任务更复杂,涉及多机器人协调 ①自主能力:尽可能少的人类干预 智能机器人≈人类 ②泛化能力(通用能力):具备强大的综合能力 最受关注的智能机器人——类人机器人 智能机器人 人形机器人成功商业落地人形动作能力迈入新纪元 世界第一台全尺寸人形机器人人形运动能力重大进步 ASIMO,日本本田制造,历经数次迭代,掌握双足奔跑、搬运托盘、上下楼梯等功能 WABOT-1,日本早稻田大学加藤实验室,行走一步需要45秒,步伐也只有10公分 Atlas机器人,美国波士顿动力公司研发,有很强的运动控制能力 法国Aldebaran公司研发的小型教学陪伴用人形机器人NAO 重点关注机器人的运动能力 智能机器人 ①自主能力:尽可能少的人类干预 ②泛化能力(通用能力):具备强大的综合能力 机器人与人工智能 工业机器人已经相对成熟,人们开始探索更多场景、更智能的机器人 视觉技术语音技术自然语言处理 人工智能真的让机器人智能了吗? 我们设想中的智能机器人是什么? 各方面强于人类的机器人? 有意识和情感的机器人? 纵观人工智能发展 p1956年—20世纪60年代初,使用人工智能做符号推理,进行数学证明 p20世纪60年代—70年代初,启发式的搜索算法能力有限 p20世纪70年代初—80年代中,构建专家系统处理医疗、化学、地质等特定领域应用 p20世纪80年代中—90年代中,专家系统需要海量的专业知识,实用价值有限 p20世纪90年代中—2010年,机器学习算法处理实际问题 p2011年之后,深度学习算法用于图像、文本、语音等信息处理 p2022年之后,可以处理通用任务的大模型ü一定的自主能力ü一定的泛化能力(通用能力) 但离我们设想的智能还有多远? 大模型与人形机器人结合形成智能机器人 p上个世纪对未来人工智能的幻想,主要表现为智能人形机器人,但目前人工智能技术仍然停留在电脑屏幕,没有以实体的方式进入物理世界 p目前智能程度最强的大模型,与目前最先进的人形机器人,能否结合形成智能机器人? 人工智能真的让机器人智能了吗? 先要说明的问题: 如何构建一个智能机器人? 构建智能机器人(以人形机器人为例) 软件及算法方面: Ø向下位机下发送运动指令(具身执行)Ø下位机通过运控技术执行指令(形式包括代码、技能库API、关节旋转角度等) 小脑 举个不是特别形象的简单例子 回到问题: 人工智能真的让机器人智能了吗? 构建智能机器人的技术,我们具备和不具备哪些? 构建智能机器人的技术,我们具备和不具备哪些? 软件及算法方面: 当前人工智能这几个方面存在哪些问题? Ø收集所有传感器采集的环境信息和自身状态。并综合分析当前所有状态(具身感知) 多模态大模型LLaVA已能做到: 但实际场景远比此复杂 人的一些手势是什么意思? 3D点云图如何理解? 当前人工智能这几个方面存在哪些问题? Ø根据当前状态,对自身下一步的运动做出决策和规划(具身推理) 来看目前大模型在一组数据集中的表现: 当前人工智能这几个方面存在哪些问题? Ø根据当前状态,对自身下一步的运动做出决策和规划(具身推理) 主流大模型在该数据集上的表现: 当前人工智能这几个方面存在哪些问题? Ø向下位机下发送运动指令(具身执行)(形式包括代码、技能库API、关节旋转角度等) •对于生成关节旋转角度形式的运动指令: •对于生成技能库API或代码API形式的运动指令:现实世界场景过于复杂,构建完整的技能库几乎不可能 因此,当前人工智能还不足以让机器人更智能,需要具身智能 什么是具身智能? 机器人能学习文本图像,能学会走路吗? 1963年进行了一场心理学实验,两只猫自出生起便在黑暗封闭的环境中生活。 p可以自由的移动p随着腿部动作,眼中物体的大小有相应的变化p最终学会走路 p被动移动位置p只能注意到眼中的物体在变大、缩小p没有学会走路,甚至不能意识到眼中物体逐渐变大就是在靠近自己 有行走条件才能学会走路:有物理身体,可以进行交互 [1] Richard Held, Alan Hein. Movement-produced stimulation in the development of visually guided behavior. 1963 Jouranal of Comparativeand Physiological Psychology 具身智能的定义 p定义:一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。 p实质:强调有物理身体的智能体通过与物理环境进行交互而获得智能的人工智能研究范式。 抽象的智能(围棋、文本处理、图像识别) 有物理身体、与环境进行交互的具身智能 学习“有遮挡的物体识别” 学习“移开遮挡后的物体识别” 具身智能|CCF专家谈术语,卢策吾,王鹤 具身智能划分:感知、推理、执行 目录C O N T E N T S 具身感知1具身推理2具身执行3 具身感知 具身感知 p机器人需要具备环境感知能力,依据感知对象的不同,可以分为四类: 具身感知 p机器人需要具备环境感知能力,依据感知对象的不同,可以分为四类: p物体感知p几何形状、铰接结构、物理属性p场景感知p场景重建&场景理解p行为感知p手势检测、人体姿态检测、人类行为理解p表达感知p情感检测、意图检测 p重点需要感知能力的机器人:服务机器人、人机协作场景下机器人、社交导航机器人、环境探索机器人 具身感知 p具身感知的过程主要包括以下几步: 物体感知 物体感知范畴 p对于3D空间中的物体,有必要感知其: p几何形状p铰接结构p物理属性 [1] https://adioshun.gitbooks.io/deep_drive/content/intro3d-cloudpoint.html[2] Xu et al. UMPNet: Universal Manipulation Policy Network for Articulated Objects.2022RA-L[3] Dong et al. Tactile-RL for Insertion: Generalization to Objects of Unknown Geometry HARBIN INSTITUTEOFTECHNOLOGY 物体几何形状感知 PointNet 基于多层感知机,编码点云数据,可以获得点云整体的表示、每个点的表示 pPointNet为点云数据编码的经典方法,针对其难以捕捉局部特征的缺点又提出了改进版本PointNet++ [1] Qi et al. Pointnet: Deep learning on point sets for 3d classification and segmentation. 2017 CVPR[2] Qi et al. Pointnet++: Deep hierarchical feature learning on point sets in a metric space. 2017 NIPS HARBIN INSTITUTEOFTECHNOLOGY MeshNet 基于MLP和CNN,编码每个面的空间特征和结构特征,最后获得整体的物体外形表示 [1] Feng et al.Meshnet: Mesh neural network for 3d shape representation. 2019 AAAI VoxelNet p首先将点云体素化,然后使用基于MLP和CNN的网络编码体素 pPointNet、MeshNet、VoxelNet对3D数据的卷积编码方式,类似于CV中对2D图片的编码 [1] Zhou et al. VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection. 2018 CVPR DeepSDF(Signed Distance Function) p之前PointNet、MeshNet和VoxelNet将3D数据视为离散的单元进行卷积编码 pDeepSDF训练神经网络,拟合一个连续函数:以体素坐标为输入,输出其离最近物体表面的距离。这个连续函数同样蕴涵物体的几何形状信息。 为使训练的SDF不局限于一个物体,引入Code作为物体形状标签 [1] Park et al. DeepSDF: Learning Continuous Signed Distance Functions for Shape Representation. 2019 CVPR Occupancy Networks占用概率网络 p类似于DeepSDF使用一个连续的函数来表示整个空间的体素分布情况,OccupancyNetwork同样使用神经网络来拟合一个连续的函数,该函数以体素坐标为输入,输出该坐标处体素出现的概率 [1]Meschederet al. Occupancy Networks: Learning 3D Reconstruction in Function Space. 2019 CVPR 几何形状感知的下游任务:物体位姿估计 p位姿估计任务是预测一个物体在3D空间中的位姿,包括三自由度的平移,与三自由度的旋转,或者可视为物体的位置与朝向 p根据是否物体的CAD模型是否已知,位姿估计可以分为: p实例级别的位姿估计:需要物体CAD模型,从而获取平移的中心和旋转的初始朝向 p类别级别的位姿估计:不需要物体CAD模型 通过“见过”训练集中一个类别下很多物体的中心点和初始朝向,从而可以在测试时对未见过的物体“预设”一个中心点和朝向,然后估计位姿 中点是哪里?正面(初始朝向)是哪?没有这些信息如何知道平移和旋转的情况? 构建同类别物体统一坐标空间 p物体上每一个点对应一个(x,y,z),代表该点在标准空间中的位置。给定任意一个图片,分割其中物体,然后在每个像素上预测(x,y,z)。mask上的(x,y,z)就代表这个物体在标准空间中的朝向,结合深度可得位移 pCNN预测:类别、分割Mask、标准空间Map [1] Wang et al. Normalized Object Coordinate Space for Category-Level 6D Objec