您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:北航机器人研究所名誉所长、中关村智友研究院院长王田苗 - 发现报告
当前位置:首页/会议纪要/报告详情/

北航机器人研究所名誉所长、中关村智友研究院院长王田苗

2024-04-26未知机构起***
北航机器人研究所名誉所长、中关村智友研究院院长王田苗

90 年代初,中国工业机器人尚在萌芽期,王田苗已经进入一个和移动机器人相关的国家重 大项目组中,研究无人驾驶技术。30 多年过去,王田苗和团队研发出国内第一款获得许可 证的医疗机器人,也成为硬科技领域低调但不可忽视的创业导师。2020 年,王田苗联合十五位科学家发起成立了“智友科学家基金”, 一如既往,王田苗和团 队希望发现和培育服务国家科技战略的早期硬科技项目。具身智能、机器人、机器人上游核心部件正是他关注的重要领域。有效的机器人通用基础模型还未出现Q: 对比上一代机器人技术路径,具身智能的革命性体现在哪里?王田苗:具身智能强调和追求机器人泛化及大规模应用。第一,它通过嵌入大模型交互,使机器人能够听懂语言,理解客户的指示,并让具身智能体到相应的地方进行操作。第二是结构化的固定环境加上感知垂直大模型,能识别并重建环节,拓宽机器人使用的环境,提高智能化水平。因此,人们期待具身智能即大模型+机器人能够实现“一脑多机”或“一脑 多型”的爆发。Q: 具身智能真正得到学术界、工业界、金融界重视是在这两三年。狭义来看,是否可以理 解为让机器人通过自我学习进行认知和决策,从而完成相应的任务?王田苗:从大语言模型的发展开始,我们可以看到语言处理领域的显著进步。传统的解决方法通常是依赖于知识图谱,并结合人为设计的逻辑以及多个小任务模型来解决问题。然而随着技术不断进步,尤其是 AlphaGo 在围棋领域的优秀表现,以及 AlphaZero 在蛋白质 分析方面的突破,人们开始期待用一个通用模型的训练和微调,来解决所有问题。这也是为什么大模型被视为未来社会数字化、智能化、治理化的运行底座。机器人作为人们改造世界的工具,具身智能概念诞生后,人们开始思考,机器人领域是不是也能诞生这样通用大模型。目前工业机器人的装机总量约为 300 万台,每年世界 60 万台,中国占总量的一半、是 30 万台。有这样一个“通用大脑”后,就能大规模、高效率地泛化迁移应用,解决许多问题。Q: 那这个机器人通用模型现在出现了吗?王田苗:目前还没有一个有效的模型出现。以实时性问题为例。Figure 机器人在视频中呈现的延迟时长约为 2-3 秒,它使用了 Pipeline、管道型路线,即自然语言发送后、机器人大脑可以理解并生成指令,由指令来控 制。当接入通用大脑后,其延迟速度约要乘以 20 倍。Q: 有什么解决方案?王田苗:常见的解决方案是,为不同的任务设定多个小模型,并提供不同的参数训练,端到端减少推理成本。另外,将专用小 GPU 芯片置入到机器人中,也可提高任务实时性,目 前特斯拉已在自动驾驶中尝试了这种做法。Q: 今年有哪些细分场景的模型值得关注?王田苗:今年 3 月,李飞飞团队开发 Behavior-1K,完成了对 1000 种日常活动的定义,并 以房屋、花园、餐厅、办公室等 50 个场景为基础,标注 9000 多个拥有丰富物理和语义属 性的物体。接着到 4 月,特斯拉推出多模态大模型 Grok-1.5v,利用端到端高速大模型 FSD 推理,有望 连接数字世界与物理世界,解决自动驾驶边缘案例的在线迭代学习问题。Q: 业界对机器人「大脑+小脑」路线的关注度很高。大脑用大模型认知智能、人机交互以 及相关场景的调动,小脑实时控制机器人本体,产生灵巧操作,随着大模型能力提升,是否有可能反哺给小脑,进而带动其感知、行为等能力提升?另外有关技能型劳动操作,会不会具有专业小模型,分别实现高效作业比如焊工、钳工、车工、打磨抛光、喷涂、装 配、拆装等。王田苗:这个问题正是目前学术界、产业界所关注,并且产生争议的地方。大脑主要负责慢思维与推理,是智力的核心所在;而小脑则关联着对事物的反应敏感程 度,更多涉及身体的协调与运动的控制。从逻辑上讲,人们希望今后机器人的大脑能越来 越聪明、弱化小脑能力,力图通过大模型得以统一。比如大模型知道什么是苹果,也知道 苹果可以饱腹,当我们向机器人提问“什么东西能吃”时,机器人就能自动取出一个苹果。但要真正实现它,现阶段仍有很多挑战。在人类历史进化过程中,人类行为的智能进化远远先于语言智能的进化。这可能意味着语 言、视觉感知、触觉感知以及行为等智能在大脑图谱中并不是同一个位置,很可能是由不 同模型所驱动的。莫拉维克悖论也揭示了这一现象–电脑下棋容易、感知和行动智能方面 却面临挑战,这通常表现为顶层智能的智能程度高、精度差、反应慢,而底层智能的智能 程度低、精度高、反应快。Q: 更具体看,还有哪些问题是没有解决的? 王田苗:首先是如何让机器人的“大脑”更聪明。现阶段机器人在解决复杂环境感知、动作 生成、灵巧操作等问题时存在局限性。尽管大模型增强了其学习、语义理解、推理及判断 能力,但在从理解、推理、判断、执行到运动系列过程中,还涉及其他多种模型算法和软 硬件协同的问题,包括感知智能模型、行为智能模型以及原有智能控制理论,如 MPC 模型 预测控制与 WBC 全身协调控制等。问题一:机器人基础大模型 RFMS 问题同时,Scaling laws(尺度定律,这一定律表明,模型大小、数据集大小和用于训练的计算 浮点数,与模型的性能存在线性相关。)能否在机器人基础大模型中复现尚未可知,这些 技术的开发和迭代本身具有难度,再加上周期较长、投入高,短期内要突破关键技术仍面 临着不小的挑战和风险。问题二:智能进化与大小模型问题第三是要解决具身智能大模型与硬件的融合、配合问题。人形机器人的整机结构复杂,仅 零部件就超过 5000 个,从理解指令到执行任务,都是极大的工程量。因此有观点提出,在机器人的智能层、感知层、动作层中分设 Agent,由 Agent 来调用工 具解决具体问题。问题三:具身智能的体系结构问题最后就是落地环节。机器人产品化过程需要用时间来产生并验证价值,如果说研究具身智 能的出发点是为了降低时间成本或提升效率,进而实现生产力的飞跃,而非为了取代人类 工作,那么基于场景的融合打磨与迭代至关重要。问题四:劳动型具身智能研发优先应用的领域问题Q: 要实现专业和通用,过程中的难点是什么?王田苗:软件方面的挑战主要是真实、实用、海量数据的产生与训练问题。其中,数据收 集尤为关键,机器人所需的数据不仅涵盖互联网数据和视频采集数据,更需要包括众多物 理环境中的真实交互数据,这些模拟生成的数据是难以替代的。此外,数据对齐也是一大难题。语言模型能够学习并生成人类能理解的语言,但在机器人 领域,我们面临着海量未标注的异构行为大数据,这使得语义与数据的对齐变得异常困难。其中还涉及到语义歧义问题、模型可能产生的幻觉的安全问题,以及标准化测试平台 和训练完成后安全使用评价问题等。另一方面就是效率与成本问题。从仿生机器人的发展历程来看,自 1997 年日本本田推出的 Asimo 人形机器人,到 2008 年波士顿动力的大狗机器人,再到后续活蹦乱跳的人形机器 人,甚至从特斯拉人形机器人到 Figure 人形机器人,我们确实见证了具身智能在大模型、感知、算力等方面有了重大突破。然而,不能忽视的是,具身智能在结构、驱动、动力等真实能力方面,尚未实现根本性的 突破。其中,行为智能成功成本,与“行为数据采样学习次数”乘以“每一次训练成功的成 本”得到的结果相比,其比值仍然远远小于 1。这导致具身智能的载体性物种在灵巧性、成 本性、能源维护性、使用体验安全性等方面仍存在诸多挑战,距离通用机器人走向千家万 户还有距离。此外,实时性和推理速度也是当前具身智能面临的重要问题。目前基于大模型的机器人控 制周期在线决策最快也需要 50ms,一般延迟达 1-5 秒,这远远无法满足目前工业应用中对 机器人要求 10ms 以下,最好在 3ms 的要求。Q: 在机器人和 AI 结合中,有哪些比较关键的成本?王田苗:机器人结构复杂,核心零部件决定了其精度、稳定性、负荷能力等重要性能指 标,其中技术难度最高分别是减速器、伺服系统和控制器,占成本的 60-70%。加上传感器 等其他零部件,都会增加机器人的制造和后期维护的成本。此外,为了解决实时性问题,需要大量 GPU 算力与训练的能耗。有研究测算,每个 token(1000 token 约为 750 个单词)的训练成本通常约为 6N(N 为参数的计量单位),推理成 本约 2N,即推理成本相当于训练成本的三分之一。机器人的三大主导方向 Q: 面向开放场景的泛化问题,技术上该怎么解决?王田苗:从具身智能的体系结构出发,对机器人下达拿水杯的指令时,这是意图;机器人 会将其分解为具体的运动步骤,包括视觉范围内看到水杯、接近、拿起,一系列动作由感 知模型和操作模型协同完成,当机器人后续面对多任务场景时,理想状态下它能够利用先 前的经验进行复制泛化,减少对编程水平和质量要求。现实生活中,由于所有的视觉感知都是变化的,人机交互、任务规划、动作轨迹和操作模 型需要应对突发性事件,由此也有想法提出,每一层都应有一个具身代理,再根据特定任 务产出领域大模型。 Q: 具身智能会优先在哪些场景中落地?王田苗:从广义来看,将机器人和大模型运用在社会上,我坚信会从商务、工业、最后再 进入消费环节。其中,商务场景包括物流(室内外与低空)、出租、药店、超市、清洁、接待等,更容易 率先取得突破性进展;第二类是工业与农业,工业包括汽车、核工业、化学药品、医院传 染病处置、电池回收拆装等,农业则包括种植、采摘、分拣、屠宰、上下料、预制菜、包 装等;最后才是消费场景,例如打扫、炒菜、陪护、养老、打扫房间、护工保姆等。Q: 在产品形态上是否有创新空间?王田苗:当然。一方面,有工业界和理性的企业热衷于用新技术、新形态去探索专业化的 新应用,他们注重技术的实用性和对专业领域的适用性,希望通过不断的技术创新来推动 业务发展。另一方面,大部分学者或怀揣梦想的创业者则认为通用大模型+人形机器人是未来的发展方 向,更关注技术的前沿性和未来潜力,相信技术将为人类社会带来革命性的影响。二者有所不同,前者注重应用上的创新性,后者是完全颠覆性的创新,两条路线哪一条率 先走通,都离不开市场检验。我们看到,在物流、清洁、无人出租车等场景中,并没有人 形机器人的身影,包括焊接、喷涂等环节中多有应用。市场和供求关系紧密相关,家庭环 境更关注其智能化、情感化、安全化,工业场景更强调效率、准确率和成本,场景约束不 同,两类场景会刺激不同类型的机器人及其核心零部件创新。Q: 如何看待机器人接下来要重点突破的发展趋势?王田苗:当下有三个主导方向。第一是攻克核心零部件,包括高动态、高精度、高扭矩的驱动单元,刚柔耦合的新材料灵 巧手,人工肌肉与电子皮肤,低成本的生物传感器,上游正向设计的电机或减速器等。第二是夯实垂直应用并通过出海获得利润,特别是面向具有连锁店或生产服务属性的中小 微企业,提供服务应用。第三是拥抱大模型。包括大脑机器人基础大模型,具身代理 Agents,低功耗专用小模型算 力 GPU 与编译器,以及生成式数据动作库;同时,关注小脑实时技能操作、行为智能控制 和实时安全评测等方面的技术进展;免编程与安全算法,通用机器人与人形机器人应用 App 的开发也是重要一环;此外,数据服务–垂直模型专用技能数据服务公司,“劳动”派遣 运营服务公司等也有望成为产业链中不可或缺的一方。相信大模型和机器人会是未来大国 可持续竞争力的发展焦点。未来具身智能的新工业发展机遇总结来看,回顾过去的自动化终端产品,能达到万亿规模的赛道需要同时满足三个要素,分别是市场、产业链和技术突破,与此同时还应该潜在具有 2G、2B、2C 的应用属性,机 器人就是这样理念下的一种重要体现。