您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[量子位智库]:中国具身智能创投报告 - 发现报告

中国具身智能创投报告

AI智能总结
查看更多
中国具身智能创投报告

自1950年艾伦·图灵首次提出具身智能(Embodied AI)的概念,直到进入21世纪,具身智能才在机器人领域进一步发展。近两年随着人工智能技术的进步,尤其是大模型的出现,人们开始看到具身智能实际应用的可能性,越来越多的企业开始布局和投身这一「人工智能的下一个浪潮」。 今年以来,科技巨头们在具身智能领域的动作不断——谷歌发布了融合视觉、语言、动作的RT系列机器人模型的新成果RT-H,英伟达在GTC大会上推出了人形机器人通用基础模型Project GR00T,特斯拉擎天柱(Optimus)机器人从叠衣服、散步到进厂“打工”,就连OpenAI也宣布时隔四年重新组建机器人团队…… 除了顶流大厂之外,具身智能初创企业更是参与和推动这次浪潮的主角。遍观海内外,近年来不断有顶级院校和科技巨头AI/机器人实验室出身的专家创立或参与创立具身智能企业;不同企业具身智能机器人产品的动态相较以往更密集地向公众传递;具身智能初创公司融资状态火热,明星创企单轮融资额破亿屡见不鲜,整体估值水涨船高。 在《中国具身智能创投报告》中,量子位智库对具身智能的背景现状、技术原理与路线、国内创业格局、融资梳理及代表创企、创业者背景等方面进行了系统介绍,希望为科技从业者和爱好者们描绘出国内具身智能创业的澎湃蓝图。 02 03 04 05 具身智能定义 根据中国计算机协会的定义,「具身智能(Embodied AI)」是一种基于物理身体进行感知和行动的智能系统,它通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。本篇报告研究的「具身智能」以通用智能机器人载体为主,不包含无人车等物理形态。 具身智能机器人与普通机器人的区别主要集中在自主性、感知与交互能力、学习与适应能力、应用场景等方面。 具身智能火热现状 产业端——科技巨头布局具身智能生态 谷歌继去年推出首个控制机器人的视觉-语言-动作模型RT-2之后,于今年3月又推出RT系列的最新模型RT-H,在多个任务评估中相比RT-2平均提高了15%的成功率。 英伟达今年2月宣布成立GEAR(Generalist Embodied Agent Research)实验室,专注通用具身智能体研究;在3月的GTC大会上,英伟达发布人形机器人通用基础模型Project GR00T,以及专为人形机器人打造的新型计算平台Jetson Thor。 微软不仅和英伟达、OpenAI一起投资了具身智能明星创企Figure AI,今年5月还与仿人机器人公司Sanctuary AI达成合作,为其提供Azure云资源、加速具身AI研究。 OpenAI与Figure、1X Technologies等公司合作开发机器人大模型,并将视觉语言模型加持在Figure 01人形机器人上;同时时隔四年重新组建了自己的机器人团队。 特斯拉持续发布擎天柱(Optimus)机器人的演示视频,展示其从叠衣服、散步到进厂分拣电池的最新进展。 具身智能火热现状 学术端——高校机构研究具身智能系统 斯坦福大学李飞飞团队推出VoxPoser,基于环境信息和自然语言命令,通过大语言模型和视觉语言模型的交互,指导系统为机器人生成相应的操作指示地图。李飞飞教授今年也发起「空间智能」方向的创业项目,目标让AI像人类一样对视觉信息进行高级推理。 卡内基梅隆大学研发出OmniH2O(Omni Human-to-Humanoid)全身遥控系统,实现全尺寸人形机器人的实时全身远程操作,并用宇树科技的H1-ReS人形机器人做了效果演示。 北京大学推出一系列具身智能研究成果,包括具身导航系统DiscussNav、具身大模型ManipLLM、机器人多模态大模型RoboMamba等。 智源研究院在今年6月的智源大会上推出世界首个端到端基于视频的多模态具身大模型NaVid。 具身智能火热原因:大模型及生成式AI的快速发展 自1950年艾伦·图灵首次提出具身智能(Embodied AI)的概念,直到进入21世纪,具身智能才在机器人领域进一步发展。近两年随着人工智能技术的进步,尤其是大模型及生成式AI的发展,大众逐渐看到具身智能实际应用的可能性,而不仅仅将其看作象牙塔内的学术研究。英伟达CEO黄仁勋和斯坦福李飞飞教授等产业界和学术界的旗帜性人物纷纷为具身智能站台,越来越多的人相信具身智能将成为「人工智能的下一个浪潮」。 对生成式AI而言,机器人是大模型能力的理想载体,是人工智能发展到一定阶段、从单纯数字领域的应用到与物理世界交互的必然途径。 对通用机器人而言,大模型提供了更强大的“AGI大脑”,提升了机器人在感知、理解和规划任务上的泛化能力,也对人机交互产生颠覆性影响。 大模型与机器人耦合,激发人们对AGI的想象 技术原理 具身智能本质上是为以机器人为代表的物理实体注入人工智能,使其能感知、学习并与环境动态交互。 技术路线 具身智能的算法方案可分为分层决策模型和端到端模型两种路线。 以「Google RT-2」为代表,通过一个神经网络完成从任务目标输入到行为指令输出的全过程。首先在大规模互联网数据预训练视觉语言模型,然后在机器人任务上微调,结合机器人动作数据,推出视觉语言动作模型。RT-2不仅负责最上层的感知与规划,还参与中下层的控制与执行,打通了端到端的链路。端到端模型的缺点是:训练数据海量、消耗资源巨大、机器人执行实时性差。 以「Figure 01」为代表,将任务分解成不同层级,以多个神经网络训练,再以流程管线的方式组合。Figure 01顶层接入OpenAI的多模态大模型,提供视觉推理和语言理解;中间层神经网络策略作为小脑进行运动控制并生成动作指令;底层机器人本体接受神经网络策略的动作指令,进行控制执行。分层决策模型的缺点是:不同步骤间的对齐和一致性需解决。 技术路线 具身智能的训练方法可分为模仿学习和强化学习两种路线。 模仿学习 强化学习 模仿学习—— 强化学习—— 智能体通过观察和模仿专家(经验丰富的人类操作者或具有高级性能的系统)的行为来学习任务。 智能体通过与环境的交互来学习最佳行为策略,以最大化某种累积奖励。 优势:可以快速学习专家策略,无需复杂的探索过程劣势:学习到的行为策略受限于专家数据,对于未见过的情况泛化能力较差 优势:能够通过探索环境学习未知的策略;可以处理高度不确定和动态变化的环境劣势:需要大量的探索和试错,学习过程缓慢;对于复杂任务,设计合适的奖励函数难度较高 技术路线 具身智能的数据采集可分为基于仿真环境数据和基于真实世界数据两种路线。 基于真实世界的数据采集 基于仿真环境的数据采集(Sim2Real) Sim2Real(Simulation to Reality)——在仿真环境中学习技能和策略,并迁移到现实世界中。 基于真实世界数据采集——直接从现实世界数据中学习,包括本体采集、遥操作、动态捕捉、视频学习等方式。 优势:数据更真实可靠劣势:数据少、泛化性差;通过机器本体和人采集,成本高、难度大、效率低 优势:数据可大规模获取,成本低劣势:对仿真器要求高,仿真环境与真实世界存在差异;迁移过程中存在性能下降 具身智能浪潮主要参与者 国内具身智能浪潮的主要参与者包括科技大厂、传统机器人公司和新生代的具身智能创业公司等。其中,数量众多的创业公司们正将最前沿学术研究与产品研发相结合,为具身智能市场释放无限想象力。 传统机器人公司 科技大厂 具身智能创业公司 近两年不断有AI顶级院校和科技巨头AI/机器人实验室出身的专家学者创立或参与创立具身智能企业。 阿里通义千问联合有鹿机器人发布具身智能大模型LPLM 优必选推出面向工业领域的人形机器人Walker S宇树科技发布通用人形机器人H1傅利叶智能发布通用人形机器人GR-1达闼机器人发布搭载云端大脑的人形机器人XR4乐聚机器人发布搭载开源鸿蒙系统的人形机器人“夸父”…… 百度为优必选的人形机器人Walker S接入文心大模型腾讯通过RoboticsX机器人实验室持续研究多模态大模型与机器人的融合华为成立具身智能创新Lab且与乐聚机器人合作发布盘古具身智能大模型小米成立独立的人形机器人公司,推出Cyberone机器人…… 这些初创公司技术实力优越,吸引无数投资,带来更密集的具身智能机器人产品动态更新,是参与和推动这次具身智能浪潮的重要主角。 具身智能创业公司分类及图谱 机器人本体研发商-人形机器人 机器人本体研发商-其他机器人 以双足或轮式腿的人形机器人产品为代表,机器人通常拥有类人外形,包括头部、躯干、手臂、腿等,且能够模仿人类基本动作,如行走、跑步、跳跃、抓握和操作物体,还可以通过语音、视觉或触觉等方式与人类进行交互。 以双臂机器人产品为代表,机器人拥有非完全体的类人外形,通过灵巧手、机械臂、行走腿等高自由度关节,展现人体结构与外界交互、执行任务的能力。 机器人大模型研发商 机器人数据及系统方案供应商 专注通用机器人大脑研发,为机器人提供通用的大模型底座。 主要是通过动作捕捉、sim2real等方式,为机器人研发提供多模态数据支持,以及感知和决策规划系统支持。 国内创企融资及产品进展梳理 国内创企融资及产品进展梳理 国内代表性创业公司 智元机器人,一家专注于人形机器人和具身智能产品研发的创新企业,由前华为“天才少年”彭志辉(稚晖君)等创立,目前已融资到A4轮,吸引了包括高瓴创投、百度风投、比亚迪等知名企业及投资机构的参与。公司在2023年8月推出第一代通用型具身智能机器人远征A1,具备业界领先的双足行走、智能任务执行和人机互动等能力,在WAIC2024上展示了新一代面向商用的人形机器人远征A2。 星尘智能,前腾讯RobticsX一号员工来杰创立的具身智能机器人公司。2024年4月,星尘智能推出“最接近人类操作性能”的AI机器人Astribot S1。这款机器人通过模仿学习,能够以媲美成年人的操作速度和灵活度,执行多项对人有用的复杂任务。S1机器人已接入大模型测试,并预计在2024年内完成商业化。 逐际动力,专注通用机器人研发,2023年12月发布了人形机器人CL-1的演示视频,实现国产人形机器人首次基于实时地形感知动态上楼梯、下斜坡,今年4月也更新了demo视频,进一步展示了CL-1上楼梯和往返跑步的能力。从5月到7月,公司完成了由阿里巴巴、招商局创投、上汽集团旗下尚颀资本等领投的A轮战略融资,预计会加速对机器人产品的打造和商业场景的开拓。 国内代表性创业公司 加速进化,专注于人形机器人及运控开发平台研发。今年4月加速进化发布了人形机器人产品BR002的demo视频,能够从躺倒在地的状态下,反向折叠腿部站立起来,展现了与波士顿动力Atlas相似的站立方式。公司5月份完成新一轮源码资本领投的数千万元融资,预计用于机器人产品小批量量产及市场推广等。 星动纪元,由清华大学交叉信息研究院孵化,成立半年内就获得了超亿元的天使轮融资,致力于具身智能以及人形通用机器人技术和产品的研发,已经推出了两款型号的人形机器人产品:小星和小星Max。其中小星Max作为一款全尺寸人形机器人,具备超高的自由度和灵巧手,可用于工厂制造或服务场景。 国外创企融资及产品进展梳理 国外代表性创业公司 Figure是具身智能机器人领域最出圈的的明星创企,去年10月发布人形机器人产品Figure 01。在今年1月的demo视频中,Figure 01通过观看人类示范视频,通过10小时端到端训练成功完成了操作咖啡机的“煮咖啡”任务;随后,Figure宣布与OpenAI合作,在3月份放出的新demo视频中,通过OpenAI多模态大模型加持的Figure 01展示出和人类自如对话的能力,且能规划动作、拥有短期记忆、可以用语言解释推理过程,瞬间引发整个科技圈的关注和讨论。 1X Technologies是除了Figu