产业观察 产业研究中心 2024.03.17,27期 作者:肖群稀 电话:0755-23976830 邮箱:xiaoqunxi027589@gtjas.com资格证书编号:S0880522120001 作者:鲍雁辛 电话:0755-23976830 邮箱:baoyanxin@gtjas.com 资格证书编号:S0880513070005 【机器人产业周报】关注NVIDIAGTC2024:AI及机器人技术的未来 摘要: Figure01最新进展视频展示了其在OpenAI大模型的支持下的自主对话、意图理解和决策执行能力。据Figure的AI技术负责人表示,视频中的所有行为都是机器人自主学习和完成的,没有任何人为干预,并且视频以标准的“1倍速”展示。Figure01是如何完成与人类的交互的?OpenAI 的ChatGPT提供了视觉推理和语言理解能力,机器人可以听懂人类的语言,也可以看懂图片,包 往期回顾 【机器人产业周报】优必选被纳入港股 通标的 2024.03.09 【机器人产业周报】端到端的实现基于海量数据和强大算力 2024.03.03 【机器人产业周报】巨头加速入局具身智能 2024.02.26 【机器人产业周报】工信部等七部门:打造人形机器人等十大标志性产品 2024.02.4 【机器人产业周报】马斯克:Optimus很有可能在25年开始发货 2024.01.28 【机器人产业周报】人形机器人Figure将进入BMW工厂测试 2024.01.21 【机器人产业周报】23年中国机器人融资规模约200亿 2024.01.14 【机器人产业周报】三花、拓普公布机器人核心部件生产基地建设投资计划,人形机器人产业化预期进一步升温 2024.01.07 括视频中桌上的苹果、盘子和水杯、人站立的姿势等等;2)Figure01又是怎么知道怎么拿苹果 方盘子的呢?这是Figure自己训练出来的,Figure的神经网络负责实现机器人快速、灵敏的动作,他开发了一种专门的Visuomotor策略(视觉-运动策略),让机器人看大量的视频,由他自己去学习这个过程,并把学习到的过程转化为动作轨迹,这其中包含了大量关节的角度序列、坐标点加速度和时间戳等信息,由此进一步拆解成低级别信号,结合机器人的作动器的控制算法去完成。这是一个端到端的学习过程,也就是AI直接从视频中拆解出执行特定任务的具体步骤,这种基于神经网络的训练与传统的直接给机器人进行人工编程是两种完全不同的结果,他不需要人工干预,会自动纠错,如果是人工编程的话,出现程序设定之外的情况,机器人就不知道应该怎么处理了。200Hz的频率下执行相应的动作,也就是说每秒可以处理和执行200次动作,所以视频中展示出来的拿苹果和收拾桌子的动作是非常娴熟和流畅的。未来机器人想要执行更多的任务,必须在每一个单独的任务上进行大量的视频训练,这需要更高阶的技术框架和更多的算力支持。 25家机器人合作伙伴将出席NVIDIAGTC24,讨论AI及机器人技术未来发展趋势。根据英伟达官方公众号显示,届时将有超过77家生态系统合作伙伴和超过25家合作伙伴机器人亮相GTC,共同探讨机器人技术的未来发展趋势,包括AI对机器人行业的影响、机器人行业的生成式AI、机器人与AI视觉、提升人形机器人性能等。NVIDIA为机器人开发者提供了端到端全栈解决方案,包含数字孪生仿真平台、大模型训练和调优、生成式AI以及机器人算法库等。波士顿动力、迪士尼、谷歌DeepMind等知名企业均参与会议,分享他们在机器人领域的最新突破。英伟达和波士顿动力将在“机器人及AI的角色:过去,现在和未来”的会议上探讨从传统控制时代到今天,人工智能是如何影响机器人技术;谷歌旗下人工智能企业DeepMind将在“生成式AI时代的机器人”会议上揭示由生成式AI在感知和交互方面的进步推动的下一个机器人技术前沿。波士顿动力将在“来看看在机器人世界如何解锁生态系统”的会议上讨论AI和云空间的机遇。 风险提示:经济复苏速度低于预期;技术进步速度低于预期。 目录 1.产业政策3 2.产业动态3 3.融资动态6 4.风险提示7 1.产业政策 欧盟议会批准全球首个AI法案。据VentureBeat报道,3月14日,欧盟议会批准了《人工智能法案》(EUAIAct),这是全球首部全面监管AI的法规。这部法案诞生于2021年,将AI技术分为不同的风险类别,从“不可接受”到高、中和低四个级别。法案根据不同的风险等级对AI的不同用途进行监管,违规者最高将面临其全球营收7%的罚款。该法案仍需要获得欧盟理事会的批准,如果通过将于今年5月底正式立法生效。(资料来源:彭博) 印度政府已批准投资1030亿卢比(约合人民币89亿元)用于一个AI项目。该项目旨在开发计算基础设施、大型模型,并支持AI初创企业,同时为公共部门开发AI应用程序提供资金。(资料来源:彭博) 2.产业动态 Figure发布Figure01最新进展视频,展示了其在OpenAI大模型的支持下的自主对话、意图理解和决策执行能力。据Figure的AI技术负责人表示,视频中的所有行为都是机器人自主学习和完成的,没有任何人为干预,并且视频以标准的“1倍速”展示。Figure01是如何完成与人类的交互的?OpenAI的ChatGPT提供了视觉推理和语言理解能力,机器人可以听懂人类的语言,也可以看懂图片,包括视频中桌上的苹果、盘子和水杯、人站立的姿势等等;2)Figure01又是怎么知道怎么拿苹果方盘子的呢?这是Figure自己训练出来的,Figure的神经网络负责实现机器人快速、灵敏的动作,他开发了一种专门的Visuomotor策略(视觉-运动策略),让机器人看大量的视频,由他自己去学习这个过程,并把学习到的过程转化为动作轨迹,这其中包含了大量关节的角度序列、坐标点加速度和时间戳等信息,由此进一步拆解成低级别信号,结合机器人的作动器的控制算法去完成。这是一个端到端的学习过程,也就是AI直接从视频中拆解出执行特定任务的具体步骤,这种基于神经网络的训练与传统的直接给机器人进行人工编程是两种完全不同的结果,他不需要人工干预,会自动纠错,如果是人工编程的话,出现程序设定之外的情况,机器人就不知道应该怎么处理了。200Hz的频率下执行相应的动作,也就是说每秒可以处理和执行200次动作,所以视频中展示出来的拿苹果和收拾桌子的动作是非常娴熟和流畅的。未来机器人想要执行更多的任务,必须在每一个单独的任务上进行大量的视频训练,这需要更高阶的技术框架和更多的算力支持。(资料来源:FigureAI) NVIDIAGTC24将于3月18-24号在美国加州圣何塞和线上同步举行,有关机器人的会议内容丰富,包括AI对机器人行业的影响、机器人行业的生成式AI、机器人与AI视觉、提升人形机器人性能等。根据英伟达官方公众号显示,届时将有超过77家生态系统合作伙伴和超过25台合作伙伴机器人亮相GTC,共同探讨机器人技术的未来发展趋势。NVIDIA为机器人开发者提供了端到端全栈解决方案,包含数字孪生仿真平台、大模型训练和调优、生成式AI以及机器人算法库等。波士顿动力、迪士尼、谷歌DeepMind等知名企业均参与会议,分享他们在机器人领域的最新突破。英伟达和波士顿动力将在“机器人及AI的角色:过去,现在和未来”的会议上探讨从传统控制时代到今天,人工智能是如何影响机器人技术的;谷歌旗下人工智能企业DeepMind将在“生成式AI时代的机器人”会议上揭示由生成式AI在感知和交互方面的进步推动的下一个机器人技术前沿。波士顿动力将在“来看看在机器人世界如何解锁生态系统”的会议上讨论AI和云空间的机遇。(资料来源:英伟达) 图1:NVIDIAGTC24机器人会议专场 主题演讲嘉宾应用场景 人工智能的进步使学术界和工业界在计算机视觉和自 然语言处理等多个领域取得了突破性进展。在这次炉 机器人及AI的角色:过去,现在和未来 来看看在机器人世界如何解锁生态系统 生成式AI时代的机器人 利用OpenUSD和生成式AI实现全球各大产业的数字化 小组讨论:生成式AI对机器人技术的影响 MarcRaibert|波士顿动力人工智能研究所执行董事 DieterFox|NVIDIA机器人研究高级总监 AaronSaunders|波士顿动力公司首席技术官 VincentVanhoucke|谷歌DeepMind杰出科学家兼机器人技术高级总监 DeanTakahashi|VentureBeat首席撰稿人BenjaminChang |纬创资通全球制造副总裁 RevLebaredian|NVIDIAOmniverse和仿真技术副总裁PatrickCozzi|Cesium首席执行官 JoeBohman|西门子数字化工业软件PLM产品执行副总裁ChristineOsik|AmazonRobotics仿真主管 AndyPratt|微软EmergingTechnologies首席副总裁PaulinaChmielarz|捷豹路虎工业运营数字与创新总监SandraSkaff|NVIDIA高级战略合作伙伴经理 SaiVemprala|ScaledFoundations联合创始人 NitishSrivastava|VayuRobotics首席技术官兼联合创始人JeffMahler|AmbiRobotics联合创始人兼首席技术官PeterChen|Covariant首席执行官兼联合创始人 边谈话中,NVIDIA机器人研究高级总监DieterFox将与波士顿动力人工智能研究所执行董事MarcRaibert一起,探讨从传统控制时代到今天,人工智能是如何影响机器人技术的。 波士顿动力公司对研究领域的一个新机遇感到兴奋不 已。波士顿动力公司一直与NVIDIA一起,致力于开发一种集成了硬件和软件的新型机器人功能。欢迎前来了解NVIDIAAGXOrin如何将机器人生态系统提升到一个新的水平,释放AI和云空间的机遇。 生成式AI正在将自动常识推理、任务规划和感知提升到一个新的水平。除此之外,它还在合成数据生成、人机交互和多模态理解方面带来了革命性的变化。总之,这些都是机器人所需的一些关键能力,可以帮助机器人理解我们的世界,并为人类的日常工作提供方便、多功能的物理辅助。最重要的是生成式AI也需要理解物理交互。本演讲将为我们描绘一个未来,在这个未来中,具身智能是大型多模态模型所带来变革的自然延伸,它对未来的协作机器人和以人为本的AI有着深远的影响。 全球大型行业都正在竞相成为由软件定义的行业,但这一过程的数字化是复杂的。聆听由杰出人士组成的小组介绍他们的工业数字化项目,这些项目为其整个组织带来了生成式AI、新数据平台、3D互操作性和高级可视化。 本小组汇集了多位技术专家,他们一直处于开发最新的基于生成式AI的机器人技术最前沿。小组成员将分享关于开发和部署这些技术的挑战和机遇,以及有望改变机器人行业的潜在商业化机会。 数据来源:英伟达官网、国泰君安证券研究 OpenAICTOMiraMurati接受采访,回答了关于Sora视频的缺陷、训练数据、算力、发布时间、安全措施和限制等方面问题。1)Sora视频的缺陷:Sora生成的视频有时会出现一些缺陷,例如物体变形、颜色变化不一致以及与prompt不准确的表示。手部特别难以准确模拟。OpenAI正在努力提高可操控性、控制力和准确性,以更好地反映prompt的意图。2)Sora的训练数据:OpenAI使用公开和授权的数据来训练Sora,包括来自Shutterstock的视频(OpenAI与他们签订了一项合作)。3)生成Sora视频需要的算力:生成Sora视频需要几分钟取决于Prompt的复杂程度。与ChatGPT响应或DALL-E图像相比(已经经过大量优化),Sora的推理需要明显更多的计算能力。OpenAI的目标是优化技术,以低成本向公众提供, 希望最终能够类似于DALL-E。4)OpenAI希望在今年向公众发布Sora,可能在几个月内。正在考虑对全球事