您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [未知机构]:物理AI专家会议纪要20260622 - 发现报告

物理AI专家会议纪要20260622

2026-06-22 未知机构 爱吃胡萝卜的猫 
报告封面

各位领导晚上好,我是西部计算机的谢忱。上周我们组织的专家电话会上,初步探讨了物理AI的技术与产业链的情况。今晚我们将进一步围绕物理AI的这个四大利好方向去挖掘机会。可能有部分投资者没有参加上周的这个第一场的物理AI会议,那我这边就先总结一下上次会议梳理的这个物理AI的四大的利好方向。也有不少投资者关心这个结论,那么就是第一个利好的方向是物理AI的这个模型厂商,包括像海外的谷歌、英伟达,国内的阿里等。那第二个方向就是算力,包括云端训练以及端侧推理的这个相关的芯片厂商。 第三个方向是感知硬件与零部件厂商,第四个方向是数据与仿真平台厂商。那针对以上四个主要的方向,我们今晚很高兴的请到了业内资深的物。物理AI专家来做进一步的展开,那专家您好,请问能听到吗? 物理物理AI专家专家: 你好。 谢忱谢忱西部证券计算机分析师西部证券计算机分析师: 你好。 物理物理AI专家专家: 可以听到。 谢忱谢忱西部证券计算机分析师西部证券计算机分析师: 那我这边就先问您几个问题,那就是上次其实这个专家,我另一个专家在介绍物理AI系统的时候提到了,就是包括有世界模型,包括有VLM,就是这个视视觉语言模型,还有VLA,就是这个视觉语言动作模型,这几个不同的模型。那在这个AI物理AI的系统中,就是这三个模型它分别又扮演了怎么样的角色?然后还请专家展开的介绍一下这几个模型的一个差异。 物理物理AI专家专家: 好的,这,那么。物理AI的话,我们首先,这个是我们大家了解的大语言模型,之后进一步发展,出现了多模态的大模型,也就是包括了图片,除了文字之外,包括了图片,包括了这个视频。这样的一些这个模型,我们在日常生活中,现在已经有很多的应用,我相信咱们在座的每个人都通过手机来使用过类似的相关的一些大模型的服务。那么物理AI,今后它不是在手机上跑的。也就是说,它今后的话一定是脱离屏幕,是在一个空间,一个我们生活的空间当中来这个进行应用的。 首先,它的应用场景是完全不同的,那么未来的应用的主要的对象。不是,我们人通过手机来使用,而是机器人,或者是一些智能的,这个自主的设备,当然各种形态的,它来这个使用这个物理AI。那么物理AI的话。它最主要的就是在这个3D空间当中,解决了对空间物体以及一些物理的,我们都知道物理就包括了力,包括了光,包括了运动,等等,这些的相关的一些物理世界,发生的各种各样的这个现象或者这种行为。那么作为一个大模型,未来在机器人的应用当中,一定要解决机器人对物理世界的感知,以及深层次的理解,并且能够在这个未来的行为当中进行决策。 所以物理AI,它最核心的,是构建一个在真实的物理世界,能够帮助机器人,完成这个复杂的任务。这个是物理AI它的这个主要的,我们叫定义也好,或者是它的这个功能。那么在物理AI当中,现在很多的,公司在。在这个研发的过程当中,提出了一些相关的一些这个模型,那么其中,刚才主持人讲的,有这个VL,V L A,V L M和这个世界模型。那么我简单的来讲一下这个V L M,那么L的话就是语言。V是vision,就是视觉。那么在这个视觉和语言相结合,是可以帮助机器人在这个与这个物理世界进行交互的时候,那么它可以通过与视觉包括和人的交互感知这个它所处的环境。 那么我们都知道人获得外部信息最主要的信息来源86%是来源于我们的视觉。我们视觉看到的我们周边的这个场景物体或者是我们看到的人,基本上都是这个通过视觉获取了百分之八十几的这样的外部信息。剩下一部分的话是听觉,那么听觉现在很重要的,当然动物也有听觉,那么人的听觉的话更主要的还能够分辨各种各样的这个声 音,包括我们人的复杂的这个语言。因为人的语言也非常复杂,它有不同的发音、不同的声调、不同的文字的组合,表达出来这种含义。 那么这个大概占了10%几。那么剩下的话还有触觉、嗅觉和味觉。那么触觉的话,大概是占到了2%左右,那么剩下的不到1%是味觉和这个嗅觉。所以,在这个当前的机器人的技术当中,首先,在解决了视觉和语言融合的这个模型。当然现在的话,逐步的有很多的厂家现在开始,把这个触觉的传感器,把这个货体的数据也融合进来,这个的话,这个,这个的融合,还在发展过程当中。那么,视觉语言模型就是VLM,那么VLA。VLA的话,这个,V和L是一样的,那么A就是动作,也就是在机器人,它在这个与这个外部进行交互的时候,它是要需要这个通过它的移动,通过它的操作来完成相应的一些任务,那么这个A就是action。 所以,VLA的话,是在这个感知和理解任务的基础上,要能够形成一个自主行为的这样的一个决策模型。所以,在这个机器人,加了一个这个A,这个,这个行为,那么,世界模型。我理解,它应该是一个,通过不同的,大量的我们人类生活的这个物理世界,把各种各样的数据,进行这个训练,那么当然也是像我们大语言模型训练一样。它需要有大量的数据,这样数据的这样的这个训练,那么可以让这个我们叫机器人的大脑能够理解这个物理世界,就是当。 任何的一个机器人,它在场景当中,通过摄摄像头这个视觉,通过了相关的一些,比如说声音,也包括了触觉,了解到感受到的这些数据,通过世界模型。它能够知道它在这个物理世界当中会发生什么样的。就是这个决策过程当中它会发生什么样的叫做这个物理变化。也就是它能够预测机器人在交互过程当中。它能够知道它在做的过程之后下一个物理世界,当中会发生什么样的一个叫做这个变化,比如说物体的移动,包括了这个包括这个一些力,包。 包括了一些我们叫做这个位置,也包括了其他的一些形变,所以这些的话都需要一个对这个物理世界的,这个一个世界模型的一个预测。我们知道大语言模型最主要的就是能够预测下一个叫做这个输出,能够最符合现在的这个上一个输出的这个含义,通过这个统计概率学,那么。物理世界的话,它也是一个这个连续变化的。那在连续变化当中,机器人在做任何事情的时候,它一定能够有一定的叫做预测。这样的话,它才知道下一步它通过一系列的动作,会和这个物理世界产生什么样的这。 这样的一种这个交互行为,从而来这个完成一个推理,他应该怎么去进行这个相关的这个行 #对话纪要为。那么在物理世界模型当中目前最主要的这个方法是要获取大量的物理世界的数据,而这个物理世界的数据又需要通过数字化的把它描述和表达。我们知道文字的话,它都是通过数字化的给它展示出来。这个是我们的这个计算机科学,这个做了几十年,就是要把很多的这个文字通过这种这个编码,把它形成了这个输入和和这个输出。那么物理世界现在没有。但是现在,大家都在做这个工作,就是如何把物理世界的我们看到的、听到的、摸到的这些,通过数字化的把它这个数据给它这个叫做这个记录下来,或者是处理,或者是这个生成。 所以,这个物理世界模型的话,应该就是我们现在物理世界的一个仿真,或者说我们叫一个数字孪生。所以在这个三者之间的这个很重要的一个关系,也就是在这个世界模型,它更像一个这个理解物理世界的一个大脑。那么VLM应该是一个就是对场景的理解,也包括了这个它的这种形成的一种决策。那VLA应该是更多更多的是在这个执行这个层面,基本上就是这样吧。 谢忱谢忱西部证券计算机分析师:西部证券计算机分析师: 好的。专家,您介绍的很清楚,就是,然后,就您的观点是要做一个出色的一个大脑,或者是一个机器人的这种决策能力,基本上,以上的三个能力是不是都不可或缺的呀? 分析师分析师1:: 是的。 谢忱谢忱西部证券计算机分析师:西部证券计算机分析师: 好的。 分析师分析师1:: 一个通用的,对。 谢忱谢忱西部证券计算机分析师:西部证券计算机分析师: 哦,ok。好的。那个然后就是,像这种大脑的,或者是这种物理AI的模型厂商,假设这种可以对外输出的,我们 不考虑这种比如说一体化的,你的硬件也是自己做的那种厂商之外,就假设有这种商业模式,您觉得,是按照tokens这种收费的模式,可能是比较可行?还是说按照像特斯拉比如说FSD收这种订阅费的模式比较可行?就是从商业模式的角度,这种机器人大脑的厂商。 物理物理AI专家:专家: 我觉得两种还真是都有可能的,就看这个怎么算这个R O I了。那这个R O I的话分两方面,一个的话是这个叫做模型的这个服务厂商,模型提供模型服务的厂商,那他如何去算他的R O I?这他有很大量的这个算力的消耗,也包括前期的预训练的这些前期的投入,而且他不断的训练,不断的升级,那么他如何这个定价?这个定价的方式的话是那是按照token的数量,还是说我这个一个月多少钱?所以这个纯的是一个叫做商业的一个我们叫做这个策略定价策略问题。 那么对于这个机器人的这个叫做这个公司或者机器人的使用者,那么他今后是以一个订阅的方式去这个去买服务,还是说我是按次按token的方式,他也算一个ROI。所以这个的话是纯的,我觉得这个商业定价问题。 #谢忱西部证券计算机分析师:好的,明白。然后,刚才问完了这个模型和大脑侧的这个第一个方向,然后第二个方向就可能是算力侧了。那,就是专家您,从您的这个视角观察到,就是现在,大概训练一个物理AI模型,所需的这种数据,或者算力的一个量级,或者一个实验周期,您觉得是可能要多久?就是首先,从训练层面,上去看看对于算力的这个需求。就是现在的这个,我们知道大语言模型它,这个训练,实现了,我们叫做智能涌现,也就是这个,这个拐点,是吧? 物理物理AI专家专家: 智能领域是八千亿个这个参数,那么这个的话也是一个工程,这个工程在实践的过程当中,才发现了有这样一个八千亿的参数,我们看到在大语言模型当中,形成了我们叫做这个智能的涌现。这个在早期的这个理论上是没有办法去进行预测的,因为这个太太这个超乎实际上是超乎了理论的,叫做这个就现在的理论认知的能力的。同样作为世界模型。现在也没有人能够预测出来,它需要多少多少个参数,是八万亿还是八十万亿,是大语言模型的十倍还是这个两个数量级,甚至三棵树量级,现在没有人预测出来。 所以这个的话,这个但是,它一定是遵循着,我认为它一定是遵循着这个scaling scaling law的这个规则的,就是当它有足够多的这个参数。把我们的物理世界进行表征,然后物理世界这些表征的参数之间的这些我们叫做这种关联,进行这个叫做这个权重的这些计算,那么这些的话一定是这个可以实现的,但。但是这个数量是多少?需要多少的算力,以及包括这个需要多大的这个时间能够把它这个训练出来?哪家能训练出来?现在的这个还都是在这个过程当中,很难做预测,很难做预测。 谢忱谢忱西部证券计算机分析师西部证券计算机分析师: 明白。因为,就从我们市场的这种角度来看,就是训练一个刚才您也提到了,你现在要训练一个这种世界模型,你可能需要多维的数据,包括现在也在融合一些这种听觉、触觉可能的各种数据,那这种数据的多维会不会使得我即使训练同样的一个,比如说同等参数量的一个世界模型,我需要的比如说这种数据的量级对吧,或者是推理的周期变长,轮次变多,然后你的这种算力消耗变大,同等的参数量级下面对于算力的消耗,物理AI模型会不会更大,可能有投资者关心这个问题。 一定会一定会比大语言模型和这个两维的这个图片或者视频,要大很多的。好的。 物理物理AI专家专家: 这也就带来了,这也就带来了,就是对这个算力的需求,现在还是这个很强劲,因为这块的发展的话还在过程当中,那些巨头们都在争夺这个下一个叫做这个叫做我们叫做世界模型或者物理AI的这种大模型的,叫做这个突破。所以,这个的,算力的需求,目前来看,还是这个没有到头,还是在不断的这个需要。 谢忱谢忱西部证券计算机分析师西部证券计算机分析师: 明白。然后就是,因为此前,可能在23年之前吧,就是也有这种包括汽车,机器人厂商可能,已经对于这种端侧算力做了一些规划,可能是比如说两到四颗的这种Orin,作为这种大脑的一个这种支持。我不知道就是在现在,大模型时代下面这种端侧的这种,推理需求是较之前可能更会有进一步提升,还是说目前来看,可能现在的比如说二到四颗的这种Orin 的配置可能就,已经可以做一些冗余了,就是我不知道,现在从推理的角度来讲,会不会消耗更多