您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [未知机构]:头部Robotaxi专家小范围交流 - 发现报告

头部Robotaxi专家小范围交流

2025-07-01 未知机构 木子学长v3.5
报告封面

2025年07月02日 15:22 发言人1 00:00 请总站的团队组织的这个abletaxi的专家交流电话会议。今天的会议是我们跟我们会的同事联合组织的,我们也看到L4 role taxi是今年在算是一个元年,像国内的小马智行、微软之行,包括百度萝卜还有特斯拉,其实也都是今年有非常大的一些产业端的一个进展。我们今天也非常荣幸邀请到了robot taxi算法技术方面的专家,跟各位做偏技术项的一些行业的分享,我们也非常感谢专家的时间。 发言人1 00:38 首先我可能想问专家第一个问题就是大家也比较关心的。因为现在常规来说的话,我们看这个技术路径有两条,一条是以某为代表的,我们可以说是一个偏世界模型的这样一个方案。那么微末这条线呢,它衍生出来的像百度系和国内的其他小马文员等等,这整个整一条技术路径。还有一条技术路径可能就是以特斯拉为代表的这个端到端的视觉模型下面的这样一个技术路径。那两种技术路径可能在训练的底层框架上,还有硬件搭载上也都是有差异的。一个有激光雷达,一个是没有激光雷达,那一个是可能有一些robs,有一个视频跟database。整个来说的话,这两个路线下来,我想请您先讲讲以某为代表这条路线,或者说您就职的这个公司它的这样一个路线的一个情况,浩博。 发言人2 01:38 好的,其实整个自动驾驶其实就L四级别自动驾驶,其实它如果是从技术演进的角度来讲,其实他分成现在应该来看应该是分会分成三个阶段。第一阶段就是我们最开始的就是那种模块分离式的这样的架构。它大概分成了五个部分。一部分就是感知,然后预测、规划、控制,然后再加一个定位。这五部分其实最开始的时候都是这种分离开的,有并且有一种上下游的关系,然后他们之间是通过这种消息就是消息通消息的方式来进行通信。这套方案其实就是在L四级别的自动驾驶里面,其实是应用非常广泛的,就包括早期的vivo还有百度,以及小马文远这边,其实都是采用的是这样的会员最开始的这样一个架构。 发言人2 02:32 这个架构它的存在的一些问题,就是它有些就是随着我们路况还有环境越来越复杂。他有些因为这套方案更多的就更多的其实是由由规则来驱动的。比如说环境,还有就是这种政策参与者会越来越复杂,然后造成我们的一些规则,它就是我发现我们写的规则越来越多。然后一是就有有些情况就是commoncase越来越多,就发现我们的规则其实好像还没有一个上限。并且这些common case一些规则还会有一些互相打架的这样一个情况,就调整一个color key,另一个可能又产生其他color key这样情况产生。 发言人2 03:10 然后对于L四级别增加式这边,它现在更多的应用方案采用的是那种局部的登录端,也就是两阶段模型。然后第一阶段就是我们把前端的感知和预测,变成端到端的一段式,然后把规划控制也就偏C这一段变成到了一段时。然后对于感知,我们管它叫大感知和大规划。就对大展车来说,我们完全这边是由去由这种模型来控制。我们可以把它加到我们传统的CNDV的模型,然后也可以把它拉到引入我们现在的更流更加流行的这种IRI大连模型。 发言人2 03:45 然后再对一篇,这里我可以再展开讲一讲。它整体的一个演进我们的传统的那种CNN的网络模型。它因为它没有引入互联网里面的数据,所以它的感知能力天然是不足的。我们自动驾驶的数据非常多,其实 再多它也是自动驾驶里面的数据,但是它缺少对这个世界的理解。但是我们的大语言模型,它就是它诞生的时候,它就利用了大量的互联网数据。所以说它是具有对环境的理解能力的。所以所以说这个时候,我们就会基于传统的基于传统的那种网络,就是那种CN网络模型加上LR这种大元模型就联合起来,然后形成了一这样的一个大规,就是大感知这样的一个大的一个模块。 发言人2 04:31 然后对于PNC这边,因为PNC其实直接的影响就是驾驶驾驶的这种感受,然后还有一个驾驶的这种安全性。所以这边我们就对L4的专家来说,他的策略会更加保守。他这边更多的应用,前期我们积累了大量的这样的一些role low base这样的一些策略,还有规则。然后我们在这个时候这个阶段,我们是更多的采用的是这lowbase的这样的控制不是特别高。他这种因为基于规则去控制的话,我们可以去严格的把这些东西限制死。对,所以在规PNC这边,就大规划这边,我们更多的是基于这种规则的方式来进行控制。所以说对L4的自动驾驶来说,现在主流的一个技术方案就是就是局部端到端就大规大感知和大规划这样两个阶段。然后中间还是通过这种mass message来进行通信。 发言人2 05:22 然后F4级的这种副驾驶它世界模型它起到的一个作用,它主要是基于我们搭建的一个这样的一个虚完全虚拟的这样的一个环境。这个环境它主要用来有两方面的作用。第一方面它可以因为对自动驾驶来说,它就比较可以说是最难的一点。就是我们就就是我们需要保证它的安全性的。保证它的安全性的话,我们需要大量的测试,就比如我们更新的一个模型,或者甚至更新的一种策略。我们需要最传统的一种测试方案的,就是我们需要去路测。那这个时候它的成本是非常高的。有可能更新就算法迭代可能要一周,再更新就是路测可能要一个月。 发言人2 06:04 但这个时候如果有世界模型的话,因为我们在虚拟的环境下搭建了一个这种用数字孪生,或者说这种模仿学习的更深。我们如果能完全搭建一个和世真实世界一样的这种环境的话,他那么他的我们就可以在虚拟环境中,就是在电脑上可以24小时,并且还可以这种横向扩展。我们可以多台后面有一个仿真的集群,我们可以在仿真集群里面并行的这样的跑,我们可以很快达到这样的测试异常。 发言人2 06:30 对,这个第一个问题就是他第一个就是视野模型给我们自动驾驶带来的第一个好处,就是它可以大大的缩短我们测试里程。然后第二个好处就是它可以为我们的算法提供这种数据。因为我们就是在仿真的过程中发现了这样的话,那我们可以很可以很快的转化到我们的算法的数据集里面。然后通过这个方式来迭代这样的模型,来驱动我们模型的一个进度。对像对现在的这种主流的这样的技术方案,大概就是这么三种。 发言人1 07:07 明白,这块您讲。好的,然后我主要还想问一下,现在那个特斯拉做的那一套,他目前我不知道你有没有了解他他目前有用到这个仿真数据?然后具体的一些训练的细节,包括他是可能纯粹的端到端。他跟我们去比较的话,这个优劣势。 发言人2 07:32 其实我们之前也在尝试过,就是那种完全的端到一段式的端到端。但那种方式它有一些,首先说它一个就是它的优势是什么呢?它的优势就是它的响应会更快。就因为我们这种message之间还是 有message这样通信的话,它就是通过这内存来交换数据,它是比较慢的。所以说这种纯就一段式的通用端,它完全通过这种神经网络来交换数据,它的它的效率也会非常高。也就它体现在我们在车端的响应会非常及时,这是它最大的一个好处。但还有第二个好处,有的话就是说比如有一个有些场景它可能不是单独一个模块,去单独一个模块就产生的话,可能是多个模块就是需要多个模块联合来解决。 发言人2 08:18 对,这他两个他的两个优势,但是它的劣势是什么呢?首先第一点,我们训练的时候就会非常复杂。它的一站式的端,比如说我们只需要传感器数据,他这边可能只需要开放数据,就是摄像头的数据。然后它就直接有什么网络,有网络的一些信息来直接输出,就是这个油门、刹车、转向。这个时候首先我们的网络会非常的庞大,但是这种监督也非常的不好构造。因为我们正常的监督其实还算信息的。但这个时候你如果是使用别的刹车转向,这时候数据采集这些,其实它的标注这些其实都会有很大的这种难度,这是第一点,就是逊模型训练的时候不是很好训练。 发言人2 08:58 然后第二点,其实也就是说为什么我们在PNC那里没有用这个模型,没有更多的模型来驱动它的一个原因,就是我们训练其实和推理其实这里面你可以看出来,其实它是有gap。就是训练我们用真实环境中采集回来的数据来进行训练被监督,并且他的label信息也是环境给采集回来的。但是我们在真正模型被车入户,就是我们在我们就几个推,其实体现在自动驾驶里面的话。自动驾驶在运行过程中,其实就是车在跑的时候,这个时候他模型输出的结果其实他又交给了模型。这个是我们其实管它叫一个智慧,就是auto vibration。 发言人2 09:37 这个时候在第二步,在下在他下一步之后的每一个过程,它都是模型输出的结果,就交给了模型。但是这个时候其实就是模型的输入。其实我们在训练的时候,其实这部分数据其实是没见过的。那么这个时候它就会产生一个问题,就是如果有一帧数据我们产生了偏差。假如我们的这个模型焦虑这个偏差如果是比较大的话,这个其实不大。它就是这个偏差它会累积,它会在我们的模型中一直累积下去。除非有一个就是有一步它能把这个误差累积,把它就偏回来纠偏回来之后,才能回到一个正常的一个轨迹上。 发言人2 10:14 其实这里面一个最最本质的一个问题,就是我们通过我们的神经网络,它是怎么产生的?就是他能做什么事,让他做的事情就是我们在训练的过就是在训练集里面就是把我们其实这神经网它想起来,它就是一个曲线拟合的一个过程。如果这部分数据我们没有见到的时候,其实神经网络它会取一个他认为正常的一个结果。但这个结果如果我们没有监督他的话,就我们没有在训练的时候,就是你和他的话,这时候其实非常危险的一个行为。 发言人1 10:44 专家你好,能不能举几个例子,就是在什么情况下你们会表现的比特斯拉那套更好?在什么情况下特别会出问题,容易出问题的这个场景是哪种? 发言人1 11:04 对,就是你们现在可能比如说像国内小马做的这个国内的L4,然后跟特斯拉做的,就是你有就是你你们优秀的点在哪里?就在会在哪些场景会表现更好呢? 发言人2 11:19 对,其实特斯拉的这种自动驾驶的,其实就我们L4的就这些玩家来看起来,其实就并没有认为特斯拉已经进入到了L四的这个行业里。所以其实除了它更多的还是L二级的自动驾驶。这个我补充一下。对,所以可能业界里面对他的这个对,应该说他期待比较高,但是它的更多的是在美国那种比较规范的那个路段上,它的行驶会就比较好一些。对。然后在国内来看的话,其实它就不一定能打得过国内的这样的vivo,或者就是百度。 发言人2 11:54 光有这样的一些公司,如果是哪些表现更好的话,就可以举一些比较简单的,比较常见的一些例子。就比如首先有一个驾驶舒适性的,我们会其实驾驶舒适性主要体现在就是刹车想起步这两个阶段。那么我们这边就可以对于这两个,因为这两个阶段其实也是你家长场景中就一定会听到的,一定就尽力了。这时候我们会采用专门的这样的一些优化算法,然后是来保证有乘客他感受不到现在它加速度的这样的一个变化。 发言人2 12:26 然后如果我们用模型来学习的话,其实这个就很难。因为我们模型它它的首先它来自于人类的数据,我们就是通过这种规则来驱动它天生就是比人类的这种假心理它会更好的。因为完全的拟合就是使用最优的那个算法拟合的,这时候人类其实很难去讲开出这样的感觉。 发言人2 12:47 然后第二个这个其实还好,就是它更多的体现在舒适性。我们其实更担心的就是一些安全性。对,就比如一些比较复杂的这样一些路况上的话。首先如果我们用一些交通交交通规则,我们是一定是需要一定要必须遵守的这样的一些规则。然后我们这边如果是用规则来进行控制的话,它会你这个他他遵守的肯定会更好。但如果我们用模型去控制,就是用那个端端模型去控制的话,他对这种有法规的遵守,然后我们这边进行会进行过一些测试。 发言人2 13:24 其实他并没有表现那么好,因为他经常会出现一些比如闯红灯这样一个情况,并且他比如说一些复杂的路口,它会会停在这路口中间,然后他就不是很不知道怎么怎么去前进这样一些情况。其实这这个这个主要对比的就是这个PNC这边的节点。对,并且还有一些拐弯的这样的一些场景,比如有一些有些急弯,然后我们这边会就通过观察一些路径,规划出一条非常平滑