
生成式AI在智能驾驶中的运用 首先是ChatGPT在智能驾驶中的一个应用,ChatGPT这一波,其实从2022年开始到现在,目前也是处于比较火的状态。 我们认为GPT目前在汽车专业的应用主要存在两点问题。第一点就是因为GPT是属于一种通用化的模型,我们需要单独针对车端去做模型的训练,然后去做特殊化场景的一些case的训练和部署,这个过程其实会持续一段时间。 第二个就是目前车端的算力芯片还无法去支持大模型在车端去做推理和实质性任务,目前在智驾方面其实这一块还是不太行。但是在座舱这边的话,我们估计2024年会有一些车企会去将像文心一言或者是星火大模型做了裁剪之后去部署到车上。 可以先看一下大模型在应用过程中具体怎么去用。首先我们会以目前开放的一个大模型作为例子来讲解,我们现在做的工作其实和现在的这套流程是差不多的,拿DriveGPT来说,大模型的输入就是历史的场景序列,我们会把这个场景的一些序列生成Token,通过大模型生成场景和概率,这是一整个过程。 这过程中有三个点是需要着重考虑。第一,我们会去生成多序列化的一些场景 ,多序列化的场景是现在重点关注的一个点,会去生成多个平行宇宙,然后去考虑多个可能会出现的场景,然后做处理。第二,对于未来轨迹的预测是比较重要的,这个轨迹预测现在对于规控方面的体验是比较重要的。第三,就是决策推理输出,后面也会讲。 看一下这是怎么一个过程,就是说从车端拿到数据之后,然后传到云里面去,大模型的一个核心点就是在Pre-training网络里面去,我们叫预训练模型。大模型的参数量很大,由于Pre-trainmodel的网络参数是比较多的,那么车专用的话一般会用一个千亿级别的,我们用千亿级别的网络去训练是比较合理的参数量,而且它是保证实用性同时,这种车端算力芯片也可以推起来。 大模型的第二核心点是RLHF,就是我们叫人工反馈的强化学习的网络,是这两块网络构成了我们现在大模型的重点。后面就是神经网络的基本的操作,比如说像计算Loss函数,反向传播,最后更新这样一个过程。这就是目前整个大模型应用到车上的一个思路。 然后我们开始讲感知这块技术,感知这边需要一个专家网络,这也是现在大模型的一个核心。现阶段其实还是对某一模态的不同特征值需要匹配多个专业网络,那么像现在的Transformer架构实际推理过程中,需要根据所有的数据,然后去给出结果,去实现多模态处理。现在车端应用的传输并不是在训练中看到的Transformer,它是需要针对不同传感器的专家级网络,提取出特征来之后再进行融合处理。 比如说现在的激光雷达,很多摄像头,包括对于Hdmap就这种无地图方案的图层,像应用信息这些,我们会先去做专家网络去进行训练,提取出来之后,再利用Transformer去做,目前是这样一个过程。那么现在你像OEM像新势力车厂,像Tier1这些企业,都是用这方法去做,对于整个感知的提升是比较大的。 后面是大模型对感知处理的提升,提升在哪里呢?首先,对于障碍物、车道线 、自测轨迹的这些感知,其实是比较基础的模块。我们只要是做感知,其实都需要这个模块。后边其实它融入了导航意图,导航意图既包括我们的地图的一些信息,它里面其实更重要的一个点是它需要去对融入惯导的信息,惯导指标对于整个轨迹的预测,以及障碍物的轨迹的输出是非常重要的。所以说导航意图我们觉得在大模型里面其实加进来也是非常重要的,对支撑轨迹的预测信息其实也是在大模型的处理过程中非常重要的一个数据。 看一下感知端的第二阶段,其实现在感知训练多模态生成信息比较少,大模型可以解决这个问题,怎么理解?比如说我们现在做感知的时候,其实不太会关注环境的信息,比如说对于环境的语义识别其实是比较弱的,这个问题我们可以联想成这样一个情况去解释。 就是说我们人类开车的时候,我们会去看,比如说右下角有骑自行车这个女的 ,因为在雪天对于她的预测轨迹和正常天气情况下相比是不一样的。目前车其实对于天气情况,包括对于环境的语义信息的识别,是几乎没有做的,所以对目前的预测和分析来看,都是比较传统、比较原始的一些方法在做。现在是第二阶段,就是说我们引入大模型之后,可以对车载的一个ODD环境,就是我当前处于一个什么样的环境,有更好的语义的识别和分析,这个也是现在我们大模型的优势所在,它对于环境的解析是非常强的。 还有障碍物的泛化能力,像我们刚才举的这个例子,像这个图片里面右下角骑自行车这个女生,目前会把它当成自行车类别进行处理,就会忽略人这个因素 。使用大模型之后,会去把感知目标的细节特征更好的表述出来。比如说我们现在把它当成一个自行车类,那么使用大模型之后,语义信息会理解为一个骑着自行车的女人,甚至年龄特征,比如骑着自行车的一个中年女性这种,会去让信息更加丰富。 信息越丰富,对于这个障碍物未来的运动状态的估计会更加准确,这是整体感知能力提升的一个很重要的点,就是对语义信息的理解和处理,这个就是大模型的天然的能力。我们估计这个stage2它现在对语义信息的理解,还是处于不是很强的状态,估计3年以内会有比较多的厂商引入这项技术。 现在雷达、摄像头这些数据,其实都是经过算法厂商去处理过的,因为它有一些原始数据已经被过滤了,不利于后面做开发。所以说我们觉得未来可以通过最原始的信号,比如说摄像头直接输入光缆信号,像毫米波雷达直接输入雷达的一些射频信息,它就可以真正做到输入进去之后,从感知端是拿到最原始的数据,效果会更好一些,但是这是一个比较长远的计划,就类似于第一性原理的理解。 我们讲完了感知的路线。总结一下感知,其实目前大模型上车来看,现在其实在后端训练是做的比较好的,但是对于我们车端算力,就是你要把它部署到车端的话,目前还是比较困难的,大模型对于感知会有一个提升。我们现在感知可能会做到80分,那么大模型提升之后会做到95分,这样会有一个比较大提升 。 第二个就是说我觉得在智能驾驶过程中,决策技术对生成式AI的需求是很大的 。现在L2还有我们叫L2+的这些辅助驾驶技术,它现在是一个怎么样的决策的策略?就是Rulebased的模式。是基于规则去做决策,现在设计一大堆状态机 ,比如说现在是保持车道,那么向左换道、向右换道,整个决策过程它要满足一些要求,比如说要满足这个车不能离我太远,我右边这个目标车它在我后边 ,你看离我多少米,行驶趋势是什么,要满足条件之后才会去换道。 对于一些简单的道路产品来说是没有问题的。但是后面你像L3级以上技术的话 ,现在叫Samplingbased或者Interactionawareness,就是会去建立和别的车辆的一些交互情况,去判断交互对的一些情况,然后再去做处理,这种方式其实更贴近于我们人类开车的一个习惯。 这目前来说是一个趋势,但是有问题在哪?数学模型计算这个东西。第一,它是有一定的概率分布区间,就是说也可能会有些case解决不了。第二,这个方式非常消耗算力,目前我们推测下来,用英伟达的话就是这种方式,它大概要吃掉1-2个盒的60~70%的CPU资源,这一块其实还是比较消耗算力的。 生成式AI就可以解决我们刚才说的那几个问题。那么第一个难题就是说规则写死了,那么包括要换车型,车长、车宽稍微变一变,就要重新调整参数,所以它的泛化能力很差。 第二,我们刚才讲到交互式模型的话,你像有一些复杂场景它也解决不了,决策这一块大模型我们觉得可以分成两步做。 第一块就是说它会和特斯拉的模式比较像,通过学习人类优秀驾驶员的思路然后去处理,它里面可以结合环境与信息进行推理。特斯拉其实现在在场景的分析能力方面还是比较弱的,所以说生成式AI其实对我刚才讲的产品的理解能力和推广能力是更强的,不受传统的约束。 第二个就是说现在的一些交互模型,像我们刚才讲的,路上开车需要和我们旁边的车、行人、自行车做一个交互,可以进行一个强关联推算,解决刚才提到的一些复杂动态场景的问题。大模型它其实在对这种场景做设计交互对的一个生成,还有对这种场景的一个理解和处理方面,现在比这种用数学的方式要好很多了。我们估计未来3-5年之内,国内会有非常多的厂商会使用这种模式。 第二个阶段就是做一个强人类决策。怎么讲,就是说现在有很多决策的问题,像人类中会有一些错误决策或者是非及时决策,比如说今天被追尾了,那么在追尾这个过程,在它的算法里面表现出来就是说我的博弈失败了,或者是说我和他追尾了,但是我当时没有响应这两类问题。我们可以把这两类问题整理成一个类似于剧本的东西,就告诉他以后碰到这种情况可以这样去做,这样一种策略,然后去保证我们的一个决策是正常且效果更好的。 这个是决策这边有两个过程。既要保证决策是具有大模型的一些优秀特征,如高效性、多样性、发散能力强,同时要保证AI输出结果具有可解释性。因为决策这边它牵扯到很多伦理和安全性问题,所以说现在设计一些策略,那么决策之后它会生成多个决策序列。 我们后面会去做这种规则,这个规则里面包括一些底层的约束规则,比如说有的决策它的加速度太大,影响舒适性;有的决策不满足一般安全性的要求。所以我们会把它做相关的一些约束,然后会设计一些条件,比如说c>b、d>a这种类似的规划约束,然后去反馈过来生成决策。 我们觉得以后可能在决策模块会做一些事情,像底层决策模型的话,我们这边会做一些常规的约束,比如说加速或者是变道的时候车速不能超过多少这种常规的约束,然后这种传统交互模型,比如说像这种高速公路的这些简单的产品 ,可以用传统的一些模型去解决。 后边在一些复杂的case,会通过生成式AI去生成一个顶层的决策逻辑,然后去解决。比如说在城市里行驶,然后周围都是车,想办法去离开这个场景,或者是要去换道,还是说接着跟着车,这些复杂场景或是一些人类都不好做决策的场景,就会交给他来去做。 这个是关于场景模拟这一块,那么场景模拟现在应用需求也比较大,现在包括我们自己也有一些合成数据的需求,这一块你可以简单理解为是对合成数据的一个延伸和拓展。 生成式AI对产品模拟的数据这一块其实有很大的帮助。像我们现在这个需求来源是什么?第一是因为现在我们和主机厂合作的话,数据归属权是属于主机厂的,那么它只有在一些解决不了的问题或者是复杂case的一些情况下,才会把一些数据传给我们,可以拿过去做训练。做感知,包括做一些数据的闭环,它是需要大量数据去支撑做这个事。所以我们现在其实对合成数据要求比较大,我们这块就准备一些场景模拟做一些合成数据出来,也是能够处理大部分场景 。 第二就是Cornercase的一些需求,现在Cornercase其实就是我刚才说的那些复杂场景,那么不光这些复杂场景,还有一些你没见过但是你能想到的一些场景,通过场景模拟也可以处理掉,这个就是现在大模型在场景模拟应用的一个意义所在。 我们现在在做一些工作,现在做仿真一般是用Unity引擎上的场景,然后我们去做数据闭环。还有就是像刚才讲cornercase,就是像现在这种比较少见的一些场景,像侧翻车辆场景,我们可以通过生成式AI来做,比如说针对生成式场景做相关的应用,比如说在前方3米处生成一个长5米高3米,侧翻30度一个车,他会去帮你去生成这个场景,然后用进去,然后可以去做这种case的处理,对于cornercase的解决能力和提升是比较大的。 第三个就是说对于复杂环境场景,比如说像不常见或者即将测试的复杂场景,比如说OEM要去黑河做冬季测试,做这个测试就是说实验环境的搭建,可以先在生成式AI环境里面去做搭建。其实技术关键的应用的难点在于他对你怎么去用语义描述出机器可以理解的场景,而且生成和还原这个场景,这个过程是比较困难的,所以我们对5年以内这块技术应用比较迫切。 后面是对数据标注方面的技术需求,这一块其实现在像毫末、商汤大模型对这块都有应用,现在其实85%的数据是自动化标注。类型标注、置信度这些信息都是可以做的,剩下15%大概是需要人工的一个修正和标注。现在标注的成本也是比较高,像自动化标注的话,一张图片标好的话可能得几毛钱,人工修正的