AI智能总结
国投证券研究中心汽车团队分析师:徐慧雄S1450520040002分析师:李泽S1450523040001联系人:者斯琪S1450123070037 行业评级:领先大市-A 1、技术角度:特斯拉端到端打开智驾新高度,中美智驾阶段性脱钩 1.12022-2023:特斯拉引领下感知技术收敛,国内头部厂商城市NOA功能开始落地 2020-2022年间特斯拉在北美提出并成功验证了“BEV+Occupancy”感知架构,国内厂商从2022/2023开始陆续跟随: •BEV鸟瞰图解决了此前落地城市NOA功能过程中对高精度地图强依赖的问题。2021年AI DAY,特斯拉提出以Transformer为主干网络的BEV空间构建方式,也即通过Transformer模型将多视角图像信息重建至向量空间下,且该向量空间在大模型的加持下拥有更高的环境感知精度,从而降低对高精度地图的依赖。 •Occupancy则在2D BEV的基础上增强对于物体高度信息的感知,有效解决了对于异形障碍物识别的问题。Occupancy占用网络的核心思想在于将三维空间划分为无数个微小立方体,面对障碍物时“不再考虑这个物体到底是什么,只考虑对应区域的微小立方体是否被占用”。 国内厂商陆续跟随特斯拉BEV+Occupancy网络架构 特斯拉 算法架构向神经网络升级,提出九头蛇算法,探索基于后融合的BEV感知开始聚焦纯视觉自动驾驶 FSD V10,特斯拉召开第二届AI Day,公布Occupancy网络架构 FSD V9,第一届AIDay,公布BEV网络架构,城区NOA落地 1.22024:明确端到端为智驾算法迭代方向,但具体技术路线尚未收敛 “端到端”智能驾驶的三层概念 •全局端到端:从传感器输入到控制信号输出(Photon to Control),中间所有步骤都是端到端可导,可进行全局的优化。•模块化端到端:在最终输出控制信号之外,引入一些中间任务的监督。和全局端到端相同的地方在于同样可以进行全局的优化,整个模型可以进行联合训练和调优。•“伪”端到端:在规控端用神经网络替代基于程序员自己写规则的方式,感知大模型网络和规控大模型网络之间不可导。 为什么需要端到端智能驾驶? 对高精度地图的强依赖问题 •规控端仍是主要基于程序员自己写规则的方式,城区场景下仅一个十字路口可能就存在上百种交互情景,靠人类程序员手写规则无法穷尽,造成的结果就是强博弈场景通行效率低。上述三种端到端均可以解决与复杂交通参与者的交互问题。 一般障碍物识别率低的问题 与复杂交通参与者交互问题 •传统分模块的自动驾驶模型架构下,不同模块之间的接口输出结果均基于人工的选择,感知输出的信息都是人工定义的显示抽象(如车道线、障碍物等信息),但现实中可能存在难以充分表达但会影响下游决策的因素。同时模块之间的误差结果会累计,使得最终的输出结果有较大的偏差。针对这个问题只有前两种端到端才可以解决。 1.22024:明确端到端为智驾算法迭代方向,但具体技术路线尚未收敛 1.2.1特斯拉端到端模型上车,FSD体验跨越式提升 模型层面:基于全局端到端自动驾驶模型 目前特斯拉未召开第三届AI Day,行业内尚不知道特斯拉端到端自动驾驶模型具体的网络架构,我们仅能从23年CVPR以及马斯克采访/博文的只言片语中得到一些基本的判断。1)特斯拉端到端模型很可能是基于生成式AI。2)在特斯拉很可能在原有Occupancy模型的基础上构建世界模型,为端到端提供场景演化的理解。 ①特斯拉端到端模型很可能是基于生成式AI 判别式模型vs.生成式模型: 判别式模型:学习输入数据到输出结果的映射关系,需要人工标注的数据进行有监督的训练。之前特斯拉、国内自动驾驶厂商主要采用的就是判别式模型,为了提高效率,特斯拉逐步从人工标注向自动化标注转变。但自动标注过程非常占用算力资源,影响模型的scale up能力。 生成式模型:可以利用自然数据做自监督训练,无需标注,模型的scale up能力大幅提升。比如GPT会读取一段连续的文本,尝试预测这段文本中的下一个词,再比较预测的单词与实际的单词进行迭代优化。 自动驾驶最终任务可以抽象为“生成自车的未来轨迹”,与生成式模型的原理非常类似,且相比于判别式模型,生成式模型在scale up上具备明显的优势,因此我们判断,特斯拉端到端模型很可能是基于生成式AI模型。 1.22024:明确端到端为智驾算法迭代方向,但具体技术路线尚未收敛 模型层面:基于全局端到端自动驾驶模型 ①特斯拉端到端模型很可能是基于生成式AI 以学界OccWorld模型解释生成式AI在自动驾驶模型中的应用:采用类似GPT的生成架构,以自回归方式从先前场景预测下一个场景,实现了对自车运动和周围环境演化的同时建模。 特斯拉FSD V11的算法架构中,已经在Lanes network模型中部分应用了类似的思路:将来自视觉模块和地图模块的所有信息进行编码,类似于语言模型中单词token,再以序列自回归的方式预测节点的位置、属性以及连接关系。 1.22024:明确端到端为智驾算法迭代方向,但具体技术路线尚未收敛 1.2.1特斯拉端到端模型上车,FSD体验跨越式提升 模型层面:基于全局端到端自动驾驶模型 ②特斯拉或在原有Occupancy模型的基础上构建世界模型,为端到端提供场景演化的理解。 什么是世界模型? •world model世界模型的核心任务是预测出未来怎么发展,背后的本质在于模型能够自己习得因果关系。当前神经网络和人类的差距在于,神经网络的预测结果是概率输出,知其然而不知其所以然;而人类可以通过观察、以及通过无监督的方式进行交互来学习积累大量关于物理世界如何运行的常识,这些常识告诉人类什么是合理的、什么是不可能的,因此人类可以通过很少的试验学习新技能,可以预测自身行为的后果。所谓世界模型就是希望神经网络可以同样具备上述的能力。 世界模型和端到端的关系? •在自动驾驶领域引入世界模型意味着对未来场景的模拟和预测,即世界模型为端到端提供场景演化的理解。 资料来源:World Models for Autonomous Driving:An Initial Survey,国投证券研究中心 1.22024:明确端到端为智驾算法迭代方向,但具体技术路线尚未收敛 1.2.1特斯拉端到端模型上车,FSD体验跨越式提升 ②特斯拉或在原有Occupancy模型的基础上构建世界模型,为端到端提供场景演化的理解。 •特斯拉在2023年CVPR上曾展示了对于世界模型的探索:构建向量空间的世界模型特征(一种三维重建方式能描述物理世界的全部特征),所有的智能驾驶任务都可以通过简单地插入(plugging)任务头来实现。 •端到端模型不等于抛弃之前的感知网络架构:特斯拉在2023 CVPR的演讲上曾表示“Occupancy模型实际上具有非常丰富的特征,能够捕捉到我们周围发生的许多事情。整个网络很大一部分就是在构建世界模型特征。” 资料来源:2023 CVPR,国投证券研究中心 1.22024:明确端到端为智驾算法迭代方向,但具体技术路线尚未收敛 1.2.1特斯拉端到端模型上车,FSD体验跨越式提升 数据闭环:数据闭环流程简化,云端算力为数据闭环中最核心的环节 •随着模型架构的改变,数据闭环流程也随之改变。在FSD V11的技术栈下,数据闭环包括数据采集->数据清洗->自动化标注->模拟仿真->云端训练->模型部署等多个环节。若模型架构从判别式模型向生成式模型转变,训练方式从有监督向自监督转变,并省去了复杂的数据清洗和自动化标注环节(仅需要删选出来人类优质的驾驶行为数据即可),数据闭环流程大幅简化。 •云端算力资源的重要性进一步提升。马斯克曾多次在推特上表示“FSD V12端到端模型迭代主要受到云端算力资源的掣肘”。 •特斯拉针对超算中心大幅投入,云端算力快速提升。截至22年AI Day,特斯拉具有1.4万个A100(<5E FLOPS算力),到23年8月马斯克直播时特斯拉已经具备1.6万个A100+1万个H100+Dojo,算力合计超过16E FLOPS,同时马斯克提到特斯拉23/24年对超算中心的年投入都会超过20亿美金。在大幅投入的背景下,特斯拉云端算力快速提升,至24年4月,具有约35EFLOPS云端算力,预计到24年底提升到85E FLOPS。 资料来源:特斯拉AI Day,马斯克直播,特斯拉业绩会等,国投证券研究中心 1.22024:明确端到端为智驾算法迭代方向,但具体技术路线尚未收敛 1.22024:明确端到端为智驾算法迭代方向,但具体技术路线尚未收敛 1.2.1特斯拉端到端模型上车,FSD体验跨越式提升 功能体验层面:相较于V11,FSD V12功能体验跨越式提升,带来近L4的驾驶体验 2.拟人化处理 1.corner case处理 3.行车泊车打通 •到达目的地后靠边停车或自动寻找车位•具备Autopark泊车功能,可实现平行停车等功能•12.4/12.5版本将打通智能召唤等功能。 •能在坑洼地段/减速带减速•可识别地面积水并绕行•对红绿灯、含文字路标等的识别和理解能力增强 •可绕开施工封闭路段•可识别购物车等异形障碍物并绕行•在交通极度复杂路段能根据其他车辆和行人意图进行路径规划 FSD V12绕过水坑 资料来源:X @EdgeCase,X @AIDriver,X @FSDdreams 1.22024:明确端到端为智驾算法迭代方向,但具体技术路线尚未收敛 1.2.2目前国内智驾厂商在研的端到端与特斯拉相差较远 模型层面:国内对端到端的探索主要为模块化端到端和“伪”端到端 •获得2023年CVPR最佳论文奖的《Planning-oriented Autonomous Driving》提出UniAD自动驾驶大模型,以“规划”为目标,利用多组query实现了全栈Transformer的端到端模型。但需要注意的是,UniAD模块之间有明显的区隔,模块之间可导,可实现全局调优。 •UniAD将三大类主任务感知、预测、规划等进一步划分为六小类子任务(目标检测、目标跟踪、场景建图、轨迹预测、栅格预测和路径规划),模型整体由2个感知模块,2个预测模块以及一个规划模块组成. 资料来源:Planning-oriented Autonomous Driving,国投证券研究中心 1.22024:明确端到端为智驾算法迭代方向,但具体技术路线尚未收敛 1.2.2目前国内智驾厂商在研的端到端与特斯拉相差较远 •模型层面:国内对端到端的探索主要为模块化端到端和“伪”端到端 •百度于Apollo Day 2024发布自动驾驶的端到端大模型Apollo ADFM,整体思路与UniAD类似,有明显的模块区隔,但模块之间可导。 •与UniAD的区别在于Apollo ADFM将预测和规划融合在一张网络里,跳出原决策规划任务中阶段性任务,直接生成最终可执行轨迹。 1.22024:明确端到端为智驾算法迭代方向,但具体技术路线尚未收敛 1.2.2目前国内智驾厂商在研的端到端与特斯拉相差较远 模型层面:国内对端到端的探索主要为模块化端到端和“伪”端到端 国内头部智驾主机厂目前在研的“端到端”模型架构仅为在规控端用神经网络模型替代了手写规则,分别实现了感知端到端和规划决策端到端,与特斯拉有本质不同。 •华为ADS 3.0模型架构:感知端基于Occupancy占用网络(取消BEV),将预决策规划融合进一张网(PDP)网络 •小鹏面向全场景智驾的终极架构XBrain:Xnet 2.0(具备空间理解的下一代感知)+XPlanner(规控端神经网络)+More 1.22024:明确端到端为智驾算法迭代方向,但具体技术路线尚未收敛 1.2.2目前国内智驾厂商在研的端到端与特斯拉相差较远 小结: 特斯拉端到端打开智驾新高度,中美智驾阶段