您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华鑫证券]:智能驾驶系列研究(一):从特斯拉视角,看智能驾驶研究框架 - 发现报告

智能驾驶系列研究(一):从特斯拉视角,看智能驾驶研究框架

交运设备2024-06-04林子健、谢孟津华鑫证券嗯***
AI智能总结
查看更多
智能驾驶系列研究(一):从特斯拉视角,看智能驾驶研究框架

投资评级:()报告日期:推荐维持2024年06月04日 ◼分析师:林子健◼SAC编号:S1050523090001◼联系人:谢孟津◼SAC编号:S1050123110012 从特斯拉视角看智能驾驶 核心结论: 第一章:回顾历史,智能驾驶的核心主线是算法的演进史,从2017年至今,在感知侧+规控侧实现算法从规则为主走向端到端。算法方面,2017-2022年,特斯拉在感知侧走向端到端,实现BEV+Transformer+Occupancy。2021-2023年,特斯拉在规控侧从规则走向端到端。数据闭环方面,特斯拉在2022年实现模拟仿真数据、自动标注、云端算力等三个方面的升级。硬件方面,特斯拉从HW1.0升级至HW4.0,期间通过算法升级+自研FSD芯片,实现更为适配智能驾驶进化的硬件体现。 第二章:展望未来,我们认为智能驾驶的算法将走向收敛,核心主线将从算法走向数据闭环。向未来看,我们提出由算法+数据闭环+硬件降本+政策法规四个维度构成的研究框架。围绕这些角度展开,我们提出未来智能驾驶核心的三个趋势:数据竞赛+大模型+任务导向。 第三章:对国内智驾能力的区分,我们提炼四个维度:数据积累能力+智驾好用能力+安全性+舒适性。基于数据闭环(背后竞争要素对应为组织的工程化能力)成为未来核心分水岭,我们认为基于算法来判断各车企领先程度的意义将愈发有限,以对数据为主的跟踪将成为未来判断各车企竞争水平的重要指标。 第四章:智驾下半场是城区NOA,智驾有望在2025H1迎来“好用”拐点。通过复盘高速NOA发展历史,我们总结出高速NOA与城区NOA的两点不同,提出城区NOA发展的三个阶段,判断2025H1有望实现“好用拐点”。 风 险 提 示 ➢智能化落地不及预期;➢技术迭代风险;➢宏观经济波动风险;➢下游需求不及预期的风险。 4.需求:智驾拐点何时来临1.历史:特斯拉视角看智驾演进2.未来:智能驾驶研判框架3.供给:车企智驾能力分析 目录CONTENTS 0 1特斯拉视角:智驾历史复盘 FSD入华落地进入倒计时,从特斯拉视角看智驾 1.1智能驾驶设计理念分类:模块化vs端到端 ➢模块合成式驾驶方法:包含感知、规划决策,执行控制三大模块,通过分别调试每个模块的参数来适应各种各样的驾驶场景。 •(1)感知模块:利用各种传感器来实现对静止环境、行车相关信息及移动障碍物的全面检测和跟踪,进而将场景图像转化为关键感知指标。 ➢端到端智能驾驶方法:端到端智能驾驶方法本质上是使用一个独立系统进行驾驶,通过训练一个深度神经网络从感官输入(如摄像头采集的道路信息)直接映射到驾驶动作。 1.1感知侧走向端到端历程 •1.1.12014-2016年以规则驱动为主 •端到端的设计理念是输入原始数据后,直接反应输出结果,最早可追溯到上世纪80年代。1988年,第一辆端到端驱动的陆军救护车ALVINN,当时还没有出现卷积神经网络CNN,只构建了一个三层可反向传播的全连接神经网络,并在卡内基梅隆大学的校园内以0.5m/s的速度准确的行驶了400米。 图表:规则驱动与数据驱动对比 数据驱动系统 端到端 数据驱动潜力较大,简洁,易于联合训练 资料来源:《ALVINN : An autonomous land vehicle in a neural network》,《基于深度学习的端到端自动驾驶模型研究及仿真》,Building the Software 20 Stack,《End-to-end Autonomous Driving: Challenges and Frontiers》,华鑫证券研究 诚信、专业、稳健、高效 1.1感知侧走向端到端历程 •1.1.1 2014-2016年以规则驱动为主:由Mobileye提供智驾解决方案。早年的特斯拉并没有自研自动驾驶芯片,从2014年开始特斯拉与Mobileye合作,在其量产车型上一直采用Mobileye的EyeQ3技术方案。Mobileye届时的算法主要由规则驱动,以单目相机成像测距为例,通过物体在图像中的像素高度h和焦距f,即可计算出前方车距。 •2016年特斯拉和Mobileye终止合作:①导火索:2016年5月第一起配备Autopilot的ModelS发生致命事故,无法识别白色拖车和天空;②核心原因:Mobileye提供的车企的是一个封闭的黑盒方案,车企不仅不能修改其中的算法,而且还不能与Mobileye共享车辆数据。 1.1感知侧走向端到端历程 •1.1.2感知侧2017-2022走向端到端:Transformer+BEV+Occuopancy的主流架构 •CNN极大提高了机器视觉的识别效率,让机器视觉走向深度神经网络结合的端到端架构成为可能。从机器认识一只狗的过程来类比,此前的DNN网络依赖于先认识狗的每个“细胞”,而CNN则从认识狗的一个部位开始,例如眼睛、耳朵,来判断一只图像为狗,其中涉及到三个主要的不同: •(1)不需要认识图像的全部,识别难度降低;(2)通过局部特征训练出来的神经元,能更好的迁移到其他图像(从认识狗的专家,变成认识耳朵的专家);(3)卷积过程降低了图像特征的维度,减少数据量。 1.1感知侧走向端到端历程 •1.1.2感知侧2017-2022走向端到端:Transformer+BEV+Occuopancy的主流架构 •深入来看,CNN神经网络的效率核心在于卷积+池化的过程。相比全连接DNN神经网络,CNN需要训练的参数数量明显减少。举例来说,一幅像素为1K*1K的图像作为输入,Hiddenlayer有1M节点,仅一层就有10^12个权重需要训练,如果使用CNN网络,采用100*100的卷积核,共使用100个卷积核,输入到Hiddenlayer的参数便降低到了100*100*100=10^6个。 •如果说CNN将管理100人的工作变成管理10个组长,那卷积核就像不同的组长:不同的卷积核代表了不同的特征提取能力。该结构上下层不再直接全部连接,同一层将共用单个或一定数量的卷积核,因此大大减少了训练权重的数量。 资料来源:《丁磊:生成式人工智能》,《深度神经网络的关键技术及其在自动驾驶领域的应用》,华鑫证券研究 诚信、专业、稳健、高效 1.1感知侧走向端到端历程 •1.1.2感知侧2017-2022走向端到端:Transformer+BEV+Occuopancy的主流架构 •2017年AndrejKarpathy加入特斯拉,推动CNN神经网络落地,感知侧端到端拉开序幕。AndrejKarpathy2015年在斯坦福执教,设计并创办了课程卷积神经网络CNN在机器视觉中的应用。 •特斯拉提出Softwate2.0吞噬1.0,CNN网络架构将设计特征的工作从专家交给机器。传统的特征设计往往由特定领域内的专家设计,但当面对复杂任务情景是,专家设计的特征往往存在诸多局限,例如特征本身的有效性、有限性等等。AndrejKarpathy2017年加入特斯拉,推出Software 2.0,提出用2.0(基于CNN神经网络模型)吞噬传统Software1.0(由Python、C++等语言编写的代码)的理念。 1.1感知侧走向端到端历程 •1.1.2感知侧2017-2022走向端到端:Transformer+BEV+Occuopancy的主流架构 •2019年推出HydraNet架构,处理不同的任务。感知侧有许多不同的任务,如果每一项任务都单独使用神经网络,则成本高昂。HydraNet的架构通过一个共享的主干网络backbone,能有效的实现三个方面的优点:(1)特征共享:减少重复的卷积计算,减少主干网的数量;(2)任务解耦:将特定任务与主干分离,能够单独微调任务;(3)能缓存特征,更高效的微调。 1.1感知侧走向端到端历程 •1.1.2感知侧2017-2022走向端到端:Transformer+BEV+Occuopancy的主流架构 •2021年特斯拉提出BEV,从2D图像走向3D空间。相比于传统的2D图像视为BEV的推出克服了传统2D图像存在的几个问题: •(1)2D任务中常见的遮挡或缩放问题,识别遮挡或交叉车辆的场景存在问题。 •(2)将不同视角在BEV下统一表达遵循第一性原理,有利于后续规划控制模块任务。以大货车为例,特斯拉8个摄像头分别观察到了一部分的卡车躯体,每一部分都需要单独对卡车未来的行进路线做出预测,无法准确预测后续路线(每个摄像头只有一部分)。 1.1感知侧走向端到端历程 •实现BEV空间的路径主要分为后融合、前融合与特斯拉采用的特征级融合三种路径,特斯拉使用特征级融合取代传统的后融合策略: •(1)前融合指的直接对数据融合,主要优势在于信息保留度较高,但由于其算力消耗较高,技术难度较大,在行业内极少使用。 •(2)后融合主要基于规则的运算,将2D图片还原到3D空间,但由于转换过程对于前提假设(例如路面水平的假设)并不能在真实世界里时刻满足,所以整体的融合精度偏差。•(3)特斯拉采用特征级融合效果显著:在特征层进行融合,数据损失较少,融合效果更加显著,算力消耗较后融合仍然较大。 特征级融合(中融合)优势:数据损失少、目标特征级信息 使得不同传感器之间融合效果较好劣势:算力消耗大、不同模态间语义差异较大特征级融合方案将不同传感器采集的数据进行特征提取后,再进行融合,其是目前BEV + Transformer架构下,较常用的一种融合方式。 目标级融合(后融合)优势:算法难度低、各传感器之间解 耦性强劣势:关键信息容易丢失、整体融合精度低目标级融合方案采用的算法仍然是基于规则的运算,虽然方案整体的算法开发难度较低,但有效信息容易缺失,易引起感知系统误报、漏报等问题。 资料来源:TeslaAI Day,《Lift, Splat, Shoot: Encoding Images From Arbitrary Camera Rigs by ImplicitlyUnprojectingto 3D》,亿欧智库,华鑫证券研究 诚信、专业、稳健、高效 1.1感知侧走向端到端历程 •Transformer架构中的自注意机制,对实现特征级BEV的适配性更高。Transformer架构核心在于自注意力机制,能计算每个输入元素之间的相关性,相关性较高的元素需要给予更多的注意力。相比于之前的CNN网络有两个更显著的优势: •(1)Transfromer提供全局的感受野,对特征的学习能力更强。视觉任务一个关键的步骤就是要提取像素之间的相关性,普通的CNN是通过卷积核来提取局部的相关性(局部感受野),Transformer因为能对每个元素及其相关性进行考虑,可以提供全局的感受野,因此特征学习能力相比CNN要强很多。 •(2)如果未来进一步考虑以视频作为输入数据的话,其时序数据的特征更加适合采用Transformer来处理,CNN与RNN在考虑输入变量之间相关性能力方面要更弱。 1.1感知侧走向端到端历程 •特斯拉在2021年采用BEV+Transformer架构,采用Top-down方法构建BEV空间:首先在空间中构建一组3D空间网格(Query),接着对相应位置处的二维图像特征进行访问(Key、Value),然后通过多层Transformer与每个图像特征交互,最终获得BEV特征。 资料来源:TeslaAI Day(2021),华鑫证券研究 1.1感知侧走向端到端历程 •现实驾驶情景中,存在大量长尾问题,视觉系统无法“认识”所有的物体。如果看到不属于数据集的物体,或者不规则的长尾数据,仅用传统可能就出现无法检测到的情况。 •为此,特斯拉在2022年推出Ocuupancy占用网络,从识别检测到识别占用。OccupancyNetworks将世界划分为网格单元,然后定义单元是空闲还是被占用,不以认识分类为第一优先级,而以空间占用为主要测量目标,将BEV融合空间从2D升维至3D