第七届国际丝路新能源与智能网联汽车大会9月23日|西安 目录 1 ChatGPT与AI大模型 2 AI大模型在汽车业的应用 3 AI大模型对汽车产业链的影响 ChatGPT,突然出现的爆款 2022年11月,美国科技公司Open AI发布ChatGPT,因能很好地与人实现互动而迅速成为爆款产品:上线5天用户过100万,2个月后用户就突破1亿,成为历史上用户数增长最快的消费者应用。 ChatGPT可回复自然语言输入的问题 ChatGPT成功关键之一:大参数 ChatGPT(Chat Generative Pre-trained Transformer),是一种适用于自然语言交流的人工智能大模型,它成功的关键之一,是OpenAI使用了海量数据进行预训练。5年间,GPT的参数量已从亿级飙升至万亿级。 ChatGPT成功关键之二:新模型 ChatGPT取得成功的另一个关键,是使用了Transformer模型。该模型采用自注意力(self-attention)机制,其优点在于并行度高,可一次性处理所有输入数据,使ChatGPT能对词语序列的概率分布进行建模,利用上下文信息预测后续词语出现的概率分布。 三种常见模型的特点对比 RNN模型无法进行并行计算,效率严重受限。 Tf模型可找到更泛华的相似规律,或者说,它的联想能力更强。 CNN模型只能对标注过的物体进行相似度的比对 资料来源:《动手学深度学习》(李沐) Tf模型的另一个重要用处:计算机视觉 2020年,微软亚洲研究院首次将Tf模型应用于图像分类任务,在评测中实现88.55%的准确率。而且Tf模型在数据量越大的情况下表现越好,特别适用于自动驾驶这类大规模数据训练场景。 目录 1 ChatGPT与AI大模型 2 AI大模型在汽车业的应用 3 AI大模型对汽车产业链的影响 自动驾驶近年来一直未能进入L3时代 自动驾驶是过去10年最火热的赛道,但直到2022年才有部分企业推出具备L3级功能的车型。究其原因,除法规发展落后于产业发展外,很重要的一点在于自动驾驶系统积累的数据量还不够,存在安全隐患。 为解决长尾问题,测试数据需达10亿~1000亿公里 道路交通具有场景复杂、参与者多、场景异质性强等特点,存在大量不可预见性。为避免长尾问题,厂商需要对车辆自动驾驶系统进行大量测试,以确保尽可能多地覆盖场景,但也会带来成本的大幅增加。 业界对L4级别自动驾驶所需测试数据的预估 100亿公里 马斯克曾在推特点赞了这样的观点:实现超越人类的自动驾驶能力至少需要100亿公里驾驶数据。 1000亿公里 自动驾驶初创公司MOMENTA在其公众号上提出:要实现L4级驾驶,至少需要千亿公里驾驶数据。 2400亿 我国2022年公里旅客运输周转量 AI大模型将从根本上改变自动驾驶产业的发展 人工智能大模型在汽车业的应用,首推它对自动驾驶的赋能,主要体现为城市导航辅助驾驶系统(城市NOA)的量产应用上。从2022年Q3起,国内外智能汽车头部企业开始应用投放各自的城市NOA系统。 要实现NOA对智能传感器硬件要求很高 硬件配置方面,需要车辆使用满足L3级自动驾驶功能的智能化传感器,如摄像头、激光雷达、毫米波雷达等,能实时感知各类路面情况;还需要车辆的自动驾驶芯片有足够高的算力,能在毫秒之内识别信息,并提出应对策略。 无论是多传感器融合派厂商,还是视觉派厂商,都大量使用智能化传感器,他们是实现NOA的必要条件。 要实现NOA还需要高水平算法的支持 厂商要搭建起高效的算法模型,开发的系统既要能精准识别并处理各传感器获得的数据,还要能有效应对模型未考虑到的长尾问题。这大大增加了系统所需数据量,增加了开发难度。 特斯拉的NOA系统不仅能规划车辆行进路线等,还会实时提供预警信息,并能主动停止可能导致危险发生的并线等行为。 小鹏汽车开发的城市NGP的代码量、感知模型数量、预测/规划/控制相关代码量,分别是其高速NGP是6倍、4倍和88倍。 特斯拉率先在汽车业应用AI大模型 2021年,特斯拉在其AIDay上宣布将基于BEV+Tf架构开发其新版的完全自动驾驶系统(FSD),并于当年开始重新编写底层代码,成为在汽车业第一个使用AI大模型的主流厂商。 上图:摄像头获得的车辆左、中、右三方的感知结果(即路况)。 下图:BEV+Tf架构下,特斯拉自动驾驶软件对上图感知结果进行融合后的效果。 传统的自动驾驶算法是基于规则开发的 传统算法将自动驾驶系统划分为感知、规划、控制等3大块,每个部分又可细分为不同的模块和子模块。每个模块各司其职,有着独立且明确的目标。 传统的自动驾驶算法框架 控制模块的作用是操纵车辆,协调车辆的动力系统、制动系统等,按照规划模块输入行进规划,实施驾驶行为。 规划模块的作用主要是根据车辆实际行驶时面临的实时交通环境,生成对应的行进规划,如跟车、加速、换道、制动等。 感知模块的作用主要有3点:•识别周边物体, •检测交通信号,•明确物体坐标, 基于数据的AI大模型将彻底改变自动驾驶算法的底层逻辑 应用AI大模型后,自动驾驶算法的底层逻辑将变成“场景→车辆控制”的端到端模型,将感知、规划和控制环节一体化,传感器采集到的信息直接输入神经网络,经过处理后直接输出自动驾驶的驾驶命令,不存在各子模块目标与总系统目标存在偏差的情况,保证效益最大化。当前,端到端模型暂时只被用于感知系统。 鸟瞰图,一种新的融合算法 鸟瞰图(BEV,Bird‘sEyeView),是利用算法将各传感器获取的二维信号转换成类似直升机俯视视角的三维坐标,可在感知算法的层面实现端到端的架构开发。 优点 ⚫通过融合多个视角解决遮挡和物体重叠问题,解决多传感器融合问题,方便下游任务共享图像特征;⚫在BEV视角下没有物体变形问题,使得模型集中精力解决分类问题;⚫能够把传统感知方案中3D目标检测、障碍物实例分割、车道线分割、轨迹预测等多项任务在一个算法框架内实现,大幅减少人力需求,提升算法开发效率。 缺点 ⚫鸟瞰图是基于2D信号合成的,缺少高度信息,无法真实反映出物体在3D空间实际的占用体积是多少。为解决这一问题,算法通过矩形框进行标记,这导致了细节损失。 ⚫对于未被预训练过的物体,系统无法识别。 占用网络感知技术,特斯拉给BEV算法打的补丁 2022年,特斯拉推出Occupancy Networks(占用网络)感知技术,通过算法对物理世界进行数据化和泛化建模,在3D空间上测出不同物体的高度,赋予鸟瞰图算法高度信息。 基本的思想是将三维空间分成若干个网格,再去预测每个网格被占用的概率,无需考虑这个物体到底是什么,只考虑网格是否被占用。 摆脱了神经网络算法需先“认识”才能“识别”的特性,大大增强了对不规则外形障碍物的感知能力,大幅提升了模型的泛化能力。 AI大模型可以大大降低自动驾驶成本 自动驾驶感知模块有视觉派、融合派2种技术路线,前者以摄像头为主传感器,后者以激光雷达为主传感器。应用AI大模型降低了硬件的要求,及软件开发的成本。 AI大模型对自动驾驶成本的影响 毫末智行:单张图的标注成本从5元下降到0.5元,成本下降90%。小鹏汽车:2000人年的标注量,可在16.7天完成,效率提升4.5万倍。 ⚫车载感知硬件成本降低。⚫自动标注的效率提升,带动成本大幅度下降。 特斯拉坚持走视觉路线,其Model3应用的是8个摄像头+1个毫米波雷达的配置方案。 特斯拉FSDV12利用了1.4万个GPU训练集群支持AI大模型运算,特斯拉预期其算力规模会在2024年2月进入全球前五。 ⚫大模型的开发成本。⚫厂商需要新增大量云端算力。 大多数厂商选择多传感器融合路线,以激光雷达为主传感器,辅之以摄像头、毫米波雷达等。 图片来源:特斯拉、毫末智行 AI大模型可大幅减少长尾效应,提高自动驾驶安全性 由于基于规则的算法泛化性不足、仍面临诸多长尾问题,目前完善算法的方式是“打补丁”,又会导致最终代码量庞大且难以维护。AI大模型具备更强的泛化能力,可大幅度减少长尾效应,大大提升安全性。 汽车的 自动驾驶能力的提升需要大量算法训练,除真实场景外,需模拟出大量仿真场景做补充。如果仅凭借工程师的理解设计仿真场景,能模拟的场景数量有限。 传统自动驾驶方案依靠贴标签的方式挖掘长尾数据,通常仅能识别已知的图像类别。 而大模型可通过文本将收集到的图像进行相关性分类,并依照文本描述检索图像,因此有较强的泛化性。 而大模型的应用将使自动泛化成为可能,生成仿生场景数据的效率提升,进而加速模型迭代。 AI大模型驱动下,L3级自动驾驶的安全性已高于人 2021年,特斯拉开始应用大模型重构自动驾驶软件,当年7月推送的FSD Beta V9是大模型算法下的版本。2022年的实际测试显示,特斯拉L3级自动驾驶系统FSD的安全性能已高于人。 FSD已具备高于人驾驶的安全性 100亿公里 马斯克曾在推特点赞了这样的观点:实现超越人类的自动驾驶能力至少需要100亿公里驾驶数据。 1000亿公里 2022年,特斯拉的自动驾驶算法已全面切换到AI大模型。 自动驾驶初创公司MOMENTA在其公众号上提出:要实现L4级驾驶,至少需要千亿公里驾驶数据。 新版FSD的事故率,每行驶百万英里(主要是非高速公路)发生事故的次数是0.31。 NHTSA的数据,美国所有车辆每行驶百万英里发生事故的次数是1.53,是FSD的4.9倍。 目录 1 ChatGPT与AI大模型 2 AI大模型在汽车业的应用 3 AI大模型对汽车产业链的影响 软件定义汽车有了新的含义 软件定义汽车的概念近年来逐步被业界接受,但更多的还是从产品开发的角度,强调要重视软件的功能、作用与价值。随着大模型得到更多的应用,软件定义汽车的内涵有了新的变化,后续可能是“数据定义汽车”。 产品开发过程,要从此前的重视硬件转向重视软件;整车由硬件主导转向软件主导。 软件功能的不断增加将推动汽车软件的市场规模将不断扩大,成为产业新的增长极。 数据驱动时代,对算力的要求更高 自动驾驶功能的不断升级,对车用芯片算力的要求越来越高,用户需求倒逼上游企业开发出集合AI加速器的系统级芯片(SoC),提升车辆的算力。今后的算力将来到云端,对整车厂商提出更高要求。 2021年,蔚来发布新车ET7,该车使用的超算平台NIOAdam,配备由四颗英伟达DriveOrin芯片,平台总算力高达1016TOPS,超过特斯拉发布的FSD平台算力的7倍。 为更好地训练FSD,特斯拉AI计算中心Dojo总计使用了1.4万个英伟达的GPU来训练AI模型,使用了14亿帧画面训练一个神经网络,对应的是10万个GPU工时。 激光雷达的重要性大幅度下降 激光雷达具有直接、稳定、精确测量的优点,可以直接感知夜间暗光场景、炫光场景、以及一些视觉算法无法识别的情况,具有兜底的能力。但在新的算法下,它的这些特点可由4D毫米波雷达提供。 与激 光雷达相 比,它成本更低,探测距 离300~350m,并支持全天候工作。 拥有更精确的分辨率、高度感知信息等优势,可有效识别静态的障碍物与静态物品。 4D毫米波雷达可以提供高质量的点云数据,前向4D成像雷达角分辨率可达1°方位角和2°俯仰角。这种特性使车、人的反射点将不再只是一个简单的点,而是成百上千的点组合的图象,从而显示出整个物体轮廓。 高精地图不再不可或缺 高精地图包含道路形状、道路标记、交通标志和障碍物等更细致的地图元素,可帮助车辆其探查传感器未收集到的道路信息。但AI大模型可以让车辆实施生成活地图,补足了自动驾驶后续决策所需要的道路拓扑信息,因而可以实现去高精度地图化。 优点:精度更高,地图元素更丰富可提供超视距、厘米级定位。缺点:成本高(图商开发费用数千万元)更新难度大(涉及道路敏感信息) 其主要的思路是在原有硬件基础上,推出新的视觉感知架构