您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [未知机构]:ChinaAIDay小米汽车专场端到端全场景智能驾驶20250318 - 发现报告

ChinaAIDay小米汽车专场端到端全场景智能驾驶20250318

2025-03-18 未知机构 阿丁
报告封面

到端全场景智能驾驶到端全场景智能驾驶20250318_导读导读 2025年03月18日21:06 关键词关键词 小米汽车自动驾驶机器人端到端深度神经网络物理世界建模智能驾驶系统工程落地优化持续演进传感器激光雷达数据驱动模型泛化全场景支架隐私特征显示符号层时序建模 全文摘要全文摘要 小米汽车自2021年立项以来,聚焦智能驾驶技术的研发与应用。其重点在于“端到端”全场景智能驾驶技术,这是一种深度神经网络驱动的技术,旨在实现车辆在复杂环境下的自主驾驶,覆盖从车位启动到高速领航的全系列场景。为了提升车辆在物理世界的适应能力,团队强调了对现实世界的直接探索,通过车辆传感器和执行器收集多元数据,不断优化AI模型。 China AI Day:小米汽车专场:小米汽车专场——端端 到端全场景智能驾驶到端全场景智能驾驶20250318_导读导读 2025年03月18日21:06 关键词关键词 小米汽车自动驾驶机器人端到端深度神经网络物理世界建模智能驾驶系统工程落地优化持续演进传感器激光雷达数据驱动模型泛化全场景支架隐私特征显示符号层时序建模 全文摘要全文摘要 小米汽车自2021年立项以来,聚焦智能驾驶技术的研发与应用。其重点在于“端到端”全场景智能驾驶技术,这是一种深度神经网络驱动的技术,旨在实现车辆在复杂环境下的自主驾驶,覆盖从车位启动到高速领航的全系列场景。为了提升车辆在物理世界的适应能力,团队强调了对现实世界的直接探索,通过车辆传感器和执行器收集多元数据,不断优化AI模型。经过努力,小米汽车已从单一功能向全面智能驾驶解决方案的转变,展示了其在自动驾驶领域的持续创新和进步。 章节速览章节速览 ● 00:00小米汽车端到端全场景智能驾驶系统解析小米汽车端到端全场景智能驾驶系统解析介绍了小米汽车自动驾驶与机器人团队在端到端全场景智能驾驶技术上的研发与应用。重点讨论了端到端技术区 别于传统模块化架构的优势,以及如何通过深度神经网络建模实现从感知到控制的全链条智能化。此外,还阐述了全场景智能驾驶如何重塑用户体验,实现从车位启动到泊车的连续自动驾驶体验,并详细讲解了构建物理世界中鲁棒运行的端到端智能驾驶系统的四个关键部分:物理世界的探索、物理世界建模、工程落地优化以及持续演进和交付。 ● 02:19机器对物理世界的探索与发展机器对物理世界的探索与发展 机器对物理世界的认知发展分为两个阶段:人类主导阶段,依赖人类记录的数字化信息,促进了大语言模型的进步,但受限于信息的不完整和不连续;具身智能阶段,机器如汽车、机器人直接参与物理世界的探索,通过传感器和执行器获取连续多模态数据,推动AI模型的全面性和适应能力提升。以小米汽车为例,设计时考虑了物理世界探索和高阶自驾需求,保证了不同车型间数据的通用性和规模化探索的硬件基础。 ● 04:24小米汽车自动驾驶技术进展与数据积累小米汽车自动驾驶技术进展与数据积累小米汽车通过车身周围标配的11颗高清摄像头和高配车型的前向激光雷达,实现了环境的完整观测和全场景自驾 功能,包括泊车、高速和城区路口等场景。自去年3月交付以来,小米汽车的用户车队规模已超过18万辆,每月新增超2万辆,每日行驶总里程接近1000万公里,远超全国公路总里程。随着行驶里程的增加,全场景数据快速累积,用于端到端模型训练的数据量从238万clips增长至1360万clips,为下一个千万级clips的模型训练奠定了基础。 ● 06:38物理世界建模的三层神经网络框架物理世界建模的三层神经网络框架 本对话介绍了在物理世界建模中采用的一种三层神经网络框架,包括原始数据观测层(大OT)、深度神经网络的特征层(大GT)和显示符号层(大SG)。通过多目相机等高分辨率传感器收集的数据,经过深度神经网络处理,形成对当前场景的理解,并解码出显示的符号表达,如静态的车道线、斑马线和动态的行人车辆等。此框架还详细描述了如何通过不同解码器分别处理动态元素、静态元素以及自车未来轨迹,以实现对物理世界的精准理 解和决策规划。 ● 10:38智能驾驶中的动态系统建模与未来预测智能驾驶中的动态系统建模与未来预测 智能驾驶系统作为一个复杂的动态系统,尤其关注于未来一段时间内的表现,这构成了建模的难点和重点。通过数据观测层、隐私特征层和显示符号层这三个层次的表征模型,研究者们运用如3DGS重建技 层,已有工作如Diana world model直接在预训练模型基础上进行未来特征预测。而在显示符号层,则利用人类对物理世界的理解,通过规则、代码与模型结合完成时序建模。此外,结合大模型scaling law的启示,研究还探索将这三层表达联合起来进行时序建模,以实现更准确的未来预测,特别是在智能驾驶场景中的应用。 ● 15:09智能驾驶技术的快速迭代与工程优化智能驾驶技术的快速迭代与工程优化 通过与英伟达的紧密合作,实现了云端推理效率的显著提升和车辆端模型的高效部署。在云端,自动化标注大模型推理的利用率和GPU利用率分别提升了一倍和30%。在车辆端,通过优化模型设计和算子性能,实现了20%到40%的加速,并在最新平台上整体性能翻倍。此外,通过物理世界建模技术的提升和工程优化,智能驾驶功能从基于高精地图的模块化架构迅速迭代至端到端架构,场景拓展从高速领航、泊车功能扩展至全场景支架,目前正准备推出基于大规模数据的端到端版本,实现了从简单高速泊车到复杂城区领航的全场景覆盖。 要点回顾要点回顾 小米汽车自动驾驶与机器人团队的最新智能驾驶功能是什么?端到端智能驾驶技术有何独特之处?小米汽车自动驾驶与机器人团队的最新智能驾驶功能是什么?端到端智能驾驶技术有何独特之处?我们最新的智能驾驶功能是端到端、全场景智能驾驶,最近刚刚进行了全量OTA推送。端到端技术的特点是整个系统从输入到输出完全由深度神经网络建模,包括了感知模型和规控模型的拓展,以及更高效的数据驱动和模型泛化能力,以应对复杂多变的物理世界场景。 全场景智能驾驶具体实现了哪些体验上的革新?全场景智能驾驶具体实现了哪些体验上的革新? 全场景智能驾驶实现了从车位启动、自主泊车、高速领航到城市领航的连续自驾体验,用户无需在不同场景间手动切换功能模块。 物理世界建模在智能驾驶系统中的作用是什么?物理世界建模在智能驾驶系统中的作用是什么? 物理世界建模是理解并构建智能驾驶系统的基础,通过不同层级的建模(数据观测层、深度神经网络特征层、显示符号层),机器可以更全面、连续地认知物理世界,并以此支持决策规划和行为规划。 物理世界建模的具体三层结构是什么?物理世界建模的具体三层结构是什么? 物理世界建模分为三层:底层为原始数据观测层(大OT),记录真实场景当前状态;中间层为深度神经网络特征层(大GT),通过数据驱动形成对当前场景的理解;上层为显示符号层(大SG),便于理解和操作,提供静态和动态元素的清晰表达及规划轨迹展示。 小米汽车如何在物理世界中进行探索和积累数据?小米汽车如何在物理世界中进行探索和积累数据? 小米汽车通过车身周围高清摄像头和激光雷达等传感器获取大量连续且多模态的数据,在量产交付的车型中打好了硬件基础,并随着车队规模的快速增长,行驶里程和全场景数据也在快速累积。 在智能驾驶领域中,未来将在车端实时系统中的建模难点和重点是什么?三层表征模型在持续建模方面在智能驾驶领域中,未来将在车端实时系统中的建模难点和重点是什么?三层表征模型在持续建模方面有有哪些优秀工作可以借鉴?哪些优秀工作可以借鉴? 未来在车端实时系统中,建模的难点和重点在于无法直接观测到汽车在未来一段时间内的表现。这与历史数据中的直接传感器观测不同,对模型的持续建模能力提出了挑战。三层表征模型包括数据观测层、隐私特征层和显示符号层,在每层持续建模上都有许多优秀工作,如利用3DGS重建技术、diffusion order regression生成技术等进行原始信号生成,并通过控制条件如逆时针图像隐私特征和显示符号来优化模型性能。 目前针对隐私特征层直接进行持续预测的工作有哪些进展?如何联合三层表达进行时序建模,并在云端目前针对隐私特征层直接进行持续预测的工作有哪些进展?如何联合三层表达进行时序建模,并在云端和和车端优化模型性能?车端优化模型性能? 近期研究提出Diana world model,基于预训练模型Diana v2构建隐私特征空间,进行未来特征预测以完成特定任务。此外,在智能驾驶领域尚未有成熟的基座模型可以直接用于稳定特征表达和显示符号生成,但可通过规则、代码结合模型的方式实现时序建模,例如运动学模型。尝试将三层表达联合起来,在云端训练时,可将中间影视特征拓展到未来形成时空神经网络模型,统一由数据驱动学习。针对动静态元素变化方式的不同,分别处理预测变化。同时,通过工程优化提升模型效率,包括但不限于自动化标注利用率提升、GPU利用率提升、减少模型连接、优化算子以加速推理过程,甚至将图像前处理和点云数据压缩在硬件上实现。 基于物理世界建模能力的提升和工程优化,在智能驾驶领域取得了哪些成就?基于物理世界建模能力的提升和工程优化,在智能驾驶领域取得了哪些成就? 在过去几年中,通过物理世界建模技术和工程落地优化,我们在智能驾驶领域实现了快速追赶,从基于高精地图模块化架构发展到去高精密度模块化架构,再到端到端架构。目前,车辆已具备高速领航、主动安全代客泊车、辅助泊车等功能,并且经过OTA升级,已扩展至全国范围内的全场景自动驾驶能力。未来将持续交付更多高级自驾功能,逐步实现车位到车位的完整体验。