您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [清华大学]:大模型时代的新能源汽车自动驾驶发展趋势 - 发现报告

大模型时代的新能源汽车自动驾驶发展趋势

交运设备 2025-02-22 - 清华大学 表情帝
报告封面

演讲人:邓志东教授/博士生导师 北京信息科学与技术国家研究中心清华大学计算机科学与技术系清华大学人工智能研究院视觉智能研究中心 2025.2.22 提纲OUTLINES 一、范式变革:基于多模态大模型的自动驾驶技术二、世界模型驱动的一段式端到端解决方案可望获得突破三、发展趋势:从感知智能到认知智能 提纲OUTLINES 一、范式变革:基于多模态大模型的自动驾驶技术二、世界模型驱动的一段式端到端解决方案可望获得突破三、发展趋势:从感知智能到认知智能 一、范式变革:基于多模态大模型的自动驾驶技术 •VLM:视觉-语言(文本)模型•VLA:视觉-语言-动作模型 1、多模态大模型推动具身智能体发展 VLA融合了感知空间与动作空间,给出了两个空间与三大任务: •两大空间:从感知或观察空间到动作空间,还是从动作空间到感知空间? •两个空间之间的单段式或单模型一体化相互作用;•三个下游微调模型,即三大任务:具身理解、具身推理与具身动作生成大模型;•基于上述三大微调模型,可优化训练更多的下游微调模型 本质上将VLM面向数字空间的理解与生成推向了面向物理世界的理解与生成! 一、范式变革:基于多模态大模型的自动驾驶技术 •VLM:视觉-语言(文本)模型•VLA:视觉-语言-动作模型 1、多模态大模型推动具身智能体发展 -性能增强的VLA:可望提升图像、视频、3D点云与语义地图等多模态数据的语义对齐水平,从而获得更好的交叉理解; 一、范式变革:基于多模态大模型的自动驾驶技术 •VLM:视觉-语言(文本)模型•VLA:视觉-语言-动作模型 1、多模态大模型推动具身智能体发展 -性能增强的VLA:也可望改善开放场景下的实例分割与目标检测准确率,实现更好的视觉“分词”; 如谷歌Waymo达到99.3% 一、范式变革:基于多模态大模型的自动驾驶技术 •VLM:视觉-语言(文本)模型•VLA:视觉-语言-动作模型 1、多模态大模型推动具身智能体发展 -性能增强的VLA:对时空动态场景的预测,或将有效嵌入真实世界的物理学规律,从而获得更好的避碰能力; 一、范式变革:基于多模态大模型的自动驾驶技术 •VLM:视觉-语言(文本)模型•VLA:视觉-语言-动作模型 1、多模态大模型推动具身智能体发展 -性能增强的VLA:通过进一步引入小脑模型,可望获得更加精准、鲁棒与细滑的行为与动作生成。 一、范式变革:基于多模态大模型的自动驾驶技术 2、决策与规划:推动构建世界模型驱动的一段式端到端智能体 VLA的决策推理势必面临更大的挑战,但却更有研发意义与落地应用价值,包括: •安全、效率、舒适度与低碳等多指标评估体系及其动态优化算法; •利用推理大模型DeepSeek等的应用潜力,如完成百万量级合成场景训练下的决策鲁棒性验证实验(将接管率推进到每10万公里1-3次),将轨迹规划的实时响应时间从传统的150ms缩短至50ms左右。 推理型大模型DeepSeek-R1及其蒸馏版系列 一、范式变革:基于多模态大模型的自动驾驶技术二、世界模型驱动的一段式端到端解决方案可望获得突破三、发展趋势:从感知智能到认知智能 二、世界模型驱动的一段式端到端解决方案可望获得突破 1、世界模拟器引擎:时空场景合成数据的巨量生成 -实现工业化合成数据,包括利用世界模型与世界模拟器生成百万量级的边缘事件时空场景,实现世界模型引擎与真实路测数据的闭环验证,不仅获得更加逼真的场景模拟,而且可大幅降低时空场景数据合成的生产成本。 二、世界模型驱动的一段式端到端解决方案可望获得突破 1、世界模拟器引擎:时空场景合成数据的巨量生成 1)以数据驱动方式实现的物理规律模拟 -4D时空世界模拟:3维空间+1维时间,智能体在4D世界中与环境、其他智能体及人类进行交互式学习,以端到端数据驱动方式实现物理规律模拟,从而获得空间智能。 二、世界模型驱动的一段式端到端解决方案可望获得突破 1、世界模拟器引擎:时空场景合成数据的巨量生成 2)在虚实平行世界获得的交互数据可反哺AGI的发展 -数字孪生&虚实平行世界:利用数字孪生系统基于深度强化学习的自主决策与最优策略的虚实迁移; -反哺AGI的发展:由此获得的虚实交互数据,可进一步反哺通用智能体与通用人工智能的发展。 二、世界模型驱动的一段式端到端解决方案可望获得突破 2、硬件架构变革技术路线 -感知设备:对纯视觉解决方案,是否需要额外增加4D毫米波雷达进行多传感器融合? 二、世界模型驱动的一段式端到端解决方案可望获得突破 2、硬件架构变革技术路线 -车载计算平台:2025年英伟达2000TOPS算力Thor芯片可望量产,五年内车载存算一体芯片是否能突破更高的能效比瓶颈? 二、世界模型驱动的一段式端到端解决方案可望获得突破 2、硬件架构变革技术路线 -大模型上车:车侧一段式端到端模型上车的AI硬件算力支撑的模型蒸馏压缩与轻量化,是否可以支撑百亿级别参数规模的密集大模型上车? 二、世界模型驱动的一段式端到端解决方案可望获得突破 3、创新型模型、架构与算法的基础性变革作用 AI硬件架构变革对大型语言模型及智能体的发展起着关键支撑作用。反过来,人工智能中模型、架构与算法的创新,可以产生基础性的事半功倍的效果。 1)底座模型创新,发展具有线性复杂性的下一代基础大型语言模型。目前绝大多数大语言模型都是基于Transformer架构的,这种注意力神经网络模型具有平方量级的计算复杂性,也无长期记忆、持续记忆与在线学习能力。 从大语言模型如何走向世界模型? DeepSeek的成功再一次表明了大模型基础与技术创新的重要性。 二、世界模型驱动的一段式端到端解决方案可望获得突破 3、创新型模型、架构与算法的基础性变革作用 AI硬件架构变革对大型语言模型及智能体的发展起着关键支撑作用。反过来,人工智能中模型、架构与算法的创新,可以产生基础性的事半功倍的效果。 推动国产AI芯片支撑国产大模型的生态建设: 2)大力发展智慧云,实现对国产AI算力芯片的适配。发展国产AI算力芯片支撑的智慧云是解决异构模型、异构芯片与异构数据适配的关键,可覆盖AI全产业链条应用。 3)加速全国算力网建设,实现大颗粒国家超级智算中心的高速互联。推动国产AI芯片与算力网创新生态的发展。 二、世界模型驱动的一段式端到端解决方案可望获得突破 4、数字孪生测试验证平台 未来五年, -数据闭环中自动标注的准确率会进一步提升到99%以上;-世界模拟器可望支持千万量级的场景生成,并进行并行测试;-数字路测里程占比有望突破70%。 一、范式变革:基于多模态大模型的自动驾驶技术二、世界模型驱动的一段式端到端解决方案可望获得突破三、发展趋势:从感知智能到认知智能 三、发展趋势:从感知智能到认知智能 总之,在未来五到十年的更长时期: 将逐步形成大模型主导的自动驾驶新范式;世界模型驱动的一段式端到端模型可望获得突破;w车路云一体化下的分布式推理与可视化技术可望获得突破;从感知理解到基于学习的决策规划,通过感知智能到认知智能的变革性发展,真正实现大模型时代自动驾驶的大规模商业化落地及产业化。 谢谢聆听