您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [南开大学]:4D自动驾驶场景生成-南开大学 - 发现报告

4D自动驾驶场景生成-南开大学

交运设备 2025-12-11 南开大学 绿毛水怪
报告封面

WorldSplat: Gaussian-Centric Feed-Forward 4D Scene Generation for AutonomousDriving朱子悦 小米汽车世界模型—南开大学 任务定义:自动驾驶模拟世界手段-视频生成vs场景重建 •世界模型-视频生成:根据结构控制条件和文本提示生成自动驾驶视频 优势与困境-生成 •世界模型-视频生成:借助Wan2.1等强大的Diffusion架构,已经可以生成高度真实的视频 优势与困境-生成 •世界模型-视频生成:随着这两年视频生成的飞速进步,自驾视频生成质量大幅提升 MagicDrive(2023) 优势与困境-生成 •现在的视频生成框架缺少空间记忆,每生成新的视频,前景物体和背景都不一致 •闭环仿真需要场景的可复现性 •可能出现车辆出发再返回原点,场景不一致的问题 原始视角 模拟自车变道 视频生成闭环仿真平台:DriveArena •Traffic Manager:负责交通流、其他车辆行为、路网车 •World Dreamer:条件视频生成模型 •闭环流程:驾驶代理基于World Dreamer生成的图像输出轨迹→轨迹输入到Traffic Manager使交通流更新→新的布局再反馈给World Dreamer →如此循环。此即闭环交互。 •缺陷:“the model should be able to generate the same scene captured from different positions” 优势与困境-重建 •世界模型-场景重建:基于3D/4D Gaussians表征,可以准确重建出场景结构 •然而在新视角合成时仍然有模糊的现象,无法像Diffusion生成的清晰保真 优势与困境-逐场景重建vs前馈重建 •自驾场景下观测视角稀疏,传统逐场景拟合的3D Gaussians方案难以还原3D场景 •前馈重建方案通过数据和模型的scaling law,根据稀疏视角“预测”3D场景 世界模型设计思路 •动机:以Gaussians为核心生成重建统一的世界模型 不同于视频生成,我们生成表示空间的4D Gaussians表征,同时不需要像传统Gs方法的逐场景优化 借助diffusion的生成能力,生成多视角一致的视频 世界模型设计思路 •双阶段以高斯为核心的新视角视频生成 一阶段生成4D的高斯表征,表示空间并进行新视角视频渲染 二阶段优化渲染视频,提升最终视频质量 提出的世界模型框架 •以Gaussians为核心的世界模型框架: 采用四维感知扩散模型生成包含RGB、深度和动态信息的多模态潜在表示使用我们的前馈潜在表示解码器,从去噪潜在表示中预测像素对齐的三维高斯球将三维高斯进行动静态分解,聚合形成四维高斯,并根据模拟轨迹渲染新视角视频使用增强型扩散模型提高渲染视频的空间分辨率和时间一致性 提出的世界模型框架细节 •基于ControlNet增强的Diffusion transformer Gaussians生成与Diffusion优化渲染结果 •前馈4D Gaussians生成 •二阶段diffusion可以弥补Gaussians渲染新视角的天然缺陷: 渲染新视角时原本不可见区域的“坏面”问题 自车高速运动下的场景模糊 视频生成效果对比-量化指标 •对比最新的世界模型-视频生成的方法 以FID和FVD为指标评测生成的质量 支持不同生成模式,有首帧图像输入和无图像输入 视频生成效果对比-视觉效果 •对比最新的世界模型-视频生成的方法 视频生成效果对比-视觉效果 •模拟阴雨天气的真实物理环境:模拟潮湿路面的车灯反射 视频生成效果对比-视觉效果 •模拟阴雨天气的真实物理环境:玻璃可以反射出自身车辆 视频生成效果对比-视觉效果 •模拟复杂交通流环境:密集行人、车辆、车辆拐弯行驶 新视角生成效果对比-量化指标 •对比最新的自动驾驶场景重建方法 模拟自车向左和向右水平位移1~4m比较生成视频和原始轨迹视频,评测FID、FVD 新视角生成效果对比-视觉效果 •对比最新的自动驾驶场景重建方法 新轨迹生成效果 •将自车分别向左右平移1m、2m,我们能实现不同视角的场景一致性 视频展示 •上下两段视频分别模拟将自车分别向左和右平移2m 视频展示 •上下两段视频分别模拟将自车分别向左和右平移2m 消融实验与下游应用 •对提出策略的消融实验 •对下游感知带来的提升 未来工作 •相关代码的整理与开源•轻量化整体的生成框架•在闭环仿真任务上测评我们模型带来的提升效果 欢迎关注我们的工作 自动驾驶世界模型学习路线—视频生成篇 •非常有用的GitHub网站:https://github.com/LMD0311/Awesome-World-Model汇集了最新的一系列工作 •开源的长时序,高分辨率视频生成方案:MagicDrive-V2: High-Resolution Long Video Generation forAutonomous Driving with Adaptive Control 自动驾驶世界模型学习路线—视频生成篇(我们团队的工作) •联合生成多视图视频和LiDAR点云的统一框架(NeurIPS2025):Genesis: Multimodal Driving SceneGeneration withSpatio-Temporal and Cross-Modal Consistency •先生成视频,以生成视频作为引导合成与视频一致的点云 自动驾驶世界模型学习路线—视频生成篇(我们团队的工作) •可编辑生成模型:Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks,通过3D资产编辑,实现对目标位姿、轨迹和外观的精准控制,生成驾驶视频。 •仅用420个合成样本(<2%真实数据量),就能超越纯真实数据训练的模型 自动驾驶世界模型学习路线—前馈重建篇 •推荐关注最近很火的一些前馈重建模型,比如VGGT, CUT3R,StreamVGGT, Pi3,HunyuanWorld-Mirror,Depth Anything3等 •Nuscenes场景前馈式3D重建:Omni-Scene: Omni-Gaussian Representation for Ego-Centric Sparse-View SceneReconstruction,代码训练简洁适合入门 •前馈式动态场景重建:STORM:Spatio-Temporal Reconstruction Model for Large-Scale OutdoorScenes