行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

4D自动驾驶场景生成-南开大学

交运设备 2025-12-11 南开大学绿毛水怪

WorldSplat: Gaussian-Centric Feed-Forward 4D Scene Generation for Autonomous Driving

任务定义与对比

自动驾驶模拟世界手段：视频生成 vs 场景重建
- 视频生成：根据结构控制条件和文本提示生成自动驾驶视频，借助Wan2.1等Diffusion架构实现高度真实视频生成，但缺乏空间记忆，易出现场景不一致问题。
- 场景重建：基于3D/4D Gaussians表征，可准确重建场景结构，但在新视角合成时存在模糊现象，无法像Diffusion生成效果清晰。

优势与困境

视频生成：
- 优势：生成质量大幅提升（如MagicDrive），支持闭环仿真（DriveArena），实现动态场景交互。
- 困境：缺乏空间记忆，闭环仿真中场景一致性不足。
场景重建：
- 优势：可复现性高，但逐场景拟合方案难以还原稀疏视角下的3D场景。

世界模型设计思路

动机：以Gaussians为核心，生成表示空间的4D Gaussians表征，同时借助Diffusion生成多视角一致视频。
双阶段流程：
1. 生成4D高斯表征，表示空间并渲染新视角视频。
2. 优化渲染视频，提升最终质量。

提出的世界模型框架

核心框架：
- 四维感知扩散模型生成多模态潜在表示（RGB、深度、动态）。
- 前馈潜在表示解码器预测三维高斯球，并进行动静态分解形成四维高斯。
- 根据模拟轨迹渲染新视角视频，并使用增强型扩散模型提升分辨率和时间一致性。

实验结果

视频生成效果：
- 对比最新方法，FID和FVD指标表现优异，支持首帧图像输入和无图像输入模式。
- 视觉效果：模拟阴雨天气（潮湿路面车灯反射、玻璃反射），复杂交通流（密集行人、车辆拐弯）效果逼真。
新视角生成效果：
- 模拟自车水平位移1~4m，FID、FVD指标优于最新重建方法。
- 视觉效果：实现不同视角场景一致性，如左右平移1m、2m的场景渲染。

消融实验与下游应用

消融实验：验证提出策略的有效性。
下游应用：提升感知任务效果。

未来工作

整理代码开源。
轻量化生成框架。
在闭环仿真任务中评估模型效果。

学习路线推荐

视频生成：
- GitHub网站：Awesome-World-Model。
- 开源方案：MagicDrive-V2。
- 团队工作：
  - Genesis：多模态驾驶场景生成框架。
  - 可编辑生成模型：通过3D资产编辑实现精准控制。
前馈重建：
- 推荐模型：VGGT, CUT3R, StreamVGGT, Pi3, HunyuanWorld-Mirror, Depth Anything3。
- 推荐论文：
  - Omni-Scene：Nuscenes场景前馈式3D重建。
  - STORM：前馈式动态场景重建。

WorldSplat: Gaussian-Centric Feed-Forward 4D Scene Generation for AutonomousDriving朱子悦小米汽车世界模型—南开大学任务定义：自动驾驶模拟世界手段-视频生成vs场景重建 •世界模型-视频生成:根据结构控制条件和文本提示生成自动驾驶视频优势与困境-生成 •世界模型-视频生成:借助Wan2.1等强大的Diffusion架构，已经可以生成高度真实的视频优势与困境-生成 •世界模型-视频生成:随着这两年视频生成的飞速进步，自驾视频生成质量大幅提升 MagicDrive(2023) 优势与困境-生成 •现在的视频生成框架缺少空间记忆，每生成新的视频，前景物体和背景都不一致 •闭环仿真需要场景的可复现性 •可能出现车辆出发再返回原点，场景不一致的问题原始视角模拟自车变道视频生成闭环仿真平台：DriveArena •Traffic Manager：负责交通流、其他车辆行为、路网车 •World Dreamer：条件视频生成模型 •闭环流程：驾驶代理基于World Dreamer生成的图像输出轨迹→轨迹输入到Traffic Manager使交通流更新→新的布局再反馈给World Dreamer →如此循环。此即闭环交互。 •缺陷：“the model should be able to generate the same scene captured from different positions” 优势与困境-重建 •世界模型-场景重建:基于3D/4D Gaussians表征，可以准确重建出场景结构 •然而在新视角合成时仍然有模糊的现象，无法像Diffusion生成的清晰保真优势与困境-逐场景重建vs前馈重建 •自驾场景下观测视角稀疏，传统逐场景拟合的3D Gaussians方案难以还原3D场景 •前馈重建方案通过数据和模型的scaling law，根据稀疏视角“预测”3D场景世界模型设计思路 •动机：以Gaussians为核心生成重建统一的世界模型 不同于视频生成，我们生成表示空间的4D Gaussians表征，同时不需要像传统Gs方法的逐场景优化 借助diffusion的生成能力，生成多视角一致的视频世界模型设计思路 •双阶段以高斯为核心的新视角视频生成 一阶段生成4D的高斯表征，表示空间并进行新视角视频渲染 二阶段优化渲染视频，提升最终视频质量提出的世界模型框架 •以Gaussians为核心的世界模型框架： 采用四维感知扩散模型生成包含RGB、深度和动态信息的多模态潜在表示使用我们的前馈潜在表示解码器，从去噪潜在表示中预测像素对齐的三维高斯球将三维高斯进行动静态分解，聚合形成四维高斯，并根据模拟轨迹渲染新视角视频使用增强型扩散模型提高渲染视频的空间分辨率和时间一致性提出的世界模型框架细节 •基于ControlNet增强的Diffusion transformer Gaussians生成与Diffusion优化渲染结果 •前馈4D Gaussians生成 •二阶段diffusion可以弥补Gaussians渲染新视角的天然缺陷： 渲染新视角时原本不可见区域的“坏面”问题 自车高速运动下的场景模糊视频生成效果对比-量化指标 •对比最新的世界模型-视频生成的方法 以FID和FVD为指标评测生成的质量 支持不同生成模式，有首帧图像输入和无图像输入视频生成效果对比-视觉效果 •对比最新的世界模型-视频生成的方法视频生成效果对比-视觉效果 •模拟阴雨天气的真实物理环境：模拟潮湿路面的车灯反射视频生成效果对比-视觉效果 •模拟阴雨天气的真实物理环境：玻璃可以反射出自身车辆视频生成效果对比-视觉效果 •模拟复杂交通流环境：密集行人、车辆、车辆拐弯行驶新视角生成效果对比-量化指标 •对比最新的自动驾驶场景重建方法 模拟自车向左和向右水平位移1~4m比较生成视频和原始轨迹视频，评测FID、FVD 新视角生成效果对比-视觉效果 •对比最新的自动驾驶场景重建方法新轨迹生成效果 •将自车分别向左右平移1m、2m，我们能实现不同视角的场景一致性视频展示 •上下两段视频分别模拟将自车分别向左和右平移2m 视频展示 •上下两段视频分别模拟将自车分别向左和右平移2m 消融实验与下游应用 •对提出策略的消融实验 •对下游感知带来的提升未来工作 •相关代码的整理与开源•轻量化整体的生成框架•在闭环仿真任务上测评我们模型带来的提升效果欢迎关注我们的工作自动驾驶世界模型学习路线—视频生成篇 •非常有用的GitHub网站：https://github.com/LMD0311/Awesome-World-Model汇集了最新的一系列工作 •开源的长时序，高分辨率视频生成方案：MagicDrive-V2: High-Resolution Long Video Generation forAutonomous Driving with Adaptive Control 自动驾驶世界模型学习路线—视频生成篇（我们团队的工作） •联合生成多视图视频和LiDAR点云的统一框架（NeurIPS2025）：Genesis: Multimodal Driving SceneGeneration withSpatio-Temporal and Cross-Modal Consistency •先生成视频，以生成视频作为引导合成与视频一致的点云自动驾驶世界模型学习路线—视频生成篇（我们团队的工作） •可编辑生成模型：Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks，通过3D资产编辑，实现对目标位姿、轨迹和外观的精准控制，生成驾驶视频。 •仅用420个合成样本（<2%真实数据量），就能超越纯真实数据训练的模型自动驾驶世界模型学习路线—前馈重建篇 •推荐关注最近很火的一些前馈重建模型，比如VGGT, CUT3R,StreamVGGT, Pi3,HunyuanWorld-Mirror，Depth Anything3等 •Nuscenes场景前馈式3D重建：Omni-Scene: Omni-Gaussian Representation for Ego-Centric Sparse-View SceneReconstruction，代码训练简洁适合入门 •前馈式动态场景重建：STORM：Spatio-Temporal Reconstruction Model for Large-Scale OutdoorScenes

点击免费查看完整报告

4D自动驾驶场景生成-南开大学

WorldSplat: Gaussian-Centric Feed-Forward 4D Scene Generation for Autonomous Driving

任务定义与对比

优势与困境

世界模型设计思路

提出的世界模型框架

实验结果

消融实验与下游应用

未来工作

学习路线推荐

你可能感兴趣

智能汽车行业系列（十三）：4D成像毫米波雷达，自动驾驶最佳辅助

中小盘周报：4D成像毫米波雷达：新型传感器助力自动驾驶

产业深度：新性能、新场景，4D毫米波雷达开启产业全新增长周期

【公告全知道】Sora AI视频+机器人+华为鸿蒙+AIGC+信创!公司财税大模型算法应用于对话生成场景支持多端使用

2024年3D内容生成技术及应用场景探究报告

代码生成Copilot-大语言模型在真实开发场景下的实践

使用生成式AI生成假设市场数据场景

议题一：视频生成从技术突破到视听场景规模化应用

海外自动驾驶专题报告：真L3加速推进与L4多场景爆发，海外自动驾驶投资风口

场景驱动自动驾驶商业化发展与展望白皮书

4D自动驾驶场景生成-南开大学

你可能感兴趣

智能汽车行业系列（十三）：4D成像毫米波雷达，自动驾驶最佳辅助

中小盘周报：4D成像毫米波雷达：新型传感器助力自动驾驶

产业深度：新性能、新场景，4D毫米波雷达开启产业全新增长周期

【公告全知道】Sora AI视频+机器人+华为鸿蒙+AIGC+信创!公司财税大模型算法应用于对话生成场景支持多端使用

2024年3D内容生成技术及应用场景探究报告

代码生成Copilot-大语言模型在真实开发场景下的实践

使用生成式AI生成假设市场数据场景

议题一：视频生成 从技术突破到视听场景规模化应用

海外自动驾驶专题报告：真L3加速推进与L4多场景爆发，海外自动驾驶投资风口

场景驱动自动驾驶商业化发展与展望白皮书

议题一：视频生成从技术突破到视听场景规模化应用