您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [朱思语]:基于物理条件约束的可信视觉生成大模型 - 发现报告

基于物理条件约束的可信视觉生成大模型

信息技术 2025-03-31 - 朱思语 阿丁
报告封面

基于物理条件约束的可信视觉生成大模型 朱思语复旦大学 视觉生成模型 输入 视频生成方法 视频生成领域经历了快速发展,达到了几个里程碑... 扩散式视觉生成(1) 去噪扩散概率模型(DDPMs) 扩散型视觉生成(2) 随机微分方程(得分SDEs) 视觉扩散模型的关键要素 • U网• 转换器 潜空间扩散 索拉,突破。 一致性一致性在3D渲染、长距离连贯性和物体恒存性中。 令人惊讶的长度: 延长的视频时长功能(Sora:1分钟,与之前系统相比:秒)。• 灵活的解决方案生成不同时长、宽高比和分辨率的视频。 索拉,关键技术 • TheDiT框架由Meta(2022.12)设计,用于视频处理。 • Google的MAGViT(2022.12)专注于视频标记化。 • Google DeepMind 介绍了NaViT(2023.07)支持各种分辨率和纵横比。 • OpenAI的DALL-E 3(2023.09)增强视频字幕生成以提升条件视频创建。 建模物理世界 • 我们知道这是一个非常复杂的实际物理模型。 概率性的 •贝叶斯推理;•概率图模型。 确定性的 • 数学方程式;• 基于物理的模拟;• 控制理论。 建模物理世界 • 我们知道这是一个非常复杂的实际物理模型。 概率性的 •贝叶斯推理;•概率图模型。 确定性的 • 数学方程式;• 基于物理的模拟;• 控制理论。 关键要素:物理世界 • 在给定一个Sora演示(东京街上的行走女性)的情况下,物理世界的关键元素以图形方式呈现…… • 外观• 几何形状• 灯光• 动画和运动• 声音 建模物理世界 • [CVPR] 高斯流:动态3D高斯粒子在四维重建中的应用 建模物理世界 • [CVPR] 高斯流:动态3D高斯粒子在四维重建中的应用 难以模拟物理世界。 实际上,世界很难以概率方式建模。 • Sora资源消耗...– 1亿张图片; – 1000万小时的视频数据; – 对图片和视频进行分词后,10万亿个token; – 使用约5000个A100并行训练。 难以模拟物理世界。 几何和外观中的Sora故障案例。 难以模拟物理世界。 • 照明中Sora故障案例。 难以模拟物理世界。 • 动画与影视制作中的Sora故障案例。 难以模拟物理世界。 • 视频MV:基于大型视频生成模型的一致多视图生成 • 多视图图像仍需进行几何增强。 难以模拟物理世界。 • 视频MV:基于大型视频生成模型的一致性多视图生成从静态角度来看,奇异值分解(SVD)能够对多视角图像进行建模。 难以模拟物理世界。 • Stag4D: 空间-时间锚定生成4D高斯• 从时间角度... 难以模拟物理世界。 • STAG4D:时空锚定生成4D高斯• 从时间角度... 难以模拟物理世界。 伊利亚·斯图克弗尔:压缩是泛化。 • 对于数据集的最佳无损压缩是针对数据集外部数据的最佳泛化。 应用确定性条件 • 数据和参数大大减少!• 物质世界中确定性条件的不同表示。 动作与动画 应用确定性条件 •有两种方式注入确定性信息。 图像人类动画 • 冠军:可控和一致的人脸动画3D参数引导 图像人类动画 • 冠军:可控和一致的人脸动画3D参数引导 图像人类动画 • 冠军:可控和一致的人脸动画3D参数引导 图像人像动画 • 哈喽:用于人像动画的分层音频驱动的视觉合成 图像人像动画 • 哈喽:用于人像动画的分层音频驱动的视觉合成 图像人像动画 • 哈喽:用于人像动画的分层音频驱动的视觉合成 动态蛋白质结构预测 • 基于参考引导的时间对齐的4D扩散动态蛋白结构预测 动态蛋白质结构预测 • 基于参考引导的时间对齐的4D扩散动态蛋白结构预测 未来工作 应用确定性条件于概率扩散。 • 数据和参数更少! 动作与动画 谢谢