您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[腾讯]:生成未必理解:基于扩散模型能否实现视觉世界模型? - 发现报告

生成未必理解:基于扩散模型能否实现视觉世界模型?

2025-03-21腾讯见***
AI智能总结
查看更多
生成未必理解:基于扩散模型能否实现视觉世界模型?

袁粒LiYuan School of ECE, Peking UniversityShenzhen Graduate School “What I cannot create, I do not understand” —Richard Feynman “What I can generate, I do understand” “What I can understand, I do generate”? 基于扩散的生成真的理解了吗? Prompt:Five gray wolf pupsfrolickingandchasingeachotheraroundaremotegravelroad小狼的数量时而五只,时而三只或四只 杯子水先撒出来,后破碎,不符合事实 跑步机上的人反着跑步,不符合逻辑 Prompt:Glass shatteringwith red liquidand ice cubes Prompt:Step-printingsceneofapersonrunning,cinematicfilmshotin35mm. Diffusions Beat GANs 基于Diffusion的视觉生成发展 视觉生成和视觉理解两条路线完全割裂 ➢生成未必理解、理解不能(视觉)生成;➢建模方式不一样:视觉生成依靠扩散模型,视觉理解依靠LLM(自回归生成);➢模型参数规模不一样:视觉理解可以千亿规模,生成模型大部分数十亿到百亿; 世界模型的可能路径—统一是必然 世界模型的可能路径—统一是必然 统一多模态代表性工作: 理解代表性工作: ➢多模态ScalingLaw验证:LanguageBind(ICLR 2024),持续验证中 ➢多模态视觉理解Baseline:Video-LLaVA,EMNLP’24,3.0kStar➢多模态细粒度理解:Chat-UniVi, CVPR’24➢多模态理解思维链:LLaVA-CoT,1.6kstar 多模态理解 统一多模态 生成代表性工作: 多模态生成➢视频生成基模型:Open-SoraPlan,11.7kstar➢物理知识注入的质变生成:MagicTime(1.3kstar),ChronoMagic,NeurIPS’24➢动态生成:Progressive123 (ICLR’24),Repaint123(ECCV’24),ViewCrafter➢多模态可控生成:ConsisID,生成人物ID一致性 AI4S(应用) NCS、NC两篇子刊论文 上述工作均开源:https://github.com/PKU-YuanGroup Open-Sora Plan视频生成开源计划总览 模型结构 亮点 趋势 •支持10s级高清视频生成•兼容文生图和文生视频•支持任意分辨率和任意时长•支持任意帧控制注入的图生视频及视频续写•借助昇腾基础软件与调优工具,充分释放硬件性能•高质量数据集处理及模型评测管线 2月OpenAI发布了全新的文生视频模型Sora,率先开启了AI视频生成的ChatGPT时刻。AI视频生成催生了以多种创意需求,受到社会广泛关注。当前AI视频生成领域主要靠业界巨头的闭源模型推动,开源项目少。 前沿的技术创新 持续的项目活跃度 发起视频生成开源计划 项目发布一周内获得14万余次访问,获得国内外上万名程序员点赞,登上GitHubTrending全 球 榜 单第一,累计更新模型和代码数百次,融合开源社区的贡献上百次,代码被克隆上千次。 为了实现高分辨率长时长的视频内容生成,团队先后提出了256倍压缩的3D因果VAE、任意分辨率及时长训练、稀疏注意力计算加速、任意帧控制的图生视频模型等技术。 Open-Sora Plan项 目 持 续更新近半年,累计新增代码8万余行,近期单周访问近3万次,收到社区和业界的持续关注,有多项后继的视频生成开源项目和闭源模型部分借鉴了我们的实现方式。 借助昇腾基础软件与调优工具:充分释放硬件性能,快速支撑原生训练 MindSpeed 昇腾异构计算架构 TorchNPU 算子开发体系,图优化引擎 标准化接口,兼容开源生态 昇腾分布式训练加速库 源码迁移仅需两行代码多流内存复用优化内存多级流水优化调度性能 兼容Megatron原生框架内存Swap降低FA重计算开销并行/内存/通信/计算全方位定制优化 昇腾基础算子DVPP/BLAS/NN/HCCL 昇腾高性能融合算子Flash Attention支持多种内存排布去除冗余Transpose MindStudioInsight AscendC算子自定义开发原生开发RoPE3D高性能融合算子基于Ascend C Debug能力快速调优 昇腾Profiling工具套件 昇腾精度工具分析套件 计算/通信/内存调优分析工具Advisor自动化给出优化建议实时监控训练进程,识别异常 支持在线监控梯度异常快速定位精度异常代码段支持异构算力精度一致性对比 Open-Sora Plan视频生成开源计划总览 ➢Theopensourcecommunityhashighparticipation,integratingmorethan30pullrequestsfromopensourcecreatorswithinaweek,andupdatingmodelsandcodesmorethan200timeswithina week; ➢Theopensourcecommunityishighlyactive,withmorethan140kvisitsinasingleweek 人员访问和使用Open Sora Plan的代码 视觉世界模型探索1:相机位姿先验4D生成 物理先验知识作为模型输入,以相机位姿作为物理先验建模,输入视频生成模型中进行训练,构建不同视角下的4D世界(已开源) 视觉世界模型探索2:全景3D生成 全景二维信息作为先验知识进行建模,输入视频生成模型中进行训练,构建不同视角下的3D全景世界,可用于游戏世界模拟和探索 视觉生成架构是否已经收敛到Diffusion? 视觉生成架构是否已经收敛到Diffusion? 视觉生成架构是否已经收敛到Diffusion? 如何实现生成和理解统一的原生框架? Autoregressive Transformer: VQA Experts 增强What I can create, I do understand ! 如何实现生成和理解统一的原生框架? 如何实现生成和理解统一的原生框架? 如何实现生成和理解统一的原生框架? 理解输出:文本 生成专家部分 自回归Transfomrer统一架构:理解专家部分 1.视觉理解和生成的Encoder是否需要统一?短期不统一,长期统一该如何将压缩和对齐做到同一个Encoder中2.离散还是连续?离散的话VocabularySize多大合适?2.单纯增加VocabularySize可能比较低效,离散的基础上设计不同层次的字典作为残差补充,将QuantizationLoss补回来?3.理解和生成的TaskConflict、视觉和语言模态的GradientsConflict怎么办?4.视觉CoT如何加到统一架构,让视觉生成和理解都更加精准?LLaVA-o15.Visual Decoder是否可以是Diffusion,或者基于Diffusion后处理做Enhancer? 如何实现生成和理解统一的原生框架? 理解和生成在同一主干网络中端到端训练网络,实现同一个模型能理解和生成(国产训练中) 基于混合注意力专家和混合专家的自回归Transformer统一架构 如何实现生成和理解统一的原生框架? Chen,Liuhan,ZongjianLi, Bin Lin, Bin Zhu, Qian Wang,ShenghaiYuan, Xing Zhou, Xinhua Cheng, andLi Yuan*. "Od-vae: An omni-dimensional video compressor forimproving latent video diffusion model."arXivpreprint arXiv:2409.01199(2024). 如何实现生成和理解统一的原生框架? MoE、MoH架构对于原生统一也至关重要 25Jin, Peng, Bo Zhu,Li Yuan*, andShuichengYan*. "Moe++: Accelerating mixture-of-experts methods with zero-computation experts."arXivpreprint arXiv:2410.07348(2024).Jin, Peng, Bo Zhu, Li Yuan, andShuichengYan. "MoH: Multi-Head Attention as Mixture-of-Head Attention."arXivpreprint arXiv:2410.11842 (2024). 如何实现生成和理解统一的原生框架? 高效注意力机制永远都很重要 多模态CoT增强原生统一框架? LLaVA-CoT/o1模型开源,首个视觉多模态慢思考模型 如何实现生成和理解统一的原生框架? 争议点:统一Loss还是统一建模方式? 总结 ➢生成未必理解、理解无法视觉生成 ➢理解基本收敛于自回归、而生成架构仍未收敛到Diffusion ➢自回归AutoregressiveTransformer也许是大一统的关键 ➢类Sora架构对于生成理解统一模型的实现仍然意义重大 ➢路线之争:1.究竟完全押注于自回归,还是在Loss层面统一?2.视觉模态到底选择连续还是离散? Thank you!