阿⾥巴巴集团万象团队 摘要 这份报告介绍了“Wan”,⼀个全⾯开放的视频基础模型套件,旨在推动视频⽣成的边界。 Wan建⽴在主流扩散变压器范式之上,通过⼀系列创新(包括我们的新颖时空变分⾃动编码器(VAE)、可扩展的预训练策略、⼤规模数据整理和⾃动化评估指标)在⽣成能⼒⽅⾯取得了重⼤进展。这些贡献共同增强了模型的性能和多功能性。具体⽽⾔,Wan具有四个关键特性:领先性能:Wan的14B模型在⼀个包含数⼗亿张图像和视频的庞⼤数据集上进⾏训练,展⽰了视频⽣成相对于数据和模型⼤⼩的扩展规律。 它在多个内部和外部基准测试中始终优于现有的开源模型以及最先进的商业解决⽅案,表现出明显和显著的性能优势。全⾯性:Wan提供两个强⼤的模型,即1.3B和14B参数,分别⽤于效率和有效性。它还涵盖多个下游应⽤,包括图像到视频、指导式视频编辑和个⼈视频⽣成,涵盖多达⼋个任务。同时,Wan是第⼀个可以⽣成中⽂和英⽂视觉⽂本的模型,极⼤增强了其实⽤价值。消费级效率:1.3B模型展⽰出卓越的资源效率,仅需8.19GB的VRAM,使其与各种消费级GPU兼容。 内容 1介绍2 相关⼯作3 数据处理流程3.1预训练数据3.2培训后数据3.3密集视频字幕3.3.1开源数据集3.3.2内部数据集3.3.3模型设计3.3.4评估4 模型设计与加速4.1时空变分⾃动编码器 . . . . . . . . . . . . . . . . . . . . . . . . .4.1.1模型设计 . . . . . . . . . . . . . . . . . . . . . . . . . . . 104.1.2训练 . . . . . . . . . . . . . . . . . . . . . . . . . . .4.1.3⾼效推理4.1.4评估4.2.1视频扩散转换器4.2.2预训练4.2.3后训练4.3.2并⾏策略4.3.3内存优化4.3.4集群可靠性4.4推理4.4.1并⾏策略4.4.2扩散缓存4.4.3量化4.5提⽰对⻬4.6基准测试4.7评估4.7.1指标和结果4.7.2消融研究5扩展应⽤5.1图像到视频⽣成5.1.1模型设计 265.1.2数据集5.1.3评估5.2统⼀视频编辑5.2.1模型设计5.2.2数据集和实现 . . . . . . . . . . . . . . . . . . . . . . . . . . .5.2.3评估 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .5.3⽂本到图像⽣成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .5.4视频个性化5.4.1模型设计 355.4.2数据集5.4.3评价5.5相机运动可控性385.6实时视频⽣成5.6.1⽅法385.6.2流媒体视频⽣成5.6.3⼀致性模型蒸馏5.7⾳频⽣成5.7.1模型设计5.7.2评估6限制和结论7 贡献者 3 5 47 49 ⾃从OpenAI介绍了Sora(OpenAI, 2024)以来,视频⽣成技术引起了⾏业和学术界的⼴泛关注,促使该领域取得了迅速发展。 出现了能够⽣成与专业制作内容媲美的视频的模型,极⼤地提⾼了内容创作的效率,同时降低了视频制作的成本。视频⽣成技术的这些快速进展也很⼤程度上归功于开源社区的发展。像HunyuanVideo(Kong等,2024)、Mochi(GenmoTeam, 2024)和CogVideoX(Yang等,2025b)等值得注意的项⽬已经公开了他们的视频基础模型代码和权重,逐渐缩⼩了开源模型与商业模型之间的差距。然⽽,需要认识到这些杰出的开源模型与最新的闭源模型之间持续存在差距。这种差距主要体现在三个⽅⾯:性能不佳:在性能上仍然存在显著差距,因为商业模型的发展速度远远超过当前开源模型,导致商业模型具有显著卓越的性能。能⼒有限: ⼤多数基础模型仅限于⼀般的⽂本到视频(T2V)任务,⽽视频创作的需求是多⽅⾯的。因此,基本的T2V模型⽆法满⾜这些多样化的要求。效率不⾜:尽管这些模型在性能和规模上表现出⾊,但对于计算资源有限的创意团队来说,这些模型往往是不切实际的,阻碍了它们的可访问性和可⽤性。这些挑战共同限制了开源社区的持续增⻓和创新。 为了解决上述挑战,本报告介绍并公开发布了⼀系列新型的⾼性能基础视频⽣成模型,称为Wan,这将在该领域树⽴新的基准。Wan的核⼼设计受到扩散Transformer(DiT)(Peebles&Xie, 2023)的成功的启发,结合了Flow Matching(Lipman等,2022),这是⼀个已经证明在⽂本到图像(T2I)(Esser等,2024)和⽂本到视频(T2V)(Kong等,2024)任务中通过扩展可以获得显著性能提升的框架。在这种架构范式中,跨注意⼒被⽤来嵌⼊⽂本条件,⽽模型的设计经过精⼼优化,以确保计算效率和精确的⽂本可控性。 为了进⼀步增强模型捕捉复杂动态的能⼒,全时空注意⼒机制被纳⼊。通过⼤量实验,该模型经过了规模验证,达到了140亿参数。随后,Wan已经⻅过包括数⼗亿张图像和视频在内的⼤规模数据,总计达到了O(1)万亿标记。这种⼴泛的训练促使模型能⼒的出现,使其能够在多个维度上表现出健壮的性能,例如运动幅度和质量,视觉⽂本⽣成,摄像机控制,指令遵循和⻛格多样性。在强⼤的基础模型基础上,我们已经将其能⼒扩展到许多下游任务,包括图像到视频⽣成(I2V)、指导式视频编辑(V2V)、零镜头个性化定制、实时视频⽣成和⾳频⽣成,以及其他关键应⽤。为了最⼩化推理成本,我们还引⼊了⼀个⽤于T2V和I2V的13亿模型和⼀个14亿模型,两者都⽀持480p分辨率,并极⼤地提⾼了推理效率。值得注意的是,13亿模型仅需要8.19G的VRAM,使其能够在许多消费级GPU上运⾏,⽽其性能超过许多更⼤的开源模型。 此外,我们还将公开展⽰整个训练过程,包括⼤规模数据构建流⽔线、视频变分⾃动编码器(VAE)、训练策略、加速技术和⾃动化评估算法,以赋予社区开发专⻔的基础视频模型的能⼒。此外,我们还将提供全⾯的设计细节和实验结果,提供在⼤规模⽣成模型资源密集训练过程中观察到的现象的⻅解,以及我们的主要发现和结论。我们相信这些贡献将在加速视频⽣成技术的进步中发挥重要作⽤。 2 相关⼯作 在⽣成建模的推动下,⼤规模视频模型领域发展显著,特别是在基于扩散的框架中。我们的回顾聚焦于两个⼴泛的类别: 来⾃闭源模型和开源社区的贡献 此外,Wan提供⼀系列功能,包括⽂本到视频、图像到视频和视频编辑能⼒。 闭源模型。闭源模型主要是由主要技术公司开发的,旨在通过投⼊⼤量资源实现⾼质量、专业视频⽣成。我们按时间顺序组织了过去⼀年发布的显著模型。2024年2⽉,OpenAI推出了Sora(OpenAI,2024年),并在AI⽣成内容⽅⾯迈出了重要的⼀步。2024年6⽉,快⼿推出了Kling(Kuaishou,2024.06)和Luma 1.0(LumaLabs,2024.06),供公众测试,提供强⼤的视频⽣成能⼒。与此同时,Runway推出了Gen-3(Runway,2024.06),在Gen-2(Runway,2023)的基础上进⼀步提升了视频创作标准。2024年7⽉,圣数AI发布了Vidu(鲍等⼈,2024年),配备了⾃主设计的U-ViT(鲍等⼈,2023年)架构。2024年9⽉,Kling和Luma均升级到1.5版本。同期,MiniMax推出了 Hailuo Video(MiniMax,2024.09),向公众提供令⼈印象深刻的视觉效果。2024年10⽉,PikaLabs推出Pika 1.5(PikaLabs,2024.10),使⽤⼾能够定制视频中的视觉和物理属性。此外,Meta推出了Movie Gen(Polyak等),这是⼀系列详细介绍培训过程和应⽤的视频基础模型。到2024年12⽉,Kling升级⾄1.6版本,与此同时,Google发布了改进了对真实世界物理和⼈体运动微妙理解的Veo 2(DeepMind,2024.12)。 这些发展突显了视频⽣成领域的激烈全球竞争。在这种背景下,我们的开源Wan在内部和外部基准测试中显⽰出竞争⼒甚⾄优越性,领先于多个⽅⾯。 开源社区的贡献。另⼀⽅⾯,开源社区不仅在整体视频⽣成模型⽅⾯做出了重要贡献,还探索了重要模型组件的应⽤,基于稳定扩散(Rombach等⼈,2022)架构的扩散式视频⽣成模型通常包括三个关键模块: ⾃动编码器将原始视频映射到紧凑的潜在空间,⽂本编码器提取⽂本嵌⼊,并通过扩散模型优化的神经⽹络学习这些视频潜在的分布。对于⽹络结构,最初⽤于图像⽣成的U-Net(Ronneberger等⼈,2015)被调整为视频⽣成,融⼊时间维度。VDM(Ho等⼈,2022)将2D U-Net扩展为3D版本,另⼀范例(Zhou等⼈,2022; Wang等⼈,2023a; Guo等⼈,2024b)引⼊了1D时间关注与2D空间关注块,以减少计算成本。值得注意的是,仅依赖变压器块的Diffusion Transformers(DiT(Peebles&Xie,2023))在视觉⽣成任务中优于U-Net(Chen等⼈,2023a)。这种结构也被转移到视频模型(Ma等⼈,2024),衍⽣出两种常⻅变体:原始DiT(Peebles&Xie,2023; HaCohen等⼈,2024),它使⽤交叉关注进⾏⽂本嵌⼊,以及MM-DiT(Gen-moTeam,2024; Kong等⼈,2024),其中⽂本嵌⼊与视觉嵌⼊连接以进⾏全关注处理。关于⾃动编码器,尽管早期⽅法(Rombach等⼈,2022)采⽤标准VAE(Kingma,2013),但最近的⾃动编码器,如VQ-VAE(Van Den Oord等⼈,2017)和VQGAN(Esser等⼈,2021),改善了模型设计以实现更好的重建和压缩。LTX-Video(HaCohen等⼈,2024)修改了VAE解码器以执⾏最终去噪步骤,并将潜在转换为像素,在解码过程中⽣成丢失的⾼频细节。⽂本编码器对基于⽂本的视频⽣成也⾄关重要。当前强⼤的视频⽣成模型主要利⽤T5系列(Raffel等⼈,2020)作为主要⽂本编码器,通常与CLIP(Radford等⼈,2021)结合使⽤。在HunyuanVideo(Kong等⼈,2024)的情况下,T5被替换为多模态⼤型语⾔模型(Liu等⼈,2023c; Li等⼈,2023)以实现⽂本嵌⼊和视觉特征之间更强⼤的对⻬。 通过将这些关键模块与有效的基于扩散的优化技术(Ho等⼈,2020; Song&Ermon,2019; Lipman等⼈,2022)相结合,出现了多个颇具前景的开源视频⽣成模型(GenmoTeam,2024; Kong等⼈,2024; HaCohen等⼈,2024; Zheng等⼈,2024; Lin等⼈,2024; Jin等⼈,2024; Yang等⼈,2025b)。在Wan中,我们精⼼设计或选择每个关键组件,以确保⾼质量的视频合成。我们提供详细的设计信息和消融研究,有助于未来视频⽣成模型的设计。 此外,许多研究探索了视频⽣成中的下游任务。这些任务包括AI重新绘制(AI,2022; Zhou等⼈,2023),编辑(Meng等⼈,2021; Brooks等⼈,2023;张等⼈,2023a;王等⼈,2023b;魏等⼈,2024b),可控⽣成(张等⼈,2023b;江等⼈,2024;王等⼈,2024c)和帧引⽤⽣成(Yang等⼈,2025b;郭等⼈,2024a),通常利⽤基于转接器和ControlNet样式架构(张等⼈,2023b; Chu等⼈,2023)来整合⽤⼾指定条件。我们还基于Wan开发了各种下游应⽤,表现出出⾊的性能。Zhang等⼈,2023a; 王等⼈,2023b; 魏等⼈,2024b), 可控⽣成 (Zha