行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

开放和先进的大模型视频生成模型

信息技术 2025-03-21 - 阿里巴巴匡露

Wan 是阿里巴巴集团万象团队开发的一系列开放和先进的大规模视频生成模型，旨在推动视频生成的边界。Wan 建立在主流扩散变压器范式之上，通过一系列创新（包括新颖的时空变分自动编码器（VAE）、可扩展的预训练策略、大规模数据整理和自动化评估指标）在生成能力方面取得了重大进展。

Wan 的关键特性：

领先性能： Wan 的 14B 模型在包含数十亿张图像和视频的庞大数据集上进行训练，展示了视频生成相对于数据和模型大小的扩展规律。它在多个内部和外部基准测试中始终优于现有的开源模型以及最先进的商业解决方案，表现出明显和显著的性能优势。
全面性： Wan 提供两个强大的模型，即 1.3B 和 14B 参数，分别用于效率和有效性。它还涵盖多个下游应用，包括图像到视频、指导式视频编辑和个人视频生成，涵盖多达八个任务。同时，Wan 是第一个可以生成中文和英文视觉文本的模型，极大增强了其实用价值。
消费级效率： 1.3B 模型展示出卓越的资源效率，仅需 8.19GB 的 VRAM，使其与各种消费级 GPU 兼容。

Wan 的创新点：

时空变分自动编码器（VAE）： Wan-VAE 专门设计用于视频生成，结合多种策略来改进时空压缩，减少内存使用量，并确保时间因果关系。
可扩展的预训练策略： Wan 采用流匹配框架进行预训练，通过多阶段联合优化图像和视频，并利用大规模数据整理和自动化评估指标。
模型设计和加速： Wan 采用扩散变压器（DiT）架构，并结合上下文并行和模型分片等技术来提高训练和推理效率。
提示对齐： Wan 通过增加训练数据中的字幕多样性和改写用户提示，使其与训练阶段的视频字幕分布保持一致，从而提高模型推断的有效性。
基准测试： Wan 提出了 Wan-Bench，一个自动化、全面且与人类感知对齐的基准测试套件，用于评估视频生成模型的动态质量、图像质量和指令遵循准确性。

Wan 的应用：

图像到视频生成（I2V）： Wan-I2V 模型可以有效地将各种类型的图像转换为高度逼真和动态的视频。
统一视频编辑： Wan 提供了一个统一的可控生成和编辑框架，支持多种输入格式和任务，如修补、扩展、深度调整、姿势调整等。
文本到图像生成： Wan 在图像数据集上联合训练，使其在图像合成方面也表现出色。
视频个性化： Wan 可以生成与用户提供的参考一致的视频，并通过人脸检测和分割来获取个性化身份信息。
摄像机运动可控性： Wan 可以通过利用摄像机轨迹准确匹配视频的运动和视角。
实时视频生成： Wan 通过结合 Streamer 和一致性模型（LCM）实现了实时视频生成，并通过量化技术优化模型以进行高效部署。
音频生成： Wan 可以生成与视频剪辑同步的配乐，包括环境声音和背景音乐。

Wan 的限制：

在涉及大幅度运动场景中保留细粒度细节仍然是一个挑战。
与大规模模型相关的计算成本仍然是具有限制性的。
仍然缺乏领域特定的专业知识。

Wan 的结论：

Wan 为视频生成建立了一个新的基准，并通过开源其模型和提供全面的设计细节和实验结果，为视频生成领域的进步做出了重要贡献。

阿⾥巴巴集团万象团队摘要这份报告介绍了“Wan”，⼀个全⾯开放的视频基础模型套件，旨在推动视频⽣成的边界。 Wan建⽴在主流扩散变压器范式之上，通过⼀系列创新（包括我们的新颖时空变分⾃动编码器（VAE）、可扩展的预训练策略、⼤规模数据整理和⾃动化评估指标）在⽣成能⼒⽅⾯取得了重⼤进展。这些贡献共同增强了模型的性能和多功能性。具体⽽⾔，Wan具有四个关键特性：领先性能：Wan的14B模型在⼀个包含数⼗亿张图像和视频的庞⼤数据集上进⾏训练，展⽰了视频⽣成相对于数据和模型⼤⼩的扩展规律。它在多个内部和外部基准测试中始终优于现有的开源模型以及最先进的商业解决⽅案，表现出明显和显著的性能优势。全⾯性：Wan提供两个强⼤的模型，即1.3B和14B参数，分别⽤于效率和有效性。它还涵盖多个下游应⽤，包括图像到视频、指导式视频编辑和个⼈视频⽣成，涵盖多达⼋个任务。同时，Wan是第⼀个可以⽣成中⽂和英⽂视觉⽂本的模型，极⼤增强了其实⽤价值。消费级效率：1.3B模型展⽰出卓越的资源效率，仅需8.19GB的VRAM，使其与各种消费级GPU兼容。内容 1介绍2 相关⼯作3 数据处理流程3.1预训练数据3.2培训后数据3.3密集视频字幕3.3.1开源数据集3.3.2内部数据集3.3.3模型设计3.3.4评估4 模型设计与加速4.1时空变分⾃动编码器 . . . . . . . . . . . . . . . . . . . . . . . . .4.1.1模型设计 . . . . . . . . . . . . . . . . . . . . . . . . . . . 104.1.2训练 . . . . . . . . . . . . . . . . . . . . . . . . . . .4.1.3⾼效推理4.1.4评估4.2.1视频扩散转换器4.2.2预训练4.2.3后训练4.3.2并⾏策略4.3.3内存优化4.3.4集群可靠性4.4推理4.4.1并⾏策略4.4.2扩散缓存4.4.3量化4.5提⽰对⻬4.6基准测试4.7评估4.7.1指标和结果4.7.2消融研究5扩展应⽤5.1图像到视频⽣成5.1.1模型设计 265.1.2数据集5.1.3评估5.2统⼀视频编辑5.2.1模型设计5.2.2数据集和实现 . . . . . . . . . . . . . . . . . . . . . . . . . . .5.2.3评估 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .5.3⽂本到图像⽣成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .5.4视频个性化5.4.1模型设计 355.4.2数据集5.4.3评价5.5相机运动可控性385.6实时视频⽣成5.6.1⽅法385.6.2流媒体视频⽣成5.6.3⼀致性模型蒸馏5.7⾳频⽣成5.7.1模型设计5.7.2评估6限制和结论7 贡献者 3 5 47 49 ⾃从OpenAI介绍了Sora（OpenAI, 2024）以来，视频⽣成技术引起了⾏业和学术界的⼴泛关注，促使该领域取得了迅速发展。出现了能够⽣成与专业制作内容媲美的视频的模型，极⼤地提⾼了内容创作的效率，同时降低了视频制作的成本。视频⽣成技术的这些快速进展也很⼤程度上归功于开源社区的发展。像HunyuanVideo（Kong等，2024）、Mochi（GenmoTeam, 2024）和CogVideoX（Yang等，2025b）等值得注意的项⽬已经公开了他们的视频基础模型代码和权重，逐渐缩⼩了开源模型与商业模型之间的差距。然⽽，需要认识到这些杰出的开源模型与最新的闭源模型之间持续存在差距。这种差距主要体现在三个⽅⾯：性能不佳：在性能上仍然存在显著差距，因为商业模型的发展速度远远超过当前开源模型，导致商业模型具有显著卓越的性能。能⼒有限：⼤多数基础模型仅限于⼀般的⽂本到视频（T2V）任务，⽽视频创作的需求是多⽅⾯的。因此，基本的T2V模型⽆法满⾜这些多样化的要求。效率不⾜：尽管这些模型在性能和规模上表现出⾊，但对于计算资源有限的创意团队来说，这些模型往往是不切实际的，阻碍了它们的可访问性和可⽤性。这些挑战共同限制了开源社区的持续增⻓和创新。为了解决上述挑战，本报告介绍并公开发布了⼀系列新型的⾼性能基础视频⽣成模型，称为Wan，这将在该领域树⽴新的基准。Wan的核⼼设计受到扩散Transformer（DiT）（Peebles＆Xie, 2023）的成功的启发，结合了Flow Matching（Lipman等，2022），这是⼀个已经证明在⽂本到图像（T2I）（Esser等，2024）和⽂本到视频（T2V）（Kong等，2024）任务中通过扩展可以获得显著性能提升的框架。在这种架构范式中，跨注意⼒被⽤来嵌⼊⽂本条件，⽽模型的设计经过精⼼优化，以确保计算效率和精确的⽂本可控性。为了进⼀步增强模型捕捉复杂动态的能⼒，全时空注意⼒机制被纳⼊。通过⼤量实验，该模型经过了规模验证，达到了140亿参数。随后，Wan已经⻅过包括数⼗亿张图像和视频在内的⼤规模数据，总计达到了O（1）万亿标记。这种⼴泛的训练促使模型能⼒的出现，使其能够在多个维度上表现出健壮的性能，例如运动幅度和质量，视觉⽂本⽣成，摄像机控制，指令遵循和⻛格多样性。在强⼤的基础模型基础上，我们已经将其能⼒扩展到许多下游任务，包括图像到视频⽣成（I2V）、指导式视频编辑（V2V）、零镜头个性化定制、实时视频⽣成和⾳频⽣成，以及其他关键应⽤。为了最⼩化推理成本，我们还引⼊了⼀个⽤于T2V和I2V的13亿模型和⼀个14亿模型，两者都⽀持480p分辨率，并极⼤地提⾼了推理效率。值得注意的是，13亿模型仅需要8.19G的VRAM，使其能够在许多消费级GPU上运⾏，⽽其性能超过许多更⼤的开源模型。此外，我们还将公开展⽰整个训练过程，包括⼤规模数据构建流⽔线、视频变分⾃动编码器（VAE）、训练策略、加速技术和⾃动化评估算法，以赋予社区开发专⻔的基础视频模型的能⼒。此外，我们还将提供全⾯的设计细节和实验结果，提供在⼤规模⽣成模型资源密集训练过程中观察到的现象的⻅解，以及我们的主要发现和结论。我们相信这些贡献将在加速视频⽣成技术的进步中发挥重要作⽤。 2 相关⼯作在⽣成建模的推动下，⼤规模视频模型领域发展显著，特别是在基于扩散的框架中。我们的回顾聚焦于两个⼴泛的类别：来⾃闭源模型和开源社区的贡献此外，Wan提供⼀系列功能，包括⽂本到视频、图像到视频和视频编辑能⼒。闭源模型。闭源模型主要是由主要技术公司开发的，旨在通过投⼊⼤量资源实现⾼质量、专业视频⽣成。我们按时间顺序组织了过去⼀年发布的显著模型。2024年2⽉，OpenAI推出了Sora（OpenAI，2024年），并在AI⽣成内容⽅⾯迈出了重要的⼀步。2024年6⽉，快⼿推出了Kling（Kuaishou，2024.06）和Luma 1.0（LumaLabs，2024.06），供公众测试，提供强⼤的视频⽣成能⼒。与此同时，Runway推出了Gen-3（Runway，2024.06），在Gen-2（Runway，2023）的基础上进⼀步提升了视频创作标准。2024年7⽉，圣数AI发布了Vidu（鲍等⼈，2024年），配备了⾃主设计的U-ViT（鲍等⼈，2023年）架构。2024年9⽉，Kling和Luma均升级到1.5版本。同期，MiniMax推出了 Hailuo Video（MiniMax，2024.09），向公众提供令⼈印象深刻的视觉效果。2024年10⽉，PikaLabs推出Pika 1.5（PikaLabs，2024.10），使⽤⼾能够定制视频中的视觉和物理属性。此外，Meta推出了Movie Gen（Polyak等），这是⼀系列详细介绍培训过程和应⽤的视频基础模型。到2024年12⽉，Kling升级⾄1.6版本，与此同时，Google发布了改进了对真实世界物理和⼈体运动微妙理解的Veo 2（DeepMind，2024.12）。这些发展突显了视频⽣成领域的激烈全球竞争。在这种背景下，我们的开源Wan在内部和外部基准测试中显⽰出竞争⼒甚⾄优越性，领先于多个⽅⾯。开源社区的贡献。另⼀⽅⾯，开源社区不仅在整体视频⽣成模型⽅⾯做出了重要贡献，还探索了重要模型组件的应⽤，基于稳定扩散（Rombach等⼈，2022）架构的扩散式视频⽣成模型通常包括三个关键模块：⾃动编码器将原始视频映射到紧凑的潜在空间，⽂本编码器提取⽂本嵌⼊，并通过扩散模型优化的神经⽹络学习这些视频潜在的分布。对于⽹络结构，最初⽤于图像⽣成的U-Net（Ronneberger等⼈，2015）被调整为视频⽣成，融⼊时间维度。VDM（Ho等⼈，2022）将2D U-Net扩展为3D版本，另⼀范例(Zhou等⼈，2022; Wang等⼈，2023a; Guo等⼈，2024b)引⼊了1D时间关注与2D空间关注块，以减少计算成本。值得注意的是，仅依赖变压器块的Diffusion Transformers（DiT（Peebles＆Xie，2023））在视觉⽣成任务中优于U-Net（Chen等⼈，2023a）。这种结构也被转移到视频模型（Ma等⼈，2024），衍⽣出两种常⻅变体：原始DiT（Peebles＆Xie，2023; HaCohen等⼈，2024），它使⽤交叉关注进⾏⽂本嵌⼊，以及MM-DiT（Gen-moTeam，2024; Kong等⼈，2024），其中⽂本嵌⼊与视觉嵌⼊连接以进⾏全关注处理。关于⾃动编码器，尽管早期⽅法（Rombach等⼈，2022）采⽤标准VAE（Kingma，2013），但最近的⾃动编码器，如VQ-VAE（Van Den Oord等⼈，2017）和VQGAN（Esser等⼈，2021），改善了模型设计以实现更好的重建和压缩。LTX-Video（HaCohen等⼈，2024）修改了VAE解码器以执⾏最终去噪步骤，并将潜在转换为像素，在解码过程中⽣成丢失的⾼频细节。⽂本编码器对基于⽂本的视频⽣成也⾄关重要。当前强⼤的视频⽣成模型主要利⽤T5系列（Raffel等⼈，2020）作为主要⽂本编码器，通常与CLIP（Radford等⼈，2021）结合使⽤。在HunyuanVideo（Kong等⼈，2024）的情况下，T5被替换为多模态⼤型语⾔模型（Liu等⼈，2023c; Li等⼈，2023）以实现⽂本嵌⼊和视觉特征之间更强⼤的对⻬。通过将这些关键模块与有效的基于扩散的优化技术（Ho等⼈，2020; Song＆Ermon，2019; Lipman等⼈，2022）相结合，出现了多个颇具前景的开源视频⽣成模型（GenmoTeam，2024; Kong等⼈，2024; HaCohen等⼈，2024; Zheng等⼈，2024; Lin等⼈，2024; Jin等⼈，2024; Yang等⼈，2025b）。在Wan中，我们精⼼设计或选择每个关键组件，以确保⾼质量的视频合成。我们提供详细的设计信息和消融研究，有助于未来视频⽣成模型的设计。此外，许多研究探索了视频⽣成中的下游任务。这些任务包括AI重新绘制（AI，2022; Zhou等⼈，2023），编辑（Meng等⼈，2021; Brooks等⼈，2023;张等⼈，2023a;王等⼈，2023b;魏等⼈，2024b），可控⽣成（张等⼈，2023b;江等⼈，2024;王等⼈，2024c）和帧引⽤⽣成（Yang等⼈，2025b;郭等⼈，2024a），通常利⽤基于转接器和ControlNet样式架构（张等⼈，2023b; Chu等⼈，2023）来整合⽤⼾指定条件。我们还基于Wan开发了各种下游应⽤，表现出出⾊的性能。Zhang等⼈，2023a; 王等⼈，2023b; 魏等⼈，2024b), 可控⽣成 (Zha

点击免费查看完整报告

开放和先进的大模型视频生成模型

你可能感兴趣

互联网传媒行业周报：周观点：网易有道发布教育大模型“子曰”，Runway视频生成工具Gen-2全面开放

传媒行业重大事项点评：豆包大模型发布视频生成模型，具备影视级视觉效果

计算机行业周报：Genio 720和Genio 520联合发布，视频生成模型Open-Sora 2.0发布

传媒行业动态跟踪：阿里视频生成模型登顶技术榜单，看好后续推理增强和Agent带动token用量加速

【财联社早知道】全球首个影视行业大模型！PixVerse C1正式发布，机构称AI视频及图像生成技术规模化商用落地进程显著提速，这家公司基于自己的大模型打造了一站式AI视频创作工作台-20260409

【风口研报·行业】OpenAl正式发布视频生成模型Sora，分析师多角度看Sora颠覆之处，并看好这几家深耕虚拟现实产业的公司或将受益;OpenAI计划筹集数万亿美金扩张GPU等AI算力基建

【机构龙虎榜解读】多模态+AI视频+短剧+抖音电商，与巨量引擎签署数据推广合作协议，基于自研营销领域专用的AIGC多模态模型，已实现图片、视频等多种形式的智能化内容生成，这家公司获净买入

传媒：Runway：基础模型快速迭代，视频生成领域的先行者

周一舆情热度：①人工智能-OpenAI发布首个文生视频模型Sora，可以使用文字指令生成长达一分钟的高清视频

热议1、Sora（文生视频）：2024年2月16日OpenAI发布了文生视频模型Sora，可以在用户的要求下生成视频