行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

混元视频生成技术介绍

2024-03-25 腾讯秋穆

混元视频生成技术负责人王红法介绍了混元视频生成技术，涵盖生成模型的技术介绍和混元视频生成能力。

生成模型概述
生成模型是统计机器学习的一大领域，核心问题是从简单分布到复杂分布的映射转换。生成模型具有两大价值：

判别模型：通过简单分布采样生成图像/视频，降低数据获取成本，如文生图、文生视频等。
生成模型：学习类别概率分布，生成样本，包含更多信息。

主流技术：扩散模型
扩散模型是图像/视频生成的主流方法，其流程包括：

文本/图像编码器：提取输入的embedding作为条件引导模型训练。
时空扩散模型：空域-时域交替扩散，从噪声序列迭代去噪，生成小分辨率视频。
超分模型：进一步提升视频分辨率和流畅度。

视频生成难点与解决方案
视频生成面临三大难点：

动作建模合理：
- 数据层面：开源视频数据量小（约10M量级）、动作分布差异大、高纬度计算复杂度高。
- 解决方案：提升数据规模和计算效率。
语义对齐准确：
- 数据层面：开源数据脏、噪声大、中文和中国元素缺失。
- 模型层面：CLIP文本语义表征能力待增强。
- 解决方案：优化数据质量和模型语义理解。
画质细节精美：
- 数据层面：开源数据分辨率低、有水印。
- 模型层面：传统超分方法不适用。
- 解决方案：开发适配视频的超分模型。

混元视频生成核心能力

文生视频：输入任意文案题词，生成多时长多分辨率视频。
图生视频：输入任意尺寸图片，生成合理动作的视频。
图+文生视频：输入图片和文案，生成指定动作的视频。

应用场景

视频风格化：输入视频和风格选择，生成对应风格视频（最长15s）。
跳舞视频：输入原始图像，生成指定舞蹈模板（单人、多人、动物、动漫等）。
运动笔刷：输入图像，指定运动区域，生成动态效果。
区域重绘：输入视频，指定区域进行重绘。
画布扩展：输入视频，任意比例扩张画布（横转竖、竖转横等）。
特效生成：输入多张图片生成动态插帧视频，或文字图⽚生成艺术字视频。

总结
混元视频生成技术基于扩散模型，通过解决动作建模、语义对齐和画质细节三大难点，实现文生、图生、图+文生视频等功能，并应用于视频风格化、跳舞视频、运动笔刷、区域重绘、画布扩展和特效生成等场景。

混元视频⽣成技术介绍王红法混元视频⽣成技术负责⼈ •视频⽣成的技术介绍•混元视频⽣成能⼒介绍⽣成模型：统计机器学习中的⼀⼤领域⽣成模型：更具挑战与价值核⼼问题：学习⼀个从简单（先验）分布到复杂（⽬标）分布的映射/转换。⽣成模型的挑战：需要更多数据&计算，才能学习好数据的分布。⽣成模型的价值： •判别模型：学习完成后，只需从简单分布采样⼀个随机样本，通过⽣成模型即可输出⼀张图像或⼀段视频，显著降低获取数据的代价；寻找⼀个决策边界，通过该边界来将样本划分到对应类别。当前主流的⽂⽣图模型、⽂⽣视频模型、⽂⽣3D模型，都属于⽣成模型的范畴。 •⽣成模型：学习每个类别的概率分布，它包含了更多信息，可以⽤来⽣成样本。扩散模型：图像/视频⽣成的主流⽅法 https://lilianweng.github.io/posts/2021-07-11-diffusion-models/#forward-diffusion-process 基于扩散模型的视频⽣成pipline ①⽂本/图⽚编码器：提取⽂本(或图像]的embedding,作为条件引导视频扩散模型的训练；②时空扩散模型：空域-时域交替扩散，从噪声序列中迭代去噪，得到⼩分辨率视频；③超分模型：进⼀步得到画质更⾼、更流畅的⾼分辨率视频；视频⽣成的难点与解决⽅案难点2：语义对齐准确难点3：画质细节精美难点1：动作建模合理 Ø数据层⾯：开源视⽂数据量⼩(～10M量级)Ø模型层⾯：视频动作分布差异⼤，建模困难Ø资源层⾯：⾼纬度计算复杂度⾼，训练低效 Ø数据层⾯：开源视⽂数据脏，噪声⼤，粒度粗；中⽂、中国元素缺少Ø模型层⾯：CLIP⽂本语义表征能⼒有待增强 Ø数据层⾯：开源视⽂数据分辨率低、有⽔印Ø模型层⾯：图⽚超分、传统视频超分都不适⽤ •视频⽣成的技术介绍•混元视频⽣成能⼒介绍核⼼能⼒1-⽂⽣视频 l输⼊任意⽂案题词，⽣成多时长多分辨率视频核⼼能⼒2：图⽣视频 l输⼊任意尺⼨图⽚，⽣成合理动作的视频核⼼能⼒3：图+⽂⽣视频 l输⼊任意尺⼨图⽚+⽂案题词，⽣成指定动作的视频视频⽣成应⽤-视频风格化 l⽤户输⼊视频，选择转换的风格，⽣成对应风格的视频，⽀持最多15s视频⽣成。交互⽅式视频⽣成应⽤：跳舞视频 l输⼊原始图像，⽣成指定舞蹈的跳舞视频l⽀持多种舞蹈模板，单⼈、多⼈、动物、动漫等各种主体形式 1.⽤户上传视频视频⽣成应⽤：运动笔刷 l输⼊原始图像，指定需要运动的区域，⽣成对应指令的视频 followyourclick,⼀键点，万物动视频⽣成应⽤：区域重绘 l输⼊原始视频，指定任意区域，根据指定重绘指定区域交互⽅式 1.⽤户输⼊视频，选择重绘区域视频⽣成：画布扩展 l输⼊原始视频，⽀持视频画布任意⽐例的扩张（横转竖、竖转横、任意外扩等）视频⽣成：特效⽣成 l输⼊多张图⽚，⽣成动态插帧视频 l输⼊⽂字图⽚，⽣成艺术字视频⽤户输⼊ THANKS！感谢聆听王红法混元视频⽣成技术负责⼈

点击免费查看完整报告

混元视频生成技术介绍

你可能感兴趣

全球科技行业周报：OpenAI发布视频与音频生成模型Sora2，腾讯混元图像3.0开源并登顶

港股周报：阿里HappyHorse登顶视频生成榜首，腾讯混元3.0有望于近期发布

全球科技行业周报：混元大模型将上线视频生成功能，关注金融IT机会

传媒行业周报：腾讯混元开源游戏AI生成新工具，昆仑万维推出Matrix~3D

腾讯官宣拓竹模型平台接入混元3D生成模型回顾一下先前xToolF2Ultr

【盘中宝】腾讯混元大模型即将发布！可大幅降低视频广告制作成本，在五大检索数据集榜单中位列第一，这家公司深度参与腾讯长三角人工智能先进计算中心项目

传媒行业周报：阿里开源全能视频模型腾讯发布混元图像2.0模型

东证传媒持续推荐快手可灵视频生成技术领先AIoption贡献估值弹性

计算机：OpenAI Sora模型发布，视频生成技术迎来突破性升级

AI视频生成技术原理与行业应用-北京大学-202512

混元视频生成技术介绍

你可能感兴趣

全球科技行业周报：OpenAI发布视频与音频生成模型Sora2，腾讯混元图像3.0开源并登顶

港股周报：阿里HappyHorse登顶视频生成榜首，腾讯混元3.0有望于近期发布

全球科技行业周报：混元大模型将上线视频生成功能，关注金融IT机会

传媒行业周报：腾讯混元开源游戏AI生成新工具，昆仑万维推出Matrix~3D

腾讯官宣拓竹模型平台接入混元3D生成模型回顾一下先前xToolF2Ultr

【盘中宝】腾讯混元大模型即将发布！可大幅降低视频广告制作成本，在五大检索数据集榜单中位列第一，这家公司深度参与腾讯长三角人工智能先进计算中心项目

传媒行业周报：阿里开源全能视频模型 腾讯发布混元图像2.0模型

东证传媒持续推荐快手可灵视频生成技术领先AIoption贡献估值弹性

计算机：OpenAI Sora模型发布，视频生成技术迎来突破性升级

AI视频生成技术原理与行业应用-北京大学-202512

传媒行业周报：阿里开源全能视频模型腾讯发布混元图像2.0模型