混元视频生成技术负责人王红法介绍了混元视频生成技术,涵盖生成模型的技术介绍和混元视频生成能力。
生成模型概述
生成模型是统计机器学习的一大领域,核心问题是从简单分布到复杂分布的映射转换。生成模型具有两大价值:
- 判别模型:通过简单分布采样生成图像/视频,降低数据获取成本,如文生图、文生视频等。
- 生成模型:学习类别概率分布,生成样本,包含更多信息。
主流技术:扩散模型
扩散模型是图像/视频生成的主流方法,其流程包括:
- 文本/图像编码器:提取输入的embedding作为条件引导模型训练。
- 时空扩散模型:空域-时域交替扩散,从噪声序列迭代去噪,生成小分辨率视频。
- 超分模型:进一步提升视频分辨率和流畅度。
视频生成难点与解决方案
视频生成面临三大难点:
- 动作建模合理:
- 数据层面:开源视频数据量小(约10M量级)、动作分布差异大、高纬度计算复杂度高。
- 解决方案:提升数据规模和计算效率。
- 语义对齐准确:
- 数据层面:开源数据脏、噪声大、中文和中国元素缺失。
- 模型层面:CLIP文本语义表征能力待增强。
- 解决方案:优化数据质量和模型语义理解。
- 画质细节精美:
- 数据层面:开源数据分辨率低、有水印。
- 模型层面:传统超分方法不适用。
- 解决方案:开发适配视频的超分模型。
混元视频生成核心能力
- 文生视频:输入任意文案题词,生成多时长多分辨率视频。
- 图生视频:输入任意尺寸图片,生成合理动作的视频。
- 图+文生视频:输入图片和文案,生成指定动作的视频。
应用场景
- 视频风格化:输入视频和风格选择,生成对应风格视频(最长15s)。
- 跳舞视频:输入原始图像,生成指定舞蹈模板(单人、多人、动物、动漫等)。
- 运动笔刷:输入图像,指定运动区域,生成动态效果。
- 区域重绘:输入视频,指定区域进行重绘。
- 画布扩展:输入视频,任意比例扩张画布(横转竖、竖转横等)。
- 特效生成:输入多张图片生成动态插帧视频,或文字图⽚生成艺术字视频。
总结
混元视频生成技术基于扩散模型,通过解决动作建模、语义对齐和画质细节三大难点,实现文生、图生、图+文生视频等功能,并应用于视频风格化、跳舞视频、运动笔刷、区域重绘、画布扩展和特效生成等场景。
混元视频⽣成技术介绍
王红法混元视频⽣成技术负责⼈
•视频⽣成的技术介绍•混元视频⽣成能⼒介绍
⽣成模型:统计机器学习中的⼀⼤领域
⽣成模型:更具挑战与价值
核⼼问题:
学习⼀个从简单(先验)分布到复杂(⽬标)分布的映射/转换。
⽣成模型的挑战:需要更多数据&