您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [datafun]:datafun2024-文生视频与应用实践 - 发现报告

datafun2024-文生视频与应用实践

2024-01-03 刘孟洋 datafun 杨建江
报告封面

文生视频与应用实践 刘孟洋,腾讯,高级算法工程师 目录 快速发展的文生视频主要难点应用实践未来展望 01 快速发展的文生视频 扩散模型 02 视频生成的主要难点 视频生成的三大核心困难 难点2:语义对齐准确 难点1:动作建模合理 难点3:画质细节精美 数据层面:开源视文数据量小(~10M量级)模型层面:视频动作分布差异大,建模困难资源层面:高纬度计算复杂度高,训练低效 数据层面:开源视文数据脏,噪声大,粒度粗;中文、中国元素缺少模型层面:CLIP文本语义表征能力有待增强 数据层面:开源视文数据分辨率低、有水印模型层面:图片超分、传统视频超分都不适用 画面质感差 数量(4只猫) 画面细节糊 动作不自然 画面不连贯 运动质量提升 ✧设计空域-时域交替训练+多时域尺度训练方式,多维度提升short-term及long-term时序建模能力✧引入运动信息embedding,关联训练视频形态 ✧设计空间引导注意力机制,从模型+Loss双手段解决画面突变问题,更加关注在动作学习✧设计初始化Noise,在infer时迭代式的保留低频信号,实现稳定画面生成 https://arxiv.org/pdf/2312.07537.pdf 语义对齐准确 画质提升 整体质感提升 ✧设计局部划窗高斯平滑算法,实现高分辨率(8k)/超长视频(30s以上)超分 文生视频&图生视频 03 视频生成的应用实践 视频风格化转换 用户输入视频,选择转换的风格,生成对应风格的视频,支持最多15s视频生成。 技术实现 基于文生视频模型,denoising阶段中,叠加不同的控制信息(线条,深度图等) 人体姿态控制 用户输入参考图片并选择运动模板,生成视频中驱动参考图中人物主体跟随运动,保持背景同输入图像一致,运动产生空洞部分模型自动补全。 应用于舞蹈生成,定制化广告生成等 技术实现 自研condition merger模块,在基础文生视频模型之前进行多条件融合,对纹理、动作序列、语义等信息进行融合,实现稳定生成。 视频运动笔刷 用户输入图片,选择主体,输入指令,点选的主体跟随指令运动。 技术实现:基于文生视频模型,denoising阶段中,在初始噪声基础上添加输入图片信息,并计算光流指定运动区域。 交互方式 效果展示 1.用户输入图片,点选运动主体 04 一些不太长远的展望 一些不太长远的展望 Sora vs Others 1. Video Compression network 3. Scaling up "Scaling video generation models is a promisingpath towards building general purpose simulatorsof the physical world." --Sora 2. Latent Diffusion Transformer 感谢观看谢谢观看