行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

datafun2024-文生视频与应用实践

2024-01-03 刘孟洋 datafun 杨建江

文生视频与应用实践

快速发展的文生视频

文生视频技术正快速发展，主要基于扩散模型。该技术面临三大核心困难：

动作建模合理
- 数据层面：开源视文数据量小（约10M量级）
- 模型层面：视频动作分布差异大，建模困难
- 资源层面：高纬度计算复杂度高，训练低效
语义对齐准确
- 数据层面：开源视文数据脏、噪声大、粒度粗；中文和中国元素缺少
- 模型层面：CLIP文本语义表征能力有待增强
画质细节精美
- 数据层面：开源视文数据分辨率低、有水印
- 模型层面：图片超分和传统视频超分不适用

解决方案与效果

动作建模：设计空域-时域交替训练+多时域尺度训练，引入运动信息embedding，提升时序建模能力；设计空间引导注意力机制解决画面突变问题。
语义对齐：设计局部划窗高斯平滑算法实现高分辨率/超长视频超分。
画质提升：设计初始化Noise迭代保留低频信号，实现稳定画面生成。

视频生成的应用实践

文生视频&图生视频应用案例

视频风格化转换
- 用户输入视频，选择风格，生成对应风格视频（最长15s）。
- 技术实现：denoising阶段叠加控制信息（线条、深度图等）。
人体姿态控制
- 用户输入参考图片和运动模板，生成视频中人物主体跟随运动，背景保持一致。
- 应用于舞蹈生成、定制化广告生成等。
- 技术实现：自研condition merger模块融合纹理、动作序列、语义等信息。
视频运动笔刷
- 用户输入图片，选择主体，输入指令，主体跟随指令运动。
- 技术实现：denoising阶段在初始噪声基础上添加图片信息并计算光流指定运动区域。

交互方式与效果展示

用户输入图片，点选运动主体，生成动态效果。

一些不太长远的展望

Sora vs Others
1. Video Compression network
2. Latent Diffusion Transformer
3. Scaling up
  - "Scaling video generation models is a promising path towards building general purpose simulators of the physical world." --Sora

文生视频与应用实践刘孟洋，腾讯，高级算法工程师目录快速发展的文生视频主要难点应用实践未来展望 01 快速发展的文生视频扩散模型 02 视频生成的主要难点视频生成的三大核心困难难点2：语义对齐准确难点1：动作建模合理难点3：画质细节精美 数据层面：开源视文数据量小(～10M量级)模型层面：视频动作分布差异大，建模困难资源层面：高纬度计算复杂度高，训练低效 数据层面：开源视文数据脏，噪声大，粒度粗；中文、中国元素缺少模型层面：CLIP文本语义表征能力有待增强 数据层面：开源视文数据分辨率低、有水印模型层面：图片超分、传统视频超分都不适用画面质感差数量(4只猫) 画面细节糊动作不自然画面不连贯运动质量提升 ✧设计空域-时域交替训练+多时域尺度训练方式，多维度提升short-term及long-term时序建模能力✧引入运动信息embedding，关联训练视频形态 ✧设计空间引导注意力机制，从模型+Loss双手段解决画面突变问题，更加关注在动作学习✧设计初始化Noise，在infer时迭代式的保留低频信号，实现稳定画面生成 https://arxiv.org/pdf/2312.07537.pdf 语义对齐准确画质提升整体质感提升 ✧设计局部划窗高斯平滑算法，实现高分辨率(8k)/超长视频(30s以上)超分文生视频&图生视频 03 视频生成的应用实践视频风格化转换用户输入视频，选择转换的风格，生成对应风格的视频，支持最多15s视频生成。技术实现基于文生视频模型，denoising阶段中，叠加不同的控制信息(线条，深度图等) 人体姿态控制用户输入参考图片并选择运动模板，生成视频中驱动参考图中人物主体跟随运动，保持背景同输入图像一致，运动产生空洞部分模型自动补全。应用于舞蹈生成，定制化广告生成等技术实现自研condition merger模块，在基础文生视频模型之前进行多条件融合，对纹理、动作序列、语义等信息进行融合，实现稳定生成。视频运动笔刷用户输入图片，选择主体，输入指令，点选的主体跟随指令运动。技术实现：基于文生视频模型，denoising阶段中，在初始噪声基础上添加输入图片信息，并计算光流指定运动区域。交互方式效果展示 1.用户输入图片，点选运动主体 04 一些不太长远的展望一些不太长远的展望 Sora vs Others 1. Video Compression network 3. Scaling up "Scaling video generation models is a promisingpath towards building general purpose simulatorsof the physical world." --Sora 2. Latent Diffusion Transformer 感谢观看谢谢观看

点击免费查看完整报告

datafun2024-文生视频与应用实践

文生视频与应用实践

快速发展的文生视频

解决方案与效果

视频生成的应用实践

文生视频&图生视频应用案例

交互方式与效果展示

一些不太长远的展望

你可能感兴趣

通信行业深度：AI文生视频，多模态应用的下一站

三网关合一：万亿级云原生网关在视频业务中的应用与实践

计算机：Pika文生视频能力跃迁，AIGC多模态应用加速推进

【风口研报·公司】跻身AI视频浪潮加速商业化落地，这家公司“多媒体大模型”能力曝光具备一键成片、AI美术设计、文生音乐等核心能力，有望跟随Adobe以“数据模型应用”AI技术栈构筑核心壁垒

AI事件点评：openAI发布文生视频模型Sora，赋能内容创作与社交平台

捷成股份文生视频1月6日正式上线AI大模型与机器人时代的卖水人

【研选】文生视频大模型Sora迭代，分析师认为光网络核心受益，看好光通信产业链;国内高端校准检测头部企业，积极切入传感器领域，有望逐步构建起压力传感器、数字压力检测产品及压力变送器的产业结构链

【财联社早知道】全球首款!具有仿人脊柱核心功能人形机器人面世，这家公司伺服产品有较高的市占率;这家公司正积极探索使用文生视频、图片生成视频等人工智能技术辅助汽车研发设计工作-20240221

【电报解读】 Sora引发文生视频大模型热潮，机构称AI视频年将进一步拉大算力缺口，这家公司1·6T光模块产品当前在积极推进送样测试，华为和中兴是公司的重要客户-20240221

信息技术产业行业周报：Open AI文生视频Sora惊艳亮相，看好Ai受益产业链

datafun2024-文生视频与应用实践

你可能感兴趣

通信行业深度：AI文生视频，多模态应用的下一站

三网关合一：万亿级云原生网关在视频业务中的应用与实践

计算机：Pika文生视频能力跃迁，AIGC多模态应用加速推进

【风口研报·公司】跻身AI视频浪潮加速商业化落地，这家公司“多媒体大模型”能力曝光具备一键成片、AI美术设计、文生音乐等核心能力，有望跟随Adobe以“数据模型应用”AI技术栈构筑核心壁垒

AI事件点评：openAI发布文生视频模型Sora，赋能内容创作与社交平台

捷成股份文生视频1月6日正式上线AI大模型与机器人时代的卖水人

【研选】文生视频大模型Sora迭代，分析师认为光网络核心受益，看好光通信产业链;国内高端校准检测头部企业，积极切入传感器领域，有望逐步构建起压力传感器、数字压力检测产品及压力变送器的产业结构链

【财联社早知道】全球首款!具有仿人脊柱核心功能人形机器人面世，这家公司伺服产品有较高的市占率;这家公司正积极探索使用文生视频、图片生成视频等人工智能技术辅助汽车研发设计工作-20240221

【电报解读】 Sora引发文生视频大模型热潮，机构称AI视频年将进一步拉大算力缺口， 这家公司1·6T光模块产品当前在积极推进送样测试，华为和中兴是公司的重要客户-20240221

信息技术产业行业周报：Open AI文生视频Sora惊艳亮相，看好Ai受益产业链

【电报解读】 Sora引发文生视频大模型热潮，机构称AI视频年将进一步拉大算力缺口，这家公司1·6T光模块产品当前在积极推进送样测试，华为和中兴是公司的重要客户-20240221