行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

2024Sora发展现状、算力测算、相关公司及对传媒细分赛道的影响分析报告

2025-01-06 - 未知机构刘银河

Sora文生视频大模型深度行业分析报告总结

一、Sora概述

发布背景：OpenAI于2023年2月发布首个视频生成模型Sora，能根据文字指令即时生成短视频。
实现功能：支持文生视频、图像生成动画、视频时间线扩展、视频编辑、视频无缝连接以及文生图像。
技术路径：采用基于Patches视觉特征标记的Diffusion Transformer模型，借鉴LLM的Tokens使用方式，将视觉数据转化为Patches，并通过视频压缩网络和Transformer模型进行视频生成。
算法实现：选择Patches实现更灵活的采样和优化构图，结合DALL·E3的描述性标题重述和GPT的标题扩写强化语言理解能力。

二、Sora功能优势及局限

功能优势：
- 多样化表现：直接在原始视频图像数据训练，采样灵活，改进构图与框架。
- 深化语言理解：通过DALL·E3的re-captioning技术和GPT扩写提升文本保真度和视频质量。
- 多样化提示：接受图像或视频等其他形式输入，实现图像赋予生命、视频时间线扩展、视频到视频编辑和视频无缝连接等功能。
- 图片生成能力：根据用户需求生成可变大小的图像，最高可达2048×2048分辨率。
- 新的模拟能力：模拟现实世界中的人物、动物和环境等，展现3D一致性、较长视频的连贯性和对象持久性，以及与世界和数字世界的互动能力。
局限性：无法准确模拟许多基本物理过程，如玻璃破碎等，交互场景中存在对象状态变化不一致等问题。

三、文生视频大模型发展现状

定义：由AI生成视频内容的大型机器学习模型，能处理文本、图像、音频、视频等内容作为提示，创造出自主生成的视频。
发展历程：2023年是文生视频模型的开启之年，诞生的模型达数十个，用户数量超过百万，但多数仍处于产品早期阶段，生成视频长度和质量有限。
未来趋势：2024年，各大公司加快研发步伐，有望迎来AI视频年，但科技巨头暂未公开其大模型产品。
Sora模型：目前暂未对公众完全开放，仅提供给部分内测用户使用，以评估潜在风险。

四、代表性文生视频模型梳理及比较

Pika：支持3D动画、动漫或电影等类型内容生成，具备生成和编辑功能，免费对公众开放。
Gen-2：生成4k分辨率长达18秒视频，支持多种视频生成方式，采用套餐包订阅收费模式。
Stable Animation SDK：支持文本转动画、文本与图像组合输入转动画、视频输入后文本调整输出动画，采用单次收费模式。
Sora与其他模型对比：
- 超长生成时间：支持60s视频生成，主人物稳定，背景人物表现稳定。
- 单视频多角度镜头：能在单个生成的视频中创建多个镜头，模拟复杂摄像机运镜。
- 理解物理世界：不仅理解用户提示内容，还能理解其在现实世界中的存在方式。

五、Sora对算力网络需求拉动测算

训练侧：第一代Sora拉动相对有限，未来参数提升将大幅提升算力需求，训练YouTube全年生成视频大致需要7.09万张H100训练一个月的时间。
推理侧：推理侧算力需求更大，生成一次视频问答所消耗的算力大约是生成一次文字问答的1000倍以上。
SORA模型算力空间测算：推算Sora架构的训练算力需求与传统大语言模型(LLM)Transformer架构的训练算力需求存在近百倍差距。

六、Sora将如何改变传媒各细分赛道

影视：降低传统影视制作门槛，IP类资产有望价值放大，影视制作公司将出现分化，拥有核心导演及IP资源的公司更受益。
营销：广告视频制作基础环节有望替代人力，为营销策划提供创意，提升广告相关视频的创造效率，增强广告吸引力，满足更低成本定制化需求。
游戏：模拟生成游戏视频，降低生产成本，帮助游戏开发者创立角色或背景故事，增加游戏情感故事背景提高可玩性。

七、相关公司

万兴科技：深耕数字创意，全面拥抱AIGC，发布万兴天幕音视频多媒体大模型，聚焦创作者经济，付费转化和粘性有望持续提升。
华策影视：影视行业引领者，加速布局AIGC，成立AIGC应用研究院，推出“影视剧本智能创作系统”，积极将AIGC应用于影视生产全链路。
易点天下：国内头部的全球化智能营销服务商，发布AIGC数字营销创作平台KreadoAI，覆盖营销投放前、中、后趋势洞察、素材营销效果数据分析和内容分析。

目录一、Sora概述............................................................................1二、Sora功能优势及局限..................................................................6三、文生视频大模型发展现状..............................................................13四、代表性文生视频模型梳理及比较........................................................15五、Sora对算力网络需求拉动测算.........................................................17六、Sora将如何改变传媒各细分赛道.......................................................19七、相关公司...........................................................................20 一、Sora概述 1.OpenAI发布首个视频生成模型Sora 2月16日，OpenAI发布了推出了一款能根据文字指令即时生成短视频的模型，命名为Sora。根据介绍，Sora使用扩散模型技术，完美继承了DALL·E3的画质和遵循指令能力，能够从文本说明中生成长达60秒的视频，并能够提供具有多个角色、特定类型的动作和详细背景细节的场景。借助GPT的能力，Sora能够实现对语言的深入理解，使其能够准确地解释提示词，并生成引人注目的字符来表达充满活力的情感。Sora还能在一个生成的视频中创建多个镜头，体现人物和视觉风格。 2.实现功能 OpenAI表示，通过让模型一次生成多帧画面，Sora解决了一个具有挑战性的问题，即：即使生成的主体暂时离开视线内，也能确保主体不变。除文生视频外，Sora还具有更多功能：1）根据图像生成动画；2）在时间上向前或向后扩展视频；3）编辑输入的视频；4）在两个输入视频之间逐渐进行插值，从而在具有完全不同主题和场景构成的视频之间创建无缝过渡；5）根据文字生成图像。 3.技术路径 Sora取法Tokens文本特征标记，是基于Patches视觉特征标记的DiffusionTransformer模型。OpenAI研究团队从LLM中汲取灵感，认为LLM范式的成功在一定程度上得益于Tokens的使用，Tokens统一了代码、数学和各种自然语言的文本模式。类似于LLM范式下的Tokens文本标记，Sora创新性地使用了Patches（apartofsomethingmarkedoutfromtherestbyaparticularcharacteristic；视觉特征标记）。鉴于Patches之前已被证明是视觉数据模型的有效表示，OpenAI研究团队进一步研发发现Patches是一种高度可扩展且有效的表示，可以被用于在不同类型的视频和图像上训练生成模型：（1）将视觉数据转化为Patches（Turningvisualdataintopatches）将视频、图像等视觉数据压缩至低维的潜在空间中，并将其分解为带有时空（Spacetime）特征的Patches（若为图像，则对空间特征进行分解），从而将视觉数据转换为Patches。（2）构建视频压缩网络（Videocompressionnetwork） OpenAI训练的视频压缩网络将原始视频作为输入，并输出在时间和空间上都经过压缩的潜在特征。Sora在这个压缩的潜在空间中接受训练并生成视频。OpenAI还训练了一个相应的解码器模型，该模型将生成的潜在对象映射回像素空间。（3）提取视觉数据的时空潜在特征（SpacetimeLatentPatches）给定一个压缩的输入视频，提取一系列时空特征Patches（此方案也适用于图像，因为图像只是单帧视频）。基于Patches的表示使Sora能够利用不同分辨率、视频时间和宽高比的视频和图像进行训练。在推理时，可以通过在适当大小的网格中排列随机初始化的Patches来控制生成的视频的大小。（4）Transformer模型到视频生成领域（Scalingtransformersforvideo generation） Sora是一个DiffusionTransformer模型，给定输入的嘈杂（noisy）Patches（以及文本提示等条件信息），它被训练来预测原始的干净（clean）Patches，继而生成高清视频。随着训练计算量的提高，样本质量也明显提高。 4.算法实现为什么选择Patches呢？这是因为Patches实现更灵活的采样+更优化的构图。从训练角度而言，基于Patches视觉特征标记对原生视频进行采样扩大了可用样本的规模且省去了标准化样本的步骤。对于不同分辨率、视频长度和宽高比的视频，以往常见的做法是将视频剪辑、调整大小或修剪到标准格式（例如：分辨率为256x256的4秒视频），而Sora则基于Patches视觉特征标记对原生视频进行采样（Sora可对宽屏1920x1080p视频、垂直1080x1920p视频以及介于两者之间的所有视频进行采样）。从推理角度而言，基于原生视频训练的模型在生成新视频方面改善了构图和取景。 Sora基于DALL·E3DCS（Descriptivesyntheticcaptions；描述性合成标题）的描述性标题重述与GPT的标题扩写强化其语言理解能力。训练文本到视频生成系统需要大量带有相应文本标题的视频，OpenAI应用DALL·E3，基于高度描述性的字幕器模型为训练集中的所有视频生成文本字幕，同时，OpenAI还利用GPT将简短的用户提示转换为更长的详细字幕，以最终获得更优的视频输出结果。二、Sora功能优势及局限 1.Sora生成的视频具有多样化表现（1）在原始视频图像数据直接训练过去，图像和视频生成方法常常需要将视频调整大小、裁剪或修剪至标准尺寸，如4秒、256x256分辨率的视频。但Sora打破了这一常规，它直接在原始大小的数据上进行训练，从而带来了诸多优势。（2）采样更灵活 Sora具备出色的采样能力，无论是宽屏1920x1080p视频、垂直1080x1920视频，还是介于两者之间的任何视频尺寸，它都能轻松应对。这意味着Sora可以为各种设备生成与其原始纵横比完美匹配的内容。更令人惊叹的是，即使在生成全分辨率内容之前，Sora也能以较小的尺寸迅速创建内容原型。而所有这一切，都得益于使用相同的模型。（3）改进构图与框架实验结果显示，在视频的原始纵横比上进行训练，能够显著提升构图和框架的质量。为了验证这一点，将Sora与一个将所有训练视频裁剪为方形的模型版本进行了比较。结果发现，在正方形裁剪上训练的模型有时会生成仅部分显示主题的视频。而Sora则能呈现出更加完美的帧，充分展现了其在视频生成领域的卓越性能。 2.Sora深化语言理解为了训练文本转视频生成系统，需要大量带有相应文本字幕的视频。为此，研究员借鉴了DALL·E3中的re-captioning技术，并应用于视频领域。首先，研究员训练了一个高度描述性的转译员模型，然后使用它为训练集中的所有视频生成文本转译。通过这种方式，研究员发现对高度描述性的视频转译进行训练，可以显著提高文本保真度和视频的整体质量。与此同时，与DALL·E3类似，研究员还利用GPT技术将简短的用户提示转换为更长的详细转译，并将其发送到视频模型。这一创新使得Sora能够精确地按照用户提示生成高质量的视频。 3.Sora具有图像和视频的多样化提示 Sora可以接受图像或视频等其他形式的输入。这就让Sora能够完成一系列图像和视频编辑任务，比如制作无缝循环视频、给静态图片添加动态、在时间线上扩展视频的长度等等。（1）为DALL·E图像赋予生命 Sora还能在提供图像和提示作为输入的情况下生成视频。下面展示的示例视频就是基于DALL·E2和DALL·E3的图像生成的。这些示例不仅证明了Sora的强大功能，还展示了它在图像和视频编辑领域的无限潜力。（2）视频时间线的灵活扩展 Sora不仅能生成视频，还能将视频沿时间线向前或向后扩展。从同一个视频片段开始，向时间线的过去延伸。尽管开头各不相同，但最终都汇聚于同一个结尾。而通过这种方法，就能将视频向两个方向延伸，创造出一个无缝的循环视频。（3）视频到视频编辑将一种名为SDEdit32的编辑基于文本提示的图像和视频的技术应用于Sora，这项技术赋予了Sora转换零拍摄输入视频风格和环境的能力，为视频编辑领域带来了革命性的变革。（4）视频的无缝连接 Sora还能在两个截然不同的输入视频之间实现无缝过渡。通过逐渐插入技术，我们能够在具有完全不同主题和场景构图的视频之间创建出流畅自然的过渡效果。 4.Sora具有图片生成能力 Sora的出色能力不止于数据处理和分析，它现在还能生成图像。这一创新功能的实现得益于一种独特的算法，该算法在一个精确的时间范围内，巧妙地在空间网格中排列高斯噪声补丁。值得一提的是，Sora的图像生成功能不仅限于特定大小的图像。它可以根据用户需求，生成可变大小的图像，最高可达惊人的2048×2048分辨率。 5.Sora具有新的模拟能力在大规模训练过程中，研究员发现视频模型展现出了许多令人兴奋的新能力。这些功能使得Sora能够模拟现实世界中的人物、动物和环境等某些方面。值得注意的是，这些属性的出现并没有依赖于任何明确的3D建模、物体识别等归纳偏差，而是纯粹通过模型的尺度扩展而自然涌现的。（1）3D一致性 Sora能够生成带有动态摄像头运动的视频。随着摄像头的移动和旋转，人物和场景元素在三维空间中始终保持一致的运动规律。（2）较长视频的连贯性和对象持久性视频生成领域面对的一个重要挑战就是，在生成的较长视频中保持时空连贯性和一致性。Sora，虽然不总是，但经常能够有效地为短期和长期物体间的依赖关系建模。例如，在生成的视频中，人物、动物和物体即使在被遮挡或离开画面后，仍能被准确地保存和呈现。同样地，Sora能够在单个样本中生成同一角色的多个镜头，并在整个视频中保持其外观的一致性。（3）与世界互动 Sora有时还能以简单的方式模拟影响世界状态的行为。例如，画家可以在画布上留下新的笔触。随着时间的推移，一个人吃汉堡时也能在上面留下咬痕。（4）模拟数字世界 Sora还能够模拟人工过程，比如视频游戏。它可以在高保真度渲染世界及其动态的同时，用基本策略控制《我的世界》中的玩家。这些功能都无需额外的训练数据或调整模型参数，只需向Sora提示“我的世界”即可实现。这些新能力表明，视频模型的持续扩展为开发高性能的物理和数字世界模拟器提供了一条充满希望的道路。通过模拟生活在这些世界中的物体、动物和人等实体，我们可以更深入地理解现实世界的运行规律，并开发出更加逼真、自然的视频生成技术。 6.Sora有局限性，但未来可期尽管Sora在模拟能力方面已经取得了显著的进展，但它目前仍然存在许多局限性。例如，它不能准确地模拟许多基本相互作用的物理过程，如玻璃破碎等。此外，在某些交互场景中，比如吃东西时，Sora并不能总是产生正确的对象状态变化，包括在长时间样本中发展的不一致性或某些对象不受控的出现等。我们相信随着技术的不断进步和创新，Sora所展现出的能力预示着视频模型持续扩展的巨大潜力。未来，期待看到更加先进的视频生成技术，能够更准确地模拟现实世界中的各种现象和行为，并为人们带来更加逼真、自然的视觉体验。三、文生视频大模型发展现状 1.文生视频大模型是

点击免费查看完整报告