您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [未知机构]:2024Sora发展现状、算力测算、相关公司及对传媒细分赛道的影响分析报告 - 发现报告

2024Sora发展现状、算力测算、相关公司及对传媒细分赛道的影响分析报告

2025-01-06 - 未知机构 刘银河
报告封面

目录 一、Sora概述............................................................................1二、Sora功能优势及局限..................................................................6三、文生视频大模型发展现状..............................................................13四、代表性文生视频模型梳理及比较........................................................15五、Sora对算力网络需求拉动测算.........................................................17六、Sora将如何改变传媒各细分赛道.......................................................19七、相关公司...........................................................................20 一、Sora概述 1.OpenAI发布首个视频生成模型Sora 2月16日,OpenAI发布了推出了一款能根据文字指令即时生成短视频的模型,命名为Sora。 根据介绍,Sora使用扩散模型技术,完美继承了DALL·E3的画质和遵循指令能力,能够从文本说明中生成长达60秒的视频,并能够提供具有多个角色、特定类型的动作和详细背景细节的场景。借助GPT的能力,Sora能够实现对语言的深入理解,使其能够准确地解释提示词,并生成引人注目的字符来表达充满活力的情感。Sora还能在一个生成的视频中创建多个镜头,体现人物和视觉风格。 2.实现功能 OpenAI表示,通过让模型一次生成多帧画面,Sora解决了一个具有挑战性的问题,即:即使生成的主体暂时离开视线内,也能确保主体不变。 除文生视频外,Sora还具有更多功能:1)根据图像生成动画;2)在时间上向前或向后扩展视频;3)编辑输入的视频;4)在两个输入视频之间逐渐进行插值,从而在具有完全不同主题和场景构成的视频之间创建无缝过渡;5)根据文字生成图像。 3.技术路径 Sora取法Tokens文本特征标记,是基于Patches视觉特征标记的DiffusionTransformer模型。OpenAI研究团队从LLM中汲取灵感,认为LLM范式的成功在一定程度上得益于Tokens的使用,Tokens统一了代码、数学和各种自然语言的文本模式。类似于LLM范式下的Tokens文本标记,Sora创新性地使用了Patches(apartofsomethingmarkedoutfromtherestbyaparticularcharacteristic;视觉特征标记)。 鉴于Patches之前已被证明是视觉数据模型的有效表示,OpenAI研究团队进一步研发发现Patches是一种高度可扩展且有效的表示,可以被用于在不同类型的视频和图像上训练生成模型: (1)将视觉数据转化为Patches(Turningvisualdataintopatches) 将视频、图像等视觉数据压缩至低维的潜在空间中,并将其分解为带有时空(Spacetime)特征的Patches(若为图像,则对空间特征进行分解),从而将视觉数据转换为Patches。 (2)构建视频压缩网络(Videocompressionnetwork) OpenAI训练的视频压缩网络将原始视频作为输入,并输出在时间和空间上都经过压缩的潜在特征。Sora在这个压缩的潜在空间中接受训练并生成视频。OpenAI还训练了一个相应的解码器模型,该模型将生成的潜在对象映射回像素空间。 (3)提取视觉数据的时空潜在特征(SpacetimeLatentPatches) 给定一个压缩的输入视频,提取一系列时空特征Patches(此方案也适用于图像,因为图像只是单帧视频)。基于Patches的表示使Sora能够利用不同分辨率、视频时间和宽高比的视频和图像进行训练。在推理时,可以通过在适当大小的网格中排列随机初始化的Patches来控制生成的视频的大小。 (4)Transformer模型到视频生成领域(Scalingtransformersforvideo generation) Sora是一个DiffusionTransformer模型,给定输入的嘈杂(noisy)Patches(以及文本提示等条件信息),它被训练来预测原始的干净(clean)Patches,继而生成高清视频。随着训练计算量的提高,样本质量也明显提高。 4.算法实现 为什么选择Patches呢?这是因为Patches实现更灵活的采样+更优化的构图。 从训练角度而言,基于Patches视觉特征标记对原生视频进行采样扩大了可用样本的规模且省去了标准化样本的步骤。对于不同分辨率、视频长度和宽高比的视频,以往常见的做法是将视频剪辑、调整大小或修剪到标准格式(例如:分辨率为256x256的4秒视频),而Sora则基于Patches视觉特征标记对原生视频进行采样(Sora可对宽屏1920x1080p视频、垂直1080x1920p视频以及介于两者之间的所有视频进行采样)。 从推理角度而言,基于原生视频训练的模型在生成新视频方面改善了构图和取景。 Sora基于DALL·E3DCS(Descriptivesyntheticcaptions;描述性合成标题)的描述性标题重述与GPT的标题扩写强化其语言理解能力。训练文本到视频生成系统需要大量带有相应文本标题的视频,OpenAI应用DALL·E3,基于高度描述性的字幕器模型为训练集中的所有视频生成文本字幕,同时,OpenAI还利用GPT将简短的用户提示转换为更长的详细字幕,以最终获得更优的视频输出结果。 二、Sora功能优势及局限 1.Sora生成的视频具有多样化表现 (1)在原始视频图像数据直接训练 过去,图像和视频生成方法常常需要将视频调整大小、裁剪或修剪至标准尺寸,如4秒、256x256分辨率的视频。但Sora打破了这一常规,它直接在原始大小的数据上进行训练,从而带来了诸多优势。 (2)采样更灵活 Sora具备出色的采样能力,无论是宽屏1920x1080p视频、垂直1080x1920视频,还是介于两者之间的任何视频尺寸,它都能轻松应对。这意味着Sora可以为各种设备生成与其原始纵横比完美匹配的内容。更令人惊叹的是,即使在生成全分辨率内容之前,Sora也能以较小的尺寸迅速创建内容原型。而所有这一切,都得益于使用相同的模型。 (3)改进构图与框架 实验结果显示,在视频的原始纵横比上进行训练,能够显著提升构图和框架的质量。为了验证这一点,将Sora与一个将所有训练视频裁剪为方形的模型版本进行了比较。结果发现,在正方形裁剪上训练的模型有时会生成仅部分显示主题的视频。而Sora则能呈现出更加完美的帧,充分展现了其在视频生成领域的卓越性能。 2.Sora深化语言理解 为了训练文本转视频生成系统,需要大量带有相应文本字幕的视频。为此,研究员借鉴了DALL·E3中的re-captioning技术,并应用于视频领域。首先,研究员训练了一个高度描述性的转译员模型,然后使用它为训练集中的所有视频生成文本转译。通过这种方式,研究员发现对高度描述性的视频转译进行训练,可以显著提高文本保真度和视频的整体质量。与此同时,与DALL·E3类似,研究员还利用GPT技术将简短的用户提示转换为更长的详细转译,并将其发送到视频模型。这一创新使得Sora能够精确地按照用户提示生成高质量的视频。 3.Sora具有图像和视频的多样化提示 Sora可以接受图像或视频等其他形式的输入。这就让Sora能够完成一系列图像和视频编辑任务,比如制作无缝循环视频、给静态图片添加动态、在时间线上扩展视频的长度等等。 (1)为DALL·E图像赋予生命 Sora还能在提供图像和提示作为输入的情况下生成视频。下面展示的示例视频就是基于DALL·E2和DALL·E3的图像生成的。这些示例不仅证明了Sora的强大功能,还展示了它在图像和视频编辑领域的无限潜力。 (2)视频时间线的灵活扩展 Sora不仅能生成视频,还能将视频沿时间线向前或向后扩展。从同一个视频片段开始,向时间线的过去延伸。尽管开头各不相同,但最终都汇聚于同一个结尾。而通过这种方法,就能将视频向两个方向延伸,创造出一个无缝的循环视频。 (3)视频到视频编辑 将一种名为SDEdit32的编辑基于文本提示的图像和视频的技术应用于Sora,这项技术赋予了Sora转换零拍摄输入视频风格和环境的能力,为视频编辑领域带来了革命性的变革。 (4)视频的无缝连接 Sora还能在两个截然不同的输入视频之间实现无缝过渡。通过逐渐插入技术,我们能够在具有完全不同主题和场景构图的视频之间创建出流畅自然的过渡效果。 4.Sora具有图片生成能力 Sora的出色能力不止于数据处理和分析,它现在还能生成图像。这一创新功能的实现得益于一种独特的算法,该算法在一个精确的时间范围内,巧妙地在空间网格中排列高斯噪声补丁。 值得一提的是,Sora的图像生成功能不仅限于特定大小的图像。它可以根据用户需求,生成可变大小的图像,最高可达惊人的2048×2048分辨率。 5.Sora具有新的模拟能力 在大规模训练过程中,研究员发现视频模型展现出了许多令人兴奋的新能力。这些功能使得Sora能够模拟现实世界中的人物、动物和环境等某些方面。值得注意的是,这些属性的出现并没有依赖于任何明确的3D建模、物体识别等归纳偏差,而是纯粹通过模型的尺度扩展而自然涌现的。 (1)3D一致性 Sora能够生成带有动态摄像头运动的视频。随着摄像头的移动和旋转,人物和场景元素在三维空间中始终保持一致的运动规律。 (2)较长视频的连贯性和对象持久性 视频生成领域面对的一个重要挑战就是,在生成的较长视频中保持时空连贯性和一致性。Sora,虽然不总是,但经常能够有效地为短期和长期物体间的依赖关系建模。例如,在生成的视频中,人物、动物和物体即使在被遮挡或离开画面后,仍能被准确地保存和呈现。同样地,Sora能够在单个样本中生成同一角色的多个镜头,并在整个视频中保持其外观的一致性。 (3)与世界互动 Sora有时还能以简单的方式模拟影响世界状态的行为。例如,画家可以在画布上留下新的笔触。随着时间的推移,一个人吃汉堡时也能在上面留下咬痕。 (4)模拟数字世界 Sora还能够模拟人工过程,比如视频游戏。它可以在高保真度渲染世界及其动态的同时,用基本策略控制《我的世界》中的玩家。这些功能都无需额外的训练数据或调整模型参数,只需向Sora提示“我的世 界”即可实现。这些新能力表明,视频模型的持续扩展为开发高性能的物理和数字世界模拟器提供了一条充满希望的道路。通过模拟生活在这些世界中的物体、动物和人等实体,我们可以更深入地理解现实世界的运行规律,并开发出更加逼真、自然的视频生成技术。 6.Sora有局限性,但未来可期 尽管Sora在模拟能力方面已经取得了显著的进展,但它目前仍然存在许多局限性。例如,它不能准确地模拟许多基本相互作用的物理过程,如玻璃破碎等。此外,在某些交互场景中,比如吃东西时,Sora并不能总是产生正确的对象状态变化,包括在长时间样本中发展的不一致性或某些对象不受控的出现等。 我们相信随着技术的不断进步和创新,Sora所展现出的能力预示着视频模型持续扩展的巨大潜力。未来,期待看到更加先进的视频生成技术,能够更准确地模拟现实世界中的各种现象和行为,并为人们带来更加逼真、自然的视觉体验。 三、文生视频大模型发展现状 1.文生视频大模型是