根据提供的文字内容,总结归纳如下:
目录
- Part 02 AIGC视频生成推动世界走向“AI创生时代”
- Part 03 “提示交互式”视频制作范式重塑视频产业链
- Part 04 文娱领域有望开启第二轮投资浪潮
Part 01 AIGC视频生成的技术路线与产品演进趋势
-
技术里程碑:OpenAI发布的Sora模型被视为视频生成领域的“GPT-3”时刻,展示了强大的视频生成及剪辑能力,超越了其他竞品。
-
展现效果:Sora模型能够生成高度逼真的60秒高清视频,具有多模态生成能力,包括文本、图片和视频的生成。它还能够处理复杂的时空关系,如前后扩展、无缝连接、3D一致性和远程相关性,以及模拟物理世界中的交互行为。
-
局限性:Sora在处理复杂物理场景时存在局限性,如无法准确复制某些物理原理和因果关系,尤其是在处理精细动作和面部表情方面。
-
技术原理:Sora采用了一种结合了Diffusion模型和Transformer模型的创新方法,通过时空补丁和低维空间表示进行训练,实现了高效的视频生成。
-
局限性与挑战:Sora在人机交互、伦理合规性、数据安全和经济账方面存在挑战,包括版权风险、数据合规性、AI安全问题和成本效益问题。
Part 02 L1-AI生产时代:“拍扁”视频制作链条,开启“提示交互式”新范式
-
变革趋势:AIGC视频生成技术将重塑传统视频制作流程,引入“提示交互式”制作范式,简化制作过程,提升创意自由度,降低成本。
-
流程重塑:传统视频制作流程包括策划、拍摄、后期制作等多个阶段,而提示交互式范式仅需用户提供提示词,AI即可生成满足需求的视频内容。
-
市场潜力:AIGC视频生成工具将在教育、娱乐、营销等领域展现出巨大潜力,促进内容产业的生产力变革。
Part 03 L1-AI生产时代的开源模型关键节点
-
模型竞争:Sora虽然未公开测试,但显示了与其他竞品的显著差异,可能采用与ChatGPT类似的策略,不开放源代码。
-
多元入局:随着开源模型的出现,AI视频生成领域将迎来更多初创企业和大型科技公司的竞争,形成多元化布局。
-
技术创新:AI+视频创业公司、数字人技术提供商、AI+影视公司以及互联网科技企业都在积极探索和创新,力求在视频生成领域占据领先地位。
Part 04 文娱领域有望开启第二轮投资浪潮
-
用户需求:全民视频创作的热潮正在兴起,用户对个性化、高质量视频内容的需求不断增长。
-
投资机遇:随着AIGC技术的发展,文娱领域投资机会增多,特别是视频生成技术的应用,有望带动新一轮投资浪潮。
-
行业趋势:数字科研、世界模型、人形机器人、AI+生产制造等领域的发展,预示着AI与物理世界融合的深入,将带来更多创新和投资机会。
总结:AIGC视频生成技术正引领视频制作领域向“AI创生时代”迈进,通过“提示交互式”范式重塑视频产业链,推动内容产业的生产力变革,并为文娱领域带来新的投资机遇。同时,随着技术的发展和市场竞争的加剧,行业面临着一系列挑战,包括技术局限性、伦理合规性、经济账等问题,需要持续关注和解决。
出品机构:甲子光年智库研究团队:张一甲、宋涛发布时间:2024.03
“一类人有一类人原力觉醒的方式。物理学家想学习上帝;数学家想反抗上帝;哲学家认为自己就是上帝;生物学家想造上帝的反……工程师说都不用,我们再造一个。”
Part01AIGC视频生成的技术路线与产品演进趋势
目录
Part02AIGC视频生成推动世界走向“AI创生时代”
Part03“提示交互式”视频制作范式重塑视频产业链
Part04文娱领域有望开启第二轮投资浪潮
1.1 Sora让文生视频迎来“GPT-3”时刻
OpenAI发布文生视频模型Sora,堪称视频生成领域的“GPT-3”时刻
“炸裂”视频效果成为讨论热点
春节假期甚至还未结束,Sora已引发全民关注
效果逼真:普通人一时难以分辨
时长感人:60秒高清视频生成
“百万”剪辑:堪比专业的镜头语言
多模态:文字、图片、视频皆可生成视频
1.2 Sora的展现效果
Sora模型展现自身超强视频生成及剪辑能力,超出其他竞品一个段位
1.2 Sora的展现效果
大模型训练的“暴力美学”在视频生成领域再次涌现卓越特性
OpenAI发现视频模型在大规模训练时表现出许多有趣的“涌现”能力,使Sora能够从物理世界中模拟人、动物和环境。值得一提的是OpenAI官网所说的“they are purely phenomenaof scale”——它们纯粹是“规模现象”,这再一次验证了“暴力美学”。
1.3 Sora的出现意味着AGI的又一个里程碑时刻
Sora意味着scaling law(规模法则)再次验证,推动文生视频进入“GPT-3”时刻
Scaling law(规模法则)的再次验证:虽然Sora并不十全十美,但它通过scaling law和原有模型拉开了差距,为视频生成领域提供了另一条可以走通的路线,推动行业进入全新的阶段。
文生视频的“GPT-3”时刻:从发展阶段类比,Sora更像文本模型的GPT-3时刻。ChatGPT让人类看到实现AGI的雏形,Sora让实现AGI的目标又进一步。
1.4 Sora开启“明牌游戏”,推动AIGC应用时间轴进一步被压缩
历史反复表明,一旦先行者模式验证,后来者整体的应用进程时间表将加快
先行者往往要花费大量时间精力试错,一旦模式跑通,“明牌游戏”就开启了。后来者会有更好的参考系和聚焦方向。ChatGPT后续的文本生成模型进展就说明了这一点。
过去一年,AI文本生成和图像生成相继走向成熟,Sora的发布意味着视频生成应用走向成熟的时间比原先预计的更早出现,AIGC已经加速迈入视频生成阶段。对此,甲子光年智库更新了生成式AI技术的成熟应用进程时间表。2024年可实现根据文本提示生成初版短视频,2025年有望实现根据文本生成初版长视频,并在视频制作环节真实使用落地。
1.5 Sora验证视频生成的新技术范式
Sora的出现意味着视频生成的DiT技术路线得到有力验证
视频生成技术路线在过去主要有两条,一条是基于Transformer的路线,以Phenaki为代表,第二条是Diffusion Model(扩散模型)路线,该路线在2023年是主流路线,诞生了Meta的Make-A-Video、英伟达的VideoLDM,Runway的Gen1、Gen2,字节的MagicVideo等代表性产品。
Sora的发布,对Transformer+DiffusionModel(DiT)路线进行了成果瞩目的验证。
1.6 Sora的技术原理
Patch(时空编码思路)+DiT(Diffusion和Transformer模型的结合)+Scaling Law(规模效应)
Sora模型将视频压缩到低维空间(latent space),并使用时空补丁(Spacetime latent patches)来表示视频。这个过程类似于将文本转换为Token表示,而视频则转换为patches表示。Sora模型主要在压缩的低维空间进行训练,并使用解码器将低维空间映射回像素空间,以生成视频。
Sora使用了diffusion模型,给定输入的噪声块+文本prompt,它被训练来预测原始的“干净”分块。
Sora是diffusiontransformer,而transformer在各个领域都表现出显著的规模效应。
1.6 Sora的技术原理
Sora模型的实施路径可拆分为四个部分
Sora模型的实施路径有四个核心部分:
̶Part1:使用文生图模型(DALLE 3)把文本和图像对联系起来。
Part2:视频数据切分为Patches,通过编码器压缩成低维空间表示,解决了时间和空间两个维度的注意力交互(patch化是训练生成式模型的一个非常scalable和高效的图像/视频表征形式)。
•Denoising Diffusion Probabilistic Models (DDPMs):通过逐步添加噪声来模拟数据分布,然后学习逆向过程去除噪声,以生成新的数据。DiT是DDPM在图像生成中的应用。•Latent Diffusion Models (LDMs):使用变分自编码器将图像压缩到低维表示,然后在低维空间中训练DDPM。这样可以降低计算成本,并使DiT成为基于Transformer的DDPM的适用框架。Part4:DiT生成的低维空间表示,可通过解码器恢复成像素级的视频数据。
1.7 Sora的局限性
Sora仍存在三大方面局限性,会短期制约其商业化、规模化应用
普适制约性
伦理合规性
技术局限性
经济账与成本问题
物理现实主义的挑战
数据合规性
OpenAI自从推出文本生成大模型再到推出视频生成大模型,一直没有解决商业化问题,大模型的训练需要较高成本投入,如何算好经济账是影响规模化应用的前提。
Sora对复杂场景中物理原理的处理不一致,导致无法准确复制因果关系,偶尔会偏离物理合理性。例如物体的不自然变换或对刚性结构的不正确模拟,导致不切实际的物理交互。此外,描绘复杂的动作或捕捉微妙的面部表情是模型可以增强的领域。以上,导致Sora现阶段更擅长幽默的结果而非严肃的内容。
可能涉及到他人的隐私信息,例如在视频中出现的人物、场景或个人数据等。未经授权或未经允许的情况下,生成和传播涉及他人隐私的虚假视频可能导致隐私泄露问题。
需要依赖高质量、大规模的视频数据
版权风险
时空连续性的挑战
Sora的训练路径需要依赖庞大规模的视频数据,并需要较高的数据标注、合成能力,后期的迭代升级会受到底层训练数据的影响与限制。
生成的视频内容可能涉及到他人的知识产权/版权,如果未经授权使用他人的作品或内容进行生成,就可能涉嫌侵犯他人的版权权益,引发版权纠纷或法律诉讼。
Sora生成的视频中可能会出现物体无缘无故消失或出现,Sora有时会误解给定提示中与物体的放置或排列相关的指令,从而导致方向混乱。此外,它在保持事件的时间准确性方面面临挑战,可能会导致预期时间流发生偏差,影响生成内容的可靠性和连贯性。人机交互的限制
算力瓶颈问题
AI安全问题
Sora视频模型的训练需要很高的算力支撑,如何平衡算力、成本、能源消耗等关系是值得关注的制动因素,也将是影响Sora大规模商业化运营的瓶颈。
可能导致深度伪造视频的增加,即利用技术手段在视频中替换现实中的人物或场景,使得伪造的视频无法通过肉眼识别真伪,给社会带来信任危机和安全隐患。确保Sora的输出始终安全且公正是一项主要挑战。
Sora生成视频的随机性很强,类似人类的“做梦”,用户可能很难精确指定或调整视频中特定元素的呈现,这限制了Sora在视频编辑和增强方面的潜力,也让Sora在长视频应用中面临挑战。
1.7 Sora的局限性
视频生成处于用户满意但不推荐象限,说明现有视频生成工具虽然惊艳,但尚无法支持实际工作
1.8 Sora引发的世界模型之争
Sora被OpenAI定义为“世界模拟器”,由此引发了世界模型的实施路线之争
正方:OpenAI把它定义为一个“世界模拟器”(World Simulator)
反方:仅根据文字提示生成逼真的视频,并不代表模型理解了物理世界!
OpenAI表示:“Sora是能够理解和模拟现实世界模型的基础,我们相信这种能力将成为实现AGI的重要里程碑。”
Yann LeCun,图灵奖获得者和Meta首席科学家,最近表达了对Sora的生成式技术路线的质疑,并指出该路线可能面临失败的风险。
英伟达高级研究科学家Jim Fan更是直接断言:“Sora是一个数据驱动的物理引擎,是一个可学习的模拟器,或世界模型。”
YannLeCun认为,仅凭文字提示生成逼真视频并不代表模型真正理解物理世界。他指出生成视频的过程与基于世界模型的因果预测完全不同。
OpenAI是自回归生成式路线(Auto-regressive models),遵循“大数据、大模型、大算力”的暴力美学路线。从ChatGPT到Sora,都是这一思路的代表性产物。
VS
在2月19日的发文中,他再次反驳了通过生成像素来建模世界的观点,认为这种方法是浪费,就像被广泛抛弃的“通过合成来分析”的想法一样,注定会失败。
YannLeCun认为文本生成之所以可行是因为文本本身是离散的,具有有限数量的符号。在这种情况下,处理预测中的不确定性相对容易。而在处理高维连续的感觉输入时,基本上不可能处理预测的不确定性,这也是为什么针对感觉输入的生成模型注定会失败的原因。
Artificial Intuition的作者Carlos E. Perez认为,Sora并没有真正学会物理规律,只是表面上看起来像学会了,就像几年前的烟雾模拟一样。
Keras之父François Chollet也持有类似观点。他认为仅仅通过让AI观看视频是无法完全学习到世界模型的。尽管像Sora这样的视频生成模型确实融入了物理模型,问题在于这些模型的准确性及其泛化能力——即它们是否能够适应新的、非训练数据插值的情况。
知名AI学者、Meta AI研究科学家田渊栋也表示,关于Sora是否有潜力学到精确物理(当然现在还没有)的本质是:为什么像“预测下一个token ”或“重建”这样简单的思路会产生如此丰富的表示?
OpenAI把Scale作为核心价值观之一:我们相信规模——在我们的模型、系统、自身、过程以及抱负中——具有魔力。当有疑问时,就扩大规模。
Part01AIGC视频生成的技术路线与产品演进趋势
目录
Part02AIGC视频生成推动世界走向“AI创生时代”
Part03“提示交互式”视频制作范式重塑视频产业链
Part04文娱领域有望开启第二轮投资浪潮
2.1走向AI创生时代,改变世界刚刚开始
AIGC视频生成开启AI创生时代,重塑视频产业链仅仅是第一步
甲子光年智库将AIGC视频生成对世界的影响分为如下四个阶段:L1:AI生产时代/AI工业时代。AIGC引发内容相关产业的生产力变革,视频产业将是首先被重塑的领域,AI驱动内容领域迎来“工业革命”,大幅提升内容生产效率,形成第二生产力。L2:AI原生时代。AIGC将进一步引发生产关系变革,引发角色与分工的变迁。视频成为人类信息表达的第二语言,人类语言将告别“词不达意”阶段,重塑人、内容、机器间的生产关系与交互关系。在这一阶段,AI渗透率将无限逼近人类在数字世界的生产活动行为边界——人在数字世界可以做的事情,AI都可以做。L3:AI创生时代。AI与物理世界进一步融合,逐渐渗透逼近人在物理世界的生产活动行为边界。从AI for science到生产制造,从人形机器人到世界模型,AI将逐渐突破人类为主语的创造范畴,世界模型将创造人类智慧之外的“第二智慧体系”。L4:AI文明时代。AI推动人类认知重塑,开启AI文艺复兴。AI会深度参与人类的物理世界和心灵世界,人类智慧与AI将互相影响、共