您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[甲子光年]:2024AIGC视频生成:走向AI创生时代 - 发现报告

2024AIGC视频生成:走向AI创生时代

文化传媒2024-03-06甲子光年机构上传
AI智能总结
查看更多
2024AIGC视频生成:走向AI创生时代

出品机构:甲子光年智库研究团队:张一甲、宋涛发布时间:2024.03 “一类人有一类人原力觉醒的方式。物理学家想学习上帝;数学家想反抗上帝;哲学家认为自己就是上帝;生物学家想造上帝的反……工程师说都不用,我们再造一个。” Part01AIGC视频生成的技术路线与产品演进趋势 目录 Part02AIGC视频生成推动世界走向“AI创生时代” Part03“提示交互式”视频制作范式重塑视频产业链 Part04文娱领域有望开启第二轮投资浪潮 1.1 Sora让文生视频迎来“GPT-3”时刻 OpenAI发布文生视频模型Sora,堪称视频生成领域的“GPT-3”时刻 “炸裂”视频效果成为讨论热点 春节假期甚至还未结束,Sora已引发全民关注 效果逼真:普通人一时难以分辨 时长感人:60秒高清视频生成 “百万”剪辑:堪比专业的镜头语言 多模态:文字、图片、视频皆可生成视频 1.2 Sora的展现效果 Sora模型展现自身超强视频生成及剪辑能力,超出其他竞品一个段位 1.2 Sora的展现效果 大模型训练的“暴力美学”在视频生成领域再次涌现卓越特性 OpenAI发现视频模型在大规模训练时表现出许多有趣的“涌现”能力,使Sora能够从物理世界中模拟人、动物和环境。值得一提的是OpenAI官网所说的“they are purely phenomenaof scale”——它们纯粹是“规模现象”,这再一次验证了“暴力美学”。 1.3 Sora的出现意味着AGI的又一个里程碑时刻 Sora意味着scaling law(规模法则)再次验证,推动文生视频进入“GPT-3”时刻 Scaling law(规模法则)的再次验证:虽然Sora并不十全十美,但它通过scaling law和原有模型拉开了差距,为视频生成领域提供了另一条可以走通的路线,推动行业进入全新的阶段。 文生视频的“GPT-3”时刻:从发展阶段类比,Sora更像文本模型的GPT-3时刻。ChatGPT让人类看到实现AGI的雏形,Sora让实现AGI的目标又进一步。 1.4 Sora开启“明牌游戏”,推动AIGC应用时间轴进一步被压缩 历史反复表明,一旦先行者模式验证,后来者整体的应用进程时间表将加快 先行者往往要花费大量时间精力试错,一旦模式跑通,“明牌游戏”就开启了。后来者会有更好的参考系和聚焦方向。ChatGPT后续的文本生成模型进展就说明了这一点。 过去一年,AI文本生成和图像生成相继走向成熟,Sora的发布意味着视频生成应用走向成熟的时间比原先预计的更早出现,AIGC已经加速迈入视频生成阶段。对此,甲子光年智库更新了生成式AI技术的成熟应用进程时间表。2024年可实现根据文本提示生成初版短视频,2025年有望实现根据文本生成初版长视频,并在视频制作环节真实使用落地。 1.5 Sora验证视频生成的新技术范式 Sora的出现意味着视频生成的DiT技术路线得到有力验证 视频生成技术路线在过去主要有两条,一条是基于Transformer的路线,以Phenaki为代表,第二条是Diffusion Model(扩散模型)路线,该路线在2023年是主流路线,诞生了Meta的Make-A-Video、英伟达的VideoLDM,Runway的Gen1、Gen2,字节的MagicVideo等代表性产品。 Sora的发布,对Transformer+DiffusionModel(DiT)路线进行了成果瞩目的验证。 1.6 Sora的技术原理 Patch(时空编码思路)+DiT(Diffusion和Transformer模型的结合)+Scaling Law(规模效应) Sora模型将视频压缩到低维空间(latent space),并使用时空补丁(Spacetime latent patches)来表示视频。这个过程类似于将文本转换为Token表示,而视频则转换为patches表示。Sora模型主要在压缩的低维空间进行训练,并使用解码器将低维空间映射回像素空间,以生成视频。 Sora使用了diffusion模型,给定输入的噪声块+文本prompt,它被训练来预测原始的“干净”分块。 Sora是diffusiontransformer,而transformer在各个领域都表现出显著的规模效应。 1.6 Sora的技术原理 Sora模型的实施路径可拆分为四个部分 Sora模型的实施路径有四个核心部分: ̶Part1:使用文生图模型(DALLE 3)把文本和图像对<text, image>联系起来。 Part2:视频数据切分为Patches,通过编码器压缩成低维空间表示,解决了时间和空间两个维度的注意力交互(patch化是训练生成式模型的一个非常scalable和高效的图像/视频表征形式)。 •Denoising Diffusion Probabilistic Models (DDPMs):通过逐步添加噪声来模拟数据分布,然后学习逆向过程去除噪声,以生成新的数据。DiT是DDPM在图像生成中的应用。•Latent Diffusion Models (LDMs):使用变分自编码器将图像压缩到低维表示,然后在低维空间中训练DDPM。这样可以降低计算成本,并使DiT成为基于Transformer的DDPM的适用框架。Part4:DiT生成的低维空间表示,可通过解码器恢复成像素级的视频数据。 1.7 Sora的局限性 Sora仍存在三大方面局限性,会短期制约其商业化、规模化应用 普适制约性 伦理合规性 技术局限性 经济账与成本问题 物理现实主义的挑战 数据合规性 OpenAI自从推出文本生成大模型再到推出视频生成大模型,一直没有解决商业化问题,大模型的训练需要较高成本投入,如何算好经济账是影响规模化应用的前提。 Sora对复杂场景中物理原理的处理不一致,导致无法准确复制因果关系,偶尔会偏离物理合理性。例如物体的不自然变换或对刚性结构的不正确模拟,导致不切实际的物理交互。此外,描绘复杂的动作或捕捉微妙的面部表情是模型可以增强的领域。以上,导致Sora现阶段更擅长幽默的结果而非严肃的内容。 可能涉及到他人的隐私信息,例如在视频中出现的人物、场景或个人数据等。未经授权或未经允许的情况下,生成和传播涉及他人隐私的虚假视频可能导致隐私泄露问题。 需要依赖高质量、大规模的视频数据 版权风险 时空连续性的挑战 Sora的训练路径需要依赖庞大规模的视频数据,并需要较高的数据标注、合成能力,后期的迭代升级会受到底层训练数据的影响与限制。 生成的视频内容可能涉及到他人的知识产权/版权,如果未经授权使用他人的作品或内容进行生成,就可能涉嫌侵犯他人的版权权益,引发版权纠纷或法律诉讼。 Sora生成的视频中可能会出现物体无缘无故消失或出现,Sora有时会误解给定提示中与物体的放置或排列相关的指令,从而导致方向混乱。此外,它在保持事件的时间准确性方面面临挑战,可能会导致预期时间流发生偏差,影响生成内容的可靠性和连贯性。人机交互的限制 算力瓶颈问题 AI安全问题 Sora视频模型的训练需要很高的算力支撑,如何平衡算力、成本、能源消耗等关系是值得关注的制动因素,也将是影响Sora大规模商业化运营的瓶颈。 可能导致深度伪造视频的增加,即利用技术手段在视频中替换现实中的人物或场景,使得伪造的视频无法通过肉眼识别真伪,给社会带来信任危机和安全隐患。确保Sora的输出始终安全且公正是一项主要挑战。 Sora生成视频的随机性很强,类似人类的“做梦”,用户可能很难精确指定或调整视频中特定元素的呈现,这限制了Sora在视频编辑和增强方面的潜力,也让Sora在长视频应用中面临挑战。 1.7 Sora的局限性 视频生成处于用户满意但不推荐象限,说明现有视频生成工具虽然惊艳,但尚无法支持实际工作 1.8 Sora引发的世界模型之争 Sora被OpenAI定义为“世界模拟器”,由此引发了世界模型的实施路线之争 正方:OpenAI把它定义为一个“世界模拟器”(World Simulator) 反方:仅根据文字提示生成逼真的视频,并不代表模型理解了物理世界! OpenAI表示:“Sora是能够理解和模拟现实世界模型的基础,我们相信这种能力将成为实现AGI的重要里程碑。” Yann LeCun,图灵奖获得者和Meta首席科学家,最近表达了对Sora的生成式技术路线的质疑,并指出该路线可能面临失败的风险。 英伟达高级研究科学家Jim Fan更是直接断言:“Sora是一个数据驱动的物理引擎,是一个可学习的模拟器,或世界模型。” YannLeCun认为,仅凭文字提示生成逼真视频并不代表模型真正理解物理世界。他指出生成视频的过程与基于世界模型的因果预测完全不同。 OpenAI是自回归生成式路线(Auto-regressive models),遵循“大数据、大模型、大算力”的暴力美学路线。从ChatGPT到Sora,都是这一思路的代表性产物。 VS 在2月19日的发文中,他再次反驳了通过生成像素来建模世界的观点,认为这种方法是浪费,就像被广泛抛弃的“通过合成来分析”的想法一样,注定会失败。 YannLeCun认为文本生成之所以可行是因为文本本身是离散的,具有有限数量的符号。在这种情况下,处理预测中的不确定性相对容易。而在处理高维连续的感觉输入时,基本上不可能处理预测的不确定性,这也是为什么针对感觉输入的生成模型注定会失败的原因。 Artificial Intuition的作者Carlos E. Perez认为,Sora并没有真正学会物理规律,只是表面上看起来像学会了,就像几年前的烟雾模拟一样。 Keras之父François Chollet也持有类似观点。他认为仅仅通过让AI观看视频是无法完全学习到世界模型的。尽管像Sora这样的视频生成模型确实融入了物理模型,问题在于这些模型的准确性及其泛化能力——即它们是否能够适应新的、非训练数据插值的情况。 知名AI学者、Meta AI研究科学家田渊栋也表示,关于Sora是否有潜力学到精确物理(当然现在还没有)的本质是:为什么像“预测下一个token ”或“重建”这样简单的思路会产生如此丰富的表示? OpenAI把Scale作为核心价值观之一:我们相信规模——在我们的模型、系统、自身、过程以及抱负中——具有魔力。当有疑问时,就扩大规模。 Part01AIGC视频生成的技术路线与产品演进趋势 目录 Part02AIGC视频生成推动世界走向“AI创生时代” Part03“提示交互式”视频制作范式重塑视频产业链 Part04文娱领域有望开启第二轮投资浪潮 2.1走向AI创生时代,改变世界刚刚开始 AIGC视频生成开启AI创生时代,重塑视频产业链仅仅是第一步 甲子光年智库将AIGC视频生成对世界的影响分为如下四个阶段:L1:AI生产时代/AI工业时代。AIGC引发内容相关产业的生产力变革,视频产业将是首先被重塑的领域,AI驱动内容领域迎来“工业革命”,大幅提升内容生产效率,形成第二生产力。L2:AI原生时代。AIGC将进一步引发生产关系变革,引发角色与分工的变迁。视频成为人类信息表达的第二语言,人类语言将告别“词不达意”阶段,重塑人、内容、机器间的生产关系与交互关系。在这一阶段,AI渗透率将无限逼近人类在数字世界的生产活动行为边界——人在数字世界可以做的事情,AI都可以做。L3:AI创生时代。AI与物理世界进一步融合,逐渐渗透逼近人在物理世界的生产活动行为边界。从AI for science到生产制造,从人形机器人到世界模型,AI将逐渐突破人类为主语的创造范畴,世界模型将创造人类智慧之外的“第二智慧体系”。L4:AI文明时代。AI推动人类认知重塑,开启AI文艺复兴。AI会深度参与人类的物理世界和心灵世界,人类智慧与AI将互相影响、共