行业研究公司研究宏观策略财报招股书会议纪要稀土低空经济 DeepSeek AIGC 智能驾驶大模型

2024AIGC视频生成：走向AI创生时代

文化传媒2024-03-06甲子光年机构上传

AI智能总结

根据提供的文字内容，总结归纳如下：

Part 02 AIGC视频生成推动世界走向“AI创生时代”
- Part 03 “提示交互式”视频制作范式重塑视频产业链
- Part 04 文娱领域有望开启第二轮投资浪潮

Part 01 AIGC视频生成的技术路线与产品演进趋势

技术里程碑：OpenAI发布的Sora模型被视为视频生成领域的“GPT-3”时刻，展示了强大的视频生成及剪辑能力，超越了其他竞品。
展现效果：Sora模型能够生成高度逼真的60秒高清视频，具有多模态生成能力，包括文本、图片和视频的生成。它还能够处理复杂的时空关系，如前后扩展、无缝连接、3D一致性和远程相关性，以及模拟物理世界中的交互行为。
局限性：Sora在处理复杂物理场景时存在局限性，如无法准确复制某些物理原理和因果关系，尤其是在处理精细动作和面部表情方面。
技术原理：Sora采用了一种结合了Diffusion模型和Transformer模型的创新方法，通过时空补丁和低维空间表示进行训练，实现了高效的视频生成。
局限性与挑战：Sora在人机交互、伦理合规性、数据安全和经济账方面存在挑战，包括版权风险、数据合规性、AI安全问题和成本效益问题。

Part 02 L1-AI生产时代：“拍扁”视频制作链条，开启“提示交互式”新范式

变革趋势：AIGC视频生成技术将重塑传统视频制作流程，引入“提示交互式”制作范式，简化制作过程，提升创意自由度，降低成本。
流程重塑：传统视频制作流程包括策划、拍摄、后期制作等多个阶段，而提示交互式范式仅需用户提供提示词，AI即可生成满足需求的视频内容。
市场潜力：AIGC视频生成工具将在教育、娱乐、营销等领域展现出巨大潜力，促进内容产业的生产力变革。

Part 03 L1-AI生产时代的开源模型关键节点

模型竞争：Sora虽然未公开测试，但显示了与其他竞品的显著差异，可能采用与ChatGPT类似的策略，不开放源代码。
多元入局：随着开源模型的出现，AI视频生成领域将迎来更多初创企业和大型科技公司的竞争，形成多元化布局。
技术创新：AI+视频创业公司、数字人技术提供商、AI+影视公司以及互联网科技企业都在积极探索和创新，力求在视频生成领域占据领先地位。

Part 04 文娱领域有望开启第二轮投资浪潮

用户需求：全民视频创作的热潮正在兴起，用户对个性化、高质量视频内容的需求不断增长。
投资机遇：随着AIGC技术的发展，文娱领域投资机会增多，特别是视频生成技术的应用，有望带动新一轮投资浪潮。
行业趋势：数字科研、世界模型、人形机器人、AI+生产制造等领域的发展，预示着AI与物理世界融合的深入，将带来更多创新和投资机会。

总结：AIGC视频生成技术正引领视频制作领域向“AI创生时代”迈进，通过“提示交互式”范式重塑视频产业链，推动内容产业的生产力变革，并为文娱领域带来新的投资机遇。同时，随着技术的发展和市场竞争的加剧，行业面临着一系列挑战，包括技术局限性、伦理合规性、经济账等问题，需要持续关注和解决。

出品机构：甲子光年智库研究团队：张一甲、宋涛发布时间：2024.03 “一类人有一类人原力觉醒的方式。物理学家想学习上帝；数学家想反抗上帝；哲学家认为自己就是上帝；生物学家想造上帝的反……工程师说都不用，我们再造一个。” Part01AIGC视频生成的技术路线与产品演进趋势目录 Part02AIGC视频生成推动世界走向“AI创生时代” Part03“提示交互式”视频制作范式重塑视频产业链 Part04文娱领域有望开启第二轮投资浪潮 1.1 Sora让文生视频迎来“GPT-3”时刻 OpenAI发布文生视频模型Sora，堪称视频生成领域的“GPT-3”时刻 “炸裂”视频效果成为讨论热点春节假期甚至还未结束，Sora已引发全民关注效果逼真：普通人一时难以分辨时长感人：60秒高清视频生成 “百万”剪辑：堪比专业的镜头语言多模态：文字、图片、视频皆可生成视频 1.2 Sora的展现效果 Sora模型展现自身超强视频生成及剪辑能力，超出其他竞品一个段位 1.2 Sora的展现效果大模型训练的“暴力美学”在视频生成领域再次涌现卓越特性 OpenAI发现视频模型在大规模训练时表现出许多有趣的“涌现”能力，使Sora能够从物理世界中模拟人、动物和环境。值得一提的是OpenAI官网所说的“they are purely phenomenaof scale”——它们纯粹是“规模现象”，这再一次验证了“暴力美学”。 1.3 Sora的出现意味着AGI的又一个里程碑时刻 Sora意味着scaling law（规模法则）再次验证，推动文生视频进入“GPT-3”时刻 Scaling law（规模法则）的再次验证：虽然Sora并不十全十美，但它通过scaling law和原有模型拉开了差距，为视频生成领域提供了另一条可以走通的路线，推动行业进入全新的阶段。 文生视频的“GPT-3”时刻：从发展阶段类比，Sora更像文本模型的GPT-3时刻。ChatGPT让人类看到实现AGI的雏形，Sora让实现AGI的目标又进一步。 1.4 Sora开启“明牌游戏”，推动AIGC应用时间轴进一步被压缩历史反复表明，一旦先行者模式验证，后来者整体的应用进程时间表将加快 先行者往往要花费大量时间精力试错，一旦模式跑通，“明牌游戏”就开启了。后来者会有更好的参考系和聚焦方向。ChatGPT后续的文本生成模型进展就说明了这一点。 过去一年，AI文本生成和图像生成相继走向成熟，Sora的发布意味着视频生成应用走向成熟的时间比原先预计的更早出现，AIGC已经加速迈入视频生成阶段。对此，甲子光年智库更新了生成式AI技术的成熟应用进程时间表。2024年可实现根据文本提示生成初版短视频，2025年有望实现根据文本生成初版长视频，并在视频制作环节真实使用落地。 1.5 Sora验证视频生成的新技术范式 Sora的出现意味着视频生成的DiT技术路线得到有力验证 视频生成技术路线在过去主要有两条，一条是基于Transformer的路线，以Phenaki为代表，第二条是Diffusion Model（扩散模型）路线，该路线在2023年是主流路线，诞生了Meta的Make-A-Video、英伟达的VideoLDM，Runway的Gen1、Gen2，字节的MagicVideo等代表性产品。 Sora的发布，对Transformer+DiffusionModel（DiT）路线进行了成果瞩目的验证。 1.6 Sora的技术原理 Patch（时空编码思路）+DiT（Diffusion和Transformer模型的结合）+Scaling Law（规模效应） Sora模型将视频压缩到低维空间（latent space），并使用时空补丁（Spacetime latent patches）来表示视频。这个过程类似于将文本转换为Token表示，而视频则转换为patches表示。Sora模型主要在压缩的低维空间进行训练，并使用解码器将低维空间映射回像素空间，以生成视频。 Sora使用了diffusion模型，给定输入的噪声块+文本prompt，它被训练来预测原始的“干净”分块。 Sora是diffusiontransformer，而transformer在各个领域都表现出显著的规模效应。 1.6 Sora的技术原理 Sora模型的实施路径可拆分为四个部分 Sora模型的实施路径有四个核心部分： ̶Part1：使用文生图模型（DALLE 3）把文本和图像对<text, image>联系起来。 Part2：视频数据切分为Patches，通过编码器压缩成低维空间表示，解决了时间和空间两个维度的注意力交互（patch化是训练生成式模型的一个非常scalable和高效的图像/视频表征形式）。 •Denoising Diffusion Probabilistic Models (DDPMs)：通过逐步添加噪声来模拟数据分布，然后学习逆向过程去除噪声，以生成新的数据。DiT是DDPM在图像生成中的应用。•Latent Diffusion Models (LDMs)：使用变分自编码器将图像压缩到低维表示，然后在低维空间中训练DDPM。这样可以降低计算成本，并使DiT成为基于Transformer的DDPM的适用框架。Part4：DiT生成的低维空间表示，可通过解码器恢复成像素级的视频数据。 1.7 Sora的局限性 Sora仍存在三大方面局限性，会短期制约其商业化、规模化应用普适制约性伦理合规性技术局限性经济账与成本问题物理现实主义的挑战数据合规性 OpenAI自从推出文本生成大模型再到推出视频生成大模型，一直没有解决商业化问题，大模型的训练需要较高成本投入，如何算好经济账是影响规模化应用的前提。 Sora对复杂场景中物理原理的处理不一致，导致无法准确复制因果关系，偶尔会偏离物理合理性。例如物体的不自然变换或对刚性结构的不正确模拟，导致不切实际的物理交互。此外，描绘复杂的动作或捕捉微妙的面部表情是模型可以增强的领域。以上，导致Sora现阶段更擅长幽默的结果而非严肃的内容。可能涉及到他人的隐私信息，例如在视频中出现的人物、场景或个人数据等。未经授权或未经允许的情况下，生成和传播涉及他人隐私的虚假视频可能导致隐私泄露问题。需要依赖高质量、大规模的视频数据版权风险时空连续性的挑战 Sora的训练路径需要依赖庞大规模的视频数据，并需要较高的数据标注、合成能力，后期的迭代升级会受到底层训练数据的影响与限制。生成的视频内容可能涉及到他人的知识产权/版权，如果未经授权使用他人的作品或内容进行生成，就可能涉嫌侵犯他人的版权权益，引发版权纠纷或法律诉讼。 Sora生成的视频中可能会出现物体无缘无故消失或出现，Sora有时会误解给定提示中与物体的放置或排列相关的指令，从而导致方向混乱。此外，它在保持事件的时间准确性方面面临挑战，可能会导致预期时间流发生偏差，影响生成内容的可靠性和连贯性。人机交互的限制算力瓶颈问题 AI安全问题 Sora视频模型的训练需要很高的算力支撑，如何平衡算力、成本、能源消耗等关系是值得关注的制动因素，也将是影响Sora大规模商业化运营的瓶颈。可能导致深度伪造视频的增加，即利用技术手段在视频中替换现实中的人物或场景，使得伪造的视频无法通过肉眼识别真伪，给社会带来信任危机和安全隐患。确保Sora的输出始终安全且公正是一项主要挑战。 Sora生成视频的随机性很强，类似人类的“做梦”，用户可能很难精确指定或调整视频中特定元素的呈现，这限制了Sora在视频编辑和增强方面的潜力，也让Sora在长视频应用中面临挑战。 1.7 Sora的局限性视频生成处于用户满意但不推荐象限，说明现有视频生成工具虽然惊艳，但尚无法支持实际工作 1.8 Sora引发的世界模型之争 Sora被OpenAI定义为“世界模拟器”，由此引发了世界模型的实施路线之争正方：OpenAI把它定义为一个“世界模拟器”（World Simulator）反方：仅根据文字提示生成逼真的视频，并不代表模型理解了物理世界！ OpenAI表示：“Sora是能够理解和模拟现实世界模型的基础，我们相信这种能力将成为实现AGI的重要里程碑。” Yann LeCun，图灵奖获得者和Meta首席科学家，最近表达了对Sora的生成式技术路线的质疑，并指出该路线可能面临失败的风险。英伟达高级研究科学家Jim Fan更是直接断言：“Sora是一个数据驱动的物理引擎，是一个可学习的模拟器，或世界模型。” YannLeCun认为，仅凭文字提示生成逼真视频并不代表模型真正理解物理世界。他指出生成视频的过程与基于世界模型的因果预测完全不同。 OpenAI是自回归生成式路线（Auto-regressive models），遵循“大数据、大模型、大算力”的暴力美学路线。从ChatGPT到Sora，都是这一思路的代表性产物。 VS 在2月19日的发文中，他再次反驳了通过生成像素来建模世界的观点，认为这种方法是浪费，就像被广泛抛弃的“通过合成来分析”的想法一样，注定会失败。 YannLeCun认为文本生成之所以可行是因为文本本身是离散的，具有有限数量的符号。在这种情况下，处理预测中的不确定性相对容易。而在处理高维连续的感觉输入时，基本上不可能处理预测的不确定性，这也是为什么针对感觉输入的生成模型注定会失败的原因。 Artificial Intuition的作者Carlos E. Perez认为，Sora并没有真正学会物理规律，只是表面上看起来像学会了，就像几年前的烟雾模拟一样。 Keras之父François Chollet也持有类似观点。他认为仅仅通过让AI观看视频是无法完全学习到世界模型的。尽管像Sora这样的视频生成模型确实融入了物理模型，问题在于这些模型的准确性及其泛化能力——即它们是否能够适应新的、非训练数据插值的情况。知名AI学者、Meta AI研究科学家田渊栋也表示，关于Sora是否有潜力学到精确物理（当然现在还没有）的本质是：为什么像“预测下一个token ”或“重建”这样简单的思路会产生如此丰富的表示？ OpenAI把Scale作为核心价值观之一：我们相信规模——在我们的模型、系统、自身、过程以及抱负中——具有魔力。当有疑问时，就扩大规模。 Part01AIGC视频生成的技术路线与产品演进趋势目录 Part02AIGC视频生成推动世界走向“AI创生时代” Part03“提示交互式”视频制作范式重塑视频产业链 Part04文娱领域有望开启第二轮投资浪潮 2.1走向AI创生时代，改变世界刚刚开始 AIGC视频生成开启AI创生时代，重塑视频产业链仅仅是第一步 甲子光年智库将AIGC视频生成对世界的影响分为如下四个阶段：L1：AI生产时代/AI工业时代。AIGC引发内容相关产业的生产力变革，视频产业将是首先被重塑的领域，AI驱动内容领域迎来“工业革命”，大幅提升内容生产效率，形成第二生产力。L2：AI原生时代。AIGC将进一步引发生产关系变革，引发角色与分工的变迁。视频成为人类信息表达的第二语言，人类语言将告别“词不达意”阶段，重塑人、内容、机器间的生产关系与交互关系。在这一阶段，AI渗透率将无限逼近人类在数字世界的生产活动行为边界——人在数字世界可以做的事情，AI都可以做。L3：AI创生时代。AI与物理世界进一步融合，逐渐渗透逼近人在物理世界的生产活动行为边界。从AI for science到生产制造，从人形机器人到世界模型，AI将逐渐突破人类为主语的创造范畴，世界模型将创造人类智慧之外的“第二智慧体系”。L4：AI文明时代。AI推动人类认知重塑，开启AI文艺复兴。AI会深度参与人类的物理世界和心灵世界，人类智慧与AI将互相影响、共

点击免费查看完整报告

你可能感兴趣

2024AIGC视频生成：走向AI创生时代

你可能感兴趣

【国盛通信·深度】AI视频生成，走向细分化与标准化

AI产品测评体验系列报告快手可灵：开启视频生成2.0时代，全球用户数已突破2200万

传媒行业周报：智谱推出AI视频模型“新清影”，视频生成开启“有声”时代

AI创生时代：2024中国AI新风向30条判断

AI视频生成，解决影视行业高成本痛点