您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国泰君安证券]:传播文化业:OpenAI发布Sora:文生视频“GPT时刻” - 发现报告

传播文化业:OpenAI发布Sora:文生视频“GPT时刻”

文化传媒2024-02-18陈筱、陈俊希、李芓漪国泰君安证券G***
传播文化业:OpenAI发布Sora:文生视频“GPT时刻”

OpenAI发布文生视频模型Sora,时长可达1分钟。2024年2月16日,OpenAI发布文生视频模型Sora,并一次给出多达48个由Sora直接生成、未经修改的视频,最长的时长可达59秒,远高于现有主流模型的3-4秒的时长和15-16秒的极限时长,风格上涵盖写实、动画、剪纸、3D、风景、微观、细节特写等多种。目前该模型正在红队测试阶段,从而进行风险评估。 近期AI视频模型持续迭代,Sora目前具有显著优势。目前主要AI视频模型包括已经开始商业化的Runway Gen-2、Pika 1.0,META、谷歌等大型科技公司也推出了Emu Video、Lumiere等模型, 也有stable diffusion video这类开源模型,而Sora目前在一致性、生成时长上领跑市场。 视频形式的多元创作功能或重塑内容产业,强大的模拟能力或标志“世界模型”里程碑。Sora可以实现低prompt要求的文生视频,也可以进行图生视频、对给定视频进行延长、变换、拼接等多种任务。稳定的内容输出效果将拓展AI生成视频的使用场景,如影视内容制作、游戏产业、营销行业。Sora的训练中采用了大量经标注的视频素材,在大规模训练下已实现部分模拟能力的“涌现”,如3D一致性、长期一致性与物体恒存、与世界交互、模拟数字世界等。这一成果或对AI的3D生成乃至“世界模型”有参考意义。 投资建议:1)游戏行业。AI生成技术的成熟将增加素材的丰富度,对于有较大相关需求的游戏有积极影响;同时类比AI生图技术,AI视频技术的进步有望对各美工环节进一步提效,改进行业生产效率。 推荐恺英网络、完美世界、三七互娱、吉比特、姚记科技,受益标的为游族网络、掌趣科技、神州泰岳、世纪华通、巨人网络、宝通科技等。2)影视、营销行业。AI视频工具让创作者可以便捷地创建、编辑、调整内容,或将影响产业链的价值比例构成,如IP、创意的价值相对拍摄、剪辑、制作或将有所提升,关注拥有优质IP或IP管理能力的影视、游戏公司,以及具备独特创意能力的营销公司。推荐上海电影,受益标的阅文集团、中文在线、因赛集团等。3)内容创作和剪辑工具或迎来变化,推荐美图公司。4)MR相关产业:新产品形式如MR依赖于内容供给,预计将受益于AI技术发展带来的供给增加,受益标的恒信东方、宝通科技、风雨筑、丝路视觉等。 风险提示:AI技术落地效果不及预期;AI生成相关技术、法律、道德风险等。 1.OpenAI发布文生视频模型Sora,时长可达1分钟 2024年2月16日,OpenAI发布文生视频模型Sora,并一次给出多达48个由Sora直接生成、未经修改的视频,最长的时长可达59秒,远高于现有主流模型的3-4秒的时长和15-16秒的极限时长,风格上涵盖写实、动画、剪纸、3D、风景、微观、细节特写等多种。目前该模型正在红队测试阶段,从而进行风险评估。 图1:OpenAI S ora展示视频画面,时长达到59秒 图2:Pika与Runway目前极限时长分别为15秒和16秒 近期AI视频模型持续迭代,Sora目前具有显著优势。目前主要AI视频模型包括已经开始商业化的Runway Gen-2、Pika 1.0,META、谷歌等大型科技公司也推出了Emu Video、Lumiere等模型,也有stable diffusion video这类开源模型,而Sora目前在一致性、生成时长上领跑市场。 据官方介绍,此次发布的Sora是一个diffusion Transformer模型,从效果上而言:1)其能够生成具有多个角色、特定运动类型、主体和背景的准确细节的复杂场景,模型能够理解物品是如何存在于现实世界中的; 2)模型对语言有深度理解,使得其能够精准解析提示词,从而生成有生动情感的角色,能够保持高度一致性的生成多个镜头。 表1:近期主要AI生成视频产品及模型情况 目前模型的短板主要在模拟复杂场景下的物理原理,因此可能不理解特定场景的原因和后果;模型对于一些prompt中的空间细节产生误解,如混淆左右或在面对精准描述时遇到困难。 图3:在较为复杂的空间细节prompt任务中可能产生画面破绽 2.视频形式的多元创作功能,或重塑内容产业 Sora目前可围绕视频、图片进行多元创作,并达成稳定效果,或将在短期实现应用。如Sora可以借助GPT对简单prompt进行润色后再生成,从而使得文生视频的用户输入门槛降低,Sora也可以依据输入的图片进行视频创作,或是对现存视频进行延长、变换、拼接等功能,同样可以用于图片的生成。 表2:Sora多类型可实现功能 稳定的内容输出效果将拓展AI生成视频的使用场景: 1)影视内容制作。此前的AI生成工具大多稳定性不足、时长限制显著,而Sora的效果提升使得其应用场景有所拓展,如以往1-3秒视频大多用于广告素材制作等,而现在可以用于如动态漫画、短视频、短剧、动画甚至电影制作。 2)游戏产业,如动态效果模拟、辅助3D构建、宣传片、制作互动游戏等。游戏行业创作需要各类素材支撑,参考文生图AI的发展, 随着midjourneyV6、DALL·E3的更迭和效果提升,游戏产业使用AI工具生成背景图、贴图、立绘等传统美工环节的内容的趋势越发常见,Sora的推出使得借助AI进行游戏制作中的动态效果模拟、3D构建辅助、宣传片制作等成为可能,更进一步甚至可以进行视频类互动游戏的制作,创作者可以通过将故事脚本内容以高质量视频内容的形式展现。 3)营销行业,如广告制作等。AI可以辅助广告视觉创意的实现,从而提升营销素材的生产效率,且实现时长限制的突破后,可以用于更多正式、长篇幅的广告场景。 3.强大的模拟能力或标志“世界模型”里程碑 不同于传统视频类AI采用单帧画面逐帧预测的方式,OpenAI在Sora的训练中采用了diffusionTransformer的思路,参考LLM的token思路,将多种视频编码成统一格式,形成visualpatches,然后借助DALLE3中采用重新标注技术,对视频形成标注,基于大规模训练数据达成了较为稳定的一致性。 大规模训练实现模拟能力的“涌现”,或对AI的3D生成乃至“世界模型”有参考意义。根据官方文档,Sora体现出了一些模拟能力上的“涌现”: 1)3D一致性,Sora可以通过动态镜头展现视频,在三维空间中的镜头调整并未影响到其中物体的一致性,如举例中穿过街道的镜头画面里,各类元素的相对位置和形态保持合理,这或为AI生成3D提供新的思路; 图4:镜头变化并未影响三维空间中的一致性 2)长期一致性与物体恒存,即使画面中物品被遮挡,其一致性与动态合理性仍能保持,如示例中近景人物走过对远处窗台斑点狗的短暂遮挡并未破坏后者的一致性,这意味着模型能够理解空间中的相对关系和事物运作的基本规律; 图5:近景人物遮挡前后,远景的斑点狗保持了一致性 3)与世界交互,Sora可以模拟一些交互对世界的影响,如随着画笔移动而变化的画布内容; 4)模拟数字世界,Sora可以模拟游戏画面,如虚拟生成一个在《我的世界》游戏中移动的玩家视角内容,并保持画面的稳定。 图6:随着画笔移动而变化的画布内容 图7:模拟游戏《我的世界》中的画面 4.投资建议 我们认为如下赛道将受益于AI视频技术的进步。 1)游戏行业。AI生成技术的成熟将增加素材的丰富度,对于有较大相关需求的游戏有积极影响;同时类比AI生图技术,AI视频技术的进步有望对各美工环节进一步提效,改进行业生产效率。推荐恺英网络、完美世界、三七互娱、吉比特、姚记科技,受益标的为游族网络、掌趣科技、神州泰岳、世纪华通、巨人网络、宝通科技等。 2)影视、营销行业。AI视频工具让创作者可以便捷的创建、编辑、调整内容,或将影响产业链的价值比例构成,如IP、创意的价值相对拍摄、剪辑、制作或将有所提升,关注拥有优质IP或IP管理能力的影视、游戏公司,以及具备独特创意能力的营销公司。推荐上海电影,受益标的阅文集团、中文在线、因赛集团等。 3)内容创作和剪辑工具或迎来变化,推荐美图公司; 4)MR相关产业:新产品形式如MR依赖于内容供给,预计将受益于AI技术发展带来的供给增加,受益标的恒信东方、宝通科技、风雨筑、丝路视觉等。 表3:推荐公司估值表 5.风险提示 AI技术落地效果不及预期;AI生成相关技术、法律、道德风险等。