您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [中原证券]:传媒行业分析报告:OpenAI发布Sora,AI视频技术巨大突破 - 发现报告

传媒行业分析报告:OpenAI发布Sora,AI视频技术巨大突破

信息技术 2024-03-01 乔琪 中原证券 陈曦
报告封面

分析师:乔琪登记编码:S0730520090001qiaoqi@ccnew.com 021-50586985 ——传媒行业分析报告 证券研究报告-行业分析报告 强于大市(维持) 发布日期:2024年03月01日 投资要点: 重磅AI视频模型发布。2024年2月15日,OpenAI发布重磅产品AI视频模型Sora,引发市场强烈关注。根据OpenAI官网介绍,Sora能够根据用户输入的指令生成最高长达1分钟、清晰度最高可至1080p的高质量视频,生成的视频内容能够包含多个角色、特定类型的运动以及精确的主题和背景细节等。Sora不仅能够充分理解用户的提示词(Prompt),还能够理解提示词中的物体在物理世界中的存在方式;同时Sora还能够在生成的单个视频中实现运镜、镜头切换等更加复杂的内容呈现并较为准确地保留角色和视觉风格,实现较高的一致性。 资料来源:中原证券,聚源 相关报告 《传媒行业专题研究:春节档数据创同期最高,内容端呈高集中度特征》2024-02-21 《传媒行业月报:游戏版号再破百,关注春节档表现》2024-02-07《传媒行业月报:电影市场550亿元票房收官,游戏市场规模首超3000亿元》2024-01-15 Sora能够实现多种视频功能。根据OpenAI官网的演示视频,目前Sora能够实现由AI完成的文生视频、图生视频、视频拓展、视频编辑、视频拼接、图像生成等功能。 技术进步有望大幅拓宽AI视频应用场景。相比此前AI生成的视频,Sora生成的视频不论是长度、运镜、镜头切换能力还是生成画面的细节、一致性、稳定性以及物理特性等方面都有了明显的突破,AI生成视频即将从探索性阶段向实用性阶段逐渐过渡,随着这一过程的演变其应用场景也将得到大幅拓宽。 联系人:马嶔琦电话:021-50586973地址:上海浦东新区世纪大道1788号16楼邮编:200122 传媒产业有望受益显著。从内容生产的角度来看,Sora已经展现出了比较强的多模态内容生产能力,未来以Sora为代表的AI视频工具在游戏、广告营销、影视等多个内容产品领域都具有广泛的应用空间。一方面通过AI工具提升内容生产的效率,有效减少视频拍摄和制作环节所花费的时间和成本,缩短内容创作周期,未来的内容产业中,部分非核心内容的创作需求可能被AI模型替代;另一方面借助AI工具的力量能够降低内容创作的门槛,使更多的创作者参与到内容创作之中,提升内容产品的丰富性和创意性,同时非专业团队或内容创作者通过使用AI模型也能够创作出媲美专业团队的高质量内容产品,提升内容产品的质量。 建议关注:恺英网络、三七互娱、完美世界、吉比特、芒果超媒、风语筑、光线传媒、中国电影、万达电影 风险提示:AI生成内容存在伦理、道德和法律风险;AI工具发展进展不及预期 内容目录 1.重磅AI视频模型发布,取得突破性进展.........................................................3 1.1. AI视频模型Sora重磅发布................................................................................................31.2. Sora拥有多种视频生成功能..............................................................................................31.3. Sora实现突破性进步.........................................................................................................61.4. Sora以patch作为基本训练单元,采用diffusion + transformer架构...............................71.5.部分技术仍有瑕疵,静待技术再次进步............................................................................8 2. AI技术进步扩大应用场景,传媒产业受益显著.................................................8 3.风险提示..........................................................................................................9 图表目录 图1:Sora能够基于文字指令生成视频....................................................................................4图2:Sora能够结合左侧的图片和文字指令生成右侧的视频...................................................4图3:Sora视频拓展功能(三个不同的视频开头引导向同一个视频结尾).............................5图4:Sora能够通过添加指定元素或改变视频风格实现视频编辑...........................................5图5:Sora视频拼接功能(将左侧视频与右侧视频拼接并生成中间的视频).........................5图6:Sora图片生成功能.........................................................................................................6图7:Sora通过视觉编码器将视觉数据维度降低....................................................................7图8:Sora通过去除噪声的方式生成清晰的视频.....................................................................7图9:男子跑步方向和跑步机相反............................................................................................8图10:篮球没有触碰篮筐而是直接穿过...................................................................................8 表1:AI视频模型对比..............................................................................................................6 1.重磅AI视频模型发布,取得突破性进展 1.1.AI视频模型Sora重磅发布 2024年2月15日,OpenAI发布重磅产品AI视频模型Sora,引发市场强烈关注。根据OpenAI官网介绍,Sora能够根据用户输入的指令生成最高长达1分钟、清晰度最高可至1080p的高质量视频,生成的视频内容能够包含多个角色、特定类型的运动以及精确的主题和背景细节等。Sora不仅能够充分理解用户的提示词(Prompt),还能够理解提示词中的物体在物理世界中的存在方式;同时Sora还能够在生成的单个视频中实现运镜、镜头切换等更加复杂的内容呈现并较为准确地保留角色和视觉风格,实现较高的一致性。 目前Sora尚未对大众用户开放使用,但从OpenAI官网展示的视频来看,Sora生成的视频已经接近实拍的效果,具有丰富的光影色彩、细腻的画面以及逼真的人物和物体造型,视频展示的物体和人物的运动轨迹也基本符合现实世界中的物理规律 1.2.Sora拥有多种视频生成功能 根据OpenAI官网的演示视频,目前Sora能够实现由AI完成的文生视频、图生视频、视频拓展、视频编辑、视频拼接、图像生成等功能。 文生视频 在OpenAI的官网中展示了多个由Sora基于提示词生成视频的范例,例如根据提示词“一位时尚女性走在充满温暖霓虹灯和生动城市标志的东京街头。她穿着黑色的皮夹克、红色长裙、黑色靴子并拿着黑色皮包;戴着太阳镜、涂着口红;走路时自信又随意。街道潮湿且有反光,并与彩灯形成了镜面效应。周围还有一些行人。”生成了一段约60s的视频。从最终效果来看,视频基本能够包含提示词中所要求的全部要素。在画面移动的过程中人物与镜头的距离、背景中街道的场景以及地面积水处的反光也会随之不断变化,人物的动作姿态、背景元素以及画面风格都能够保持比较好的连贯性和一致性;同时镜头画面切换至脸部特写时,墨镜的反光、人物的表情等细节方面也得到了比较好的处理。 资料来源:OpenAI官网,中原证券 图生视频 Sora能够根据给定的图片和输入的提示词,将静态图片转化为动态视频。 资料来源:OpenAI官网,中原证券 视频拓展 根据给定的视频,由AI模型根据时间线对该视频向前或向后的内容进行拓展补充,此外也可以通过同时向前和向后拓展生成一个无限循环视频。OpenAI在演示中展示了3个结尾完全相同的视频,但由Sora补充的向前拓展的视频内容却完全不同。 资料来源:OpenAI官网,中原证券 视频编辑 通过零拍摄的方式将输入视频的风格和环境按照需求进行要素的添加或风格的转换并输出新视频。 资料来源:OpenAI官网,中原证券 视频拼接 将两段主体和场景完全不同的视频进行拼接或无缝转场,生成一个融合两个不同视频要素的新视频。 资料来源:OpenAI官网,中原证券 图像生成 通过在一帧的空间网格中加入一块块高斯噪声来实现图像生成功能,生成的图像可以拥有 不同的尺寸,最高可达到2048*2048的分辨率。 资料来源:OpenAI官网,中原证券 1.3.Sora实现突破性进步 相比于此前市场上的AI视频模型,Sora的进步十分明显。目前市场上主要的AI视频模型包括Pika、Gen-2、Lumiere、Stable Video Diffusion等。根据OpenAI官网的技术文档以及展示的视频效果,相比其他AI视频模型,Sora在生成视频的长度、视频尺寸、拓展性、多镜头能力、运镜以及视频的一致性、稳定性等方面都展现出了比较显著的优势。 具体来看:(1)Sora生成的视频长度最高可达60s,而市场上的主流竞品模型最高支持到十几秒的视频生成;(2)Sora在拓展视频时可以实现向前拓展、向后拓展和双向拓展的多种方式,竞品模型通常仅支持向后拓展;(3)Sora能够生成横屏1920*1080以及竖屏1080*1920之间任意尺寸视频,还能够直接根据不同设备的原始屏幕高宽比生成相应视频内容,而竞品模型通常仅支持固定比例尺寸视频,同时Sora能够在生成完整分辨率视频之前快速生成同一模型的小尺寸内容原型,进一步提高视频生成的效率;(4)经过大规模训练后Sora涌现出了新的模拟能力,仅通过规模效应而非归纳偏好的情况下使Sora也能够模拟来自于物理世界的人物、动物和环境的某些方面;(5)Sora展现出了比较高的3D一致性,在镜头运动过程中,人物和场景元素也会在三维空间一致移动;(6)Sora具有较好的长时间的连贯性和物体的持久性,当人物或物体被遮挡或在同一个视频中即使生成同一个角色或物体的多个镜头也能够保持其外观的一致。 依靠这些优势,相比于市面上的其他AI视频模型,Sora能够生成更加复杂的视频内容,AI视频模型的实用性也得到较大程度