AI智能总结
事件描述 2月16日凌晨,OpenAI发布了文生视频A I模型Sora,可以根据文 本提示(prompt)、静态图像或视频直接生成或扩展视频,视频时长可达1分钟。 事件点评 联系人金凯笛:021-61102509:jinkaidi@w kzq.com.cn OpenAI发布了具有里程碑意义的文生视频AI模型Sora。Sora能够生成具有多个角色、特定类型的主题和运动,具备准确且高清的细节特征的复 杂场景。该模型不仅满足用户在prompt中要求的内容,还了解这些东西在 物理世界或数字世界中的存在方式。此外,Sora还可以在单个视频中创建多个镜 头,且准确保留角色和视觉风格的一致性和连贯性。当前OpenAI尚未向 公众开放,仅向数量有限的红队成员以及艺术家、制作人开放权限。 Sora亮点1:首次提出统一各类视觉数据的——patch,打通了扩散模型和大模型之间的桥梁。为了对齐不同时长、分辨率和纵横比的视觉数据,So ra在训练时先将大量不统一的视频和图像编码为较小的数据单元集合patc hes,使得Sora可以使用更加广泛的视觉数据来训练扩散模型。Patc h的出 现打通了扩散模型与transformer架构下大模型之间的桥梁,使得Sora能 够 在DALL·E和GPT模型技术基础上,生成高质量的视频。且OpenA I官 方技术报告显示,训练计算量越大,样本质量的提升越显著。 资料来源:Wind,聚源 《电子行业半月报:苹果Vision Pro正式发售,开启空间计算时代新篇章》(2024/2/5) 《华为发布会点评:鸿蒙千帆起,生态万舸行》(2024/1/21)《电子行业半月报:CES2024回顾,AI产品线百花齐放》(2024/1/16)《电子行业半月报:华为/小米新品发布,全场景智能再深化》(2024/1/2)《电子行业半月报:英特尔发布酷睿Ultra处理器,AIPC加速AI端侧布局》(2023/12/19)《半导体封装行业深度:先进封装引领未来,上游设备材料持续受益》(2023/12/13)《电子行业半月报:英伟达发布新一代H200GPU, 算 力 需 求 刺 激半导体行业回暖》(2023/12/5)《电子行业周报:Open AI举办首届开发者大会,GPT-4Turbo与GPT Store等相继发布》(2023/11/14)《电子行业点评:消费电子及半导体复苏迹象显现,行业景气度有望回升》(2023/11/12)《电子行业周报:苹果发布23FQ4财报,同比下滑趋势有所收窄》(2023/11/7) Sora亮点2:“涌现”出新的模拟功能,视频长度、镜头切换效果与画面流畅度大幅提升,“世界模型”雏形初显。受益于扩散模型的生成和transformer注意力机制下的推理能力,Sora在训练过程中“涌现”了许多新型的 模拟功能,而非得益于对3D、物体等属性的归纳偏置(inducitive bias):1)3D一致性;2)远距离相干性和物体持久性;3)模拟物理世界的交互性;4)模拟数字世界。得益于涌现出的创新功能和领先技术,有别于传统A I视频 生成工具,OpenAI的Sora模型能够实现场景和物象的多视角、逻辑合理、 内容连贯且稳定的高清镜头切换,在生成视频的时长(60s)上也遥遥领先。 Sora的推出给文生视频产业明确发展路径:更丰富的下游应用、更高的算力需求与安全需要。我们认为,在软件领域,Sora的推出将进一步加深和拓宽OpenAI的护城河;在底层算法和模型方面,少数巨头将占据主导地 位;下游第三方应用与生态将不断丰富。在硬件领域,一方面,Sora模型本身 需要更丰富的数据和更强的算力来优化其性能,另一方面,丰富的第三方应用 生态和更多的视频创作者也带来了更高的算力需求。因此,我们看好相关A I文生视频,AI算力芯片,光模块等产业,以及给AI PC等端侧硬件带来的新机遇。此外,目前推出的Sora模型仍存在弱点,且安全性问题尚未推出完整 的解决方案,因此,AIGC视频在中短期内将主要扮演“辅助者”的角色,未 来对于模型的安全性问题以及相关规则制度的建立将势在必行。 风险提示:1、宏观经济恢复不及预期,下游行业需求不及预期;2、贸易摩擦加剧,供应链进一步受限的风险;3、技术研发和迭代、产品推进不及预期,存在国产替代不及预期的风险;4、行业竞争加剧,使得部分企业盈利能力下滑的风险。 Sora模型横空出世,AIGC行业又一里程碑 2月16日凌晨,OpenAI发布了文生视频AI模型Sora,可以根据文本提示(prompt)、静态图像或视频直接生成或扩展视频。目前,Sora可生成的高保真视频时长可达1分钟。当前OpenAI尚未向公众开放,仅向红队成员(受雇寻找问题的个人,他们将评估与模型发 布相关的潜在风险)以及数量有限的视觉艺术家、设计师和电影制作人(以获取有关如何解 决问题的反馈)授予访问权限。 Sora能够生成具有多个角色、特定类型的主题和运动,具备准确且高清的细节特征的 复杂场景。该模型不仅满足用户在prompt中要求的内容,还了解这些东西在物理世界或数 字世界中的存在方式。此外,Sora还可以在单个视频中创建多个镜头,且准确保留角色和视 觉风格的一致性和连贯性。 亮点1:Sora首次提出统一各类视觉数据的patch,打通了扩散模型和大模型之间的桥梁 为了对齐不同时长、分辨率和纵横比的视觉数据,Sora在训练时先将大量不统一的视 频和图像编码为较小的数据单元集合patches,每个patch都类似于GPT中的一个tok en,通 过统一的数据表示方式,使得Sora可以使用更加广泛的视觉数据来训练扩散模型。 资料来源:OpenAI,五矿证券研究所 为了将不同规格的视觉数据压缩为patch,Sora团队训练了一个用于降低视觉数据维 度的网络(video compression network)。视频压缩网络能够将原始视频作为输入,并输出在 时间和空间上被压缩的潜在表示。Sora在这个压缩的潜空间(latent space)中对patch和被压缩的时间和空间特征进行训练,并生成视频。团队还训练了相应的解码器模型,将潜 在 数组(latents)映射回像素空间。 Sora使用transformer架构,在DALL·E和GPT模型对文本理解技术的基础上来生 成高质量的视频。Sora使用DALL·E 3中的重述技术(re-captioning technique),来为视觉训练数据生成高度描述性的说明(caption);Sora还利用GPT将简短的prompt转换为更 加详细的captions,使得Sora能够生成与prompt更匹配的高质量视频。扩散模型和transform er的结合使得视频生成质量随着训练计算的增加而显著提高。Sora团队发现,在固定种 子和输入的前提下,训练计算量越大,样本质量的提升越显著。 资料来源:OpenAI,五矿证券研究所 资料来源:OpenAI,五矿证券研究所 亮点2:Sora“涌现”出新的模拟功能,视频长度、镜头切换效果与画面流畅度大幅提升,“世界模型”雏形初显 受益于扩散模型的生成和transformer注意力机制下的推理能力,Sora在训练过程中“ 涌现”了许多新型的模拟功能,而非得益于对3D、物体等属性的归纳偏置(inducitive bias)。1)3D一致性:Sora能够生成运动相机拍摄的视频,即伴随相机(视角)的变换,人物 和场景可以在三维空间中保持相应的、一致连贯的运动。2)远距离相干性和物体持久性。Sor a通常能够有效地对短期和长期依赖关系进行建模,即模型可以在整个视频中长期保留人 、动物和物体,即使它们被遮挡或离开框架,且可以在单个样本视频中生成同一角色的多 个镜 头。3)模拟物理世界的交互性:Sora有时可以以简单的方式模拟影响物理世界状态的动 作,例如画家可以在画布上留下新的笔触,这些笔触会随着时间的推移而持续存在,或者一 个人可以吃汉堡并留下咬痕。4)模拟数字世界:Sora团队以《我的世界》为例,表示Sor a可以通过基本策略控制Minecraft中的玩家,同时渲染《我的世界》中的数字场景及其动态;并表示玩家只需要在Sora的prompt中提及“Minecraft”,就能零距离激发这些功能。 得益于涌现出的创新功能和领先技术,有别于传统AI视频生成工具,OpenAI的Sor a模型能够实现场景和物象的多视角、逻辑合理、内容连贯且稳定的高清镜头切换,在生成 视频的时长(60s)上也遥遥领先。在过去一年中,许多文生视频模型和A I工具纷至沓来, 但是普遍存在生成视频的时长短暂、不流畅、视角和场景内容单一等问题。截至2024年2月19日,根据官网信息,2023年Runway推出的Gen-2模型的默认生成时长为4s,最多可 扩展为16s;2023年11月Pik a推出的Pika 1.0模型默认生成时长为3s,最多可扩展成15s。 Sora的推出给文生视频产业明确发展路径:更丰富的下游应用、更高的算力需求与安全需要 在软件领域,我们认为,Sora模型独树一帜的表现是OpenA I在AIGC领域“护城河 ”再次拓宽和加深的表现。在算法方面,根据OpenA I官方技术报告,Sora模型建立在Ope nA I的GPT模型和DALE模型技术之上。在数据方面,由于Sora实现了对不同规格视觉数 据的压缩、编码和解码,丰富了视觉数据的来源,因此,OpenAI与微软的密切合作使得其在 训练数据方面也具有领先优势。所以,我们认为,在底层算法和模型方面,头部企业的壁垒 将进一步加强,各类大模型在经历大浪淘沙后,由少数巨头获得垄断性优势。而下游第三方 应用与生态将不断丰富,例如本次Sora模型的推出将给短视频制作、游戏开发、广告设计、影视娱乐等领域带来了新的机遇和挑战。 在硬件领域,我们认为,Sora模型将带来更高的算力需求,除了利好算力基础设施,也给AIPC等端侧硬件带来机遇。一方面,OpenAI对Sora优异功能和性能的展示,意味着 未来将可能爆发大量AIGC视频生成工具,视频创作的门槛将进一步降低,大概率将会涌入 大量独 立创作者,使得高性能的AI硬件成为必需。另一方面,Sora独树一帜的视频生成能 力很大程度上得益于大模型的涌现能力;且根据官方技术报告,更高的训练计算能够生成更 高质量的视频。因此,我们认为,Sora以及“Sora路径”影响下的AIGC视频模型将进一 步带来训练算力需求的提升。 但是,我们也看到,目前推出的Sora模型仍存在弱点,且安全性问题尚未推出完整 的解决方案,因此我们认为,AIGC视频在中短期内将主要扮演“辅助者”的角色。根据Ope nAI官网的举例示意,Sora目前存在如下问题:1)可能无法准确模拟复杂场景的物理特性 ,例如在多实体的场景视频中,多实体可能自发出现;2)可能缺乏因果关系,例如,视频中 人物咬一口饼干后,饼干没有咬痕;3)可能混淆prompt的空间细节和和随时间推移发生的事 件,例如,在空间上的左右混淆,在时间上对特定相机轨迹存在偏移等。此外Sora模型 的安全性、对于有害内容的把控、对于偏见和歧视内容的筛查,目前仍处于摸索当中。 资料来源:OpenAI,五矿证券研究所 资料来源:OpenAI,五矿证券研究所 资料来源:OpenAI,五矿证券研究所 资料来源:OpenAI,五矿证券研究所 风险提示 1、宏观经济恢复不及预期,下游行业需求不及预期; 2、贸易摩擦加剧,供应链进一步受限的风险;3、技术研发和迭代、产品推进不及预期,存在国产替代不及预期的风险;4、行业竞争加剧,使得部分企业盈利能力下滑的风险。 分析师声明 作者在中国证券业协会登记为证券投资咨询(分析师),以勤勉的职业态度,独立、客观地出具本报告。作者保证:(i)本报告所采用的数据均来自合规渠道;(ii)本报告分析逻辑基于作者的职业理解,并清晰准确地反映了作者的研究观点;(iii)本报告结论不受任