行业研究公司研究宏观策略财报招股书会议纪要海南封关低空经济 DeepSeek AIGC 大模型

电子行业点评：Sora模型横空出世，AIGC行业又一里程碑

电子设备2024-02-20王少南五矿证券何***

AI智能总结

电子行业点评：Sora模型引领AI视频新纪元

主要事件与点评：

事件：2024年2月16日，OpenAI发布文生视频AI模型Sora，具备生成1分钟高保真视频的能力。
点评：
- 技术创新：Sora模型通过引入统一的patch概念，将不同规格的视觉数据进行编码，从而跨越扩散模型和大型模型之间的界限，实现了高质量视频的生成。
- 功能突破：Sora展现出新颖的模拟功能，包括但不限于3D一致性、远距离相干性、物体持久性、物理世界交互性及数字世界模拟能力，显著提升了视频生成的质量与体验。
- 应用场景展望：Sora的推出为文生视频产业开辟了更多下游应用可能性，预计会推动更高算力需求和安全性考量，尤其是对AI硬件的需求增长。

Sora模型亮点：

统一视觉数据：通过patch概念，Sora能够处理不同尺寸、分辨率和纵横比的视觉数据，优化训练过程和模型性能。
创新模拟功能：在训练过程中涌现的新功能，包括3D一致性、物体持久性、物理世界交互性及数字世界模拟，显著提高了视频生成的质量。
视频生成质量提升：随着训练计算量的增加，视频样本质量显著提升，尤其是在长视频生成能力上表现出色。

风险提示：

经济风险：全球经济复苏不确定性可能影响下游行业需求。
供应链风险：贸易摩擦加剧可能导致供应链紧张。
技术风险：研发迭代缓慢、产品推进滞后可能影响市场竞争力。
竞争风险：行业竞争加剧可能影响企业盈利能力。

行业展望：

软件领域：Sora的推出强化了OpenAI在AI生成内容领域的竞争优势，预计将在底层算法和模型方面形成更明显的头部效应。
硬件领域：Sora对算力的需求提升，将推动AI硬件及端侧设备的发展。
安全考量：随着AIGC视频应用的普及，安全问题成为关注焦点，未来可能需要更为完善的规则和制度。

投资建议：

看好电子行业，特别是与AI文生视频、AI算力芯片、光模块、AI PC等相关领域的企业，预计能从Sora模型的推广中获益。同时，关注安全性问题的解决进展。

结论：

Sora模型的发布标志着AI视频生成领域的重要里程碑，为行业提供了全新的发展方向和技术潜力，同时也提示了未来在算力需求、安全性等方面的关键挑战。

事件描述 2月16日凌晨，OpenAI发布了文生视频A I模型Sora，可以根据文本提示（prompt）、静态图像或视频直接生成或扩展视频，视频时长可达1分钟。事件点评联系人金凯笛：021-61102509：jinkaidi@w kzq.com.cn OpenAI发布了具有里程碑意义的文生视频AI模型Sora。Sora能够生成具有多个角色、特定类型的主题和运动，具备准确且高清的细节特征的复杂场景。该模型不仅满足用户在prompt中要求的内容，还了解这些东西在物理世界或数字世界中的存在方式。此外，Sora还可以在单个视频中创建多个镜头，且准确保留角色和视觉风格的一致性和连贯性。当前OpenAI尚未向公众开放，仅向数量有限的红队成员以及艺术家、制作人开放权限。 Sora亮点1：首次提出统一各类视觉数据的——patch，打通了扩散模型和大模型之间的桥梁。为了对齐不同时长、分辨率和纵横比的视觉数据，So ra在训练时先将大量不统一的视频和图像编码为较小的数据单元集合patc hes，使得Sora可以使用更加广泛的视觉数据来训练扩散模型。Patc h的出现打通了扩散模型与transformer架构下大模型之间的桥梁，使得Sora能够在DALL·E和GPT模型技术基础上，生成高质量的视频。且OpenA I官方技术报告显示，训练计算量越大，样本质量的提升越显著。资料来源：Wind，聚源 《电子行业半月报：苹果Vision Pro正式发售，开启空间计算时代新篇章》(2024/2/5) 《华为发布会点评：鸿蒙千帆起，生态万舸行》(2024/1/21)《电子行业半月报：CES2024回顾，AI产品线百花齐放》(2024/1/16)《电子行业半月报：华为/小米新品发布，全场景智能再深化》(2024/1/2)《电子行业半月报：英特尔发布酷睿Ultra处理器，AIPC加速AI端侧布局》(2023/12/19)《半导体封装行业深度：先进封装引领未来，上游设备材料持续受益》(2023/12/13)《电子行业半月报：英伟达发布新一代H200GPU，算力需求刺激半导体行业回暖》(2023/12/5)《电子行业周报：Open AI举办首届开发者大会，GPT-4Turbo与GPT Store等相继发布》(2023/11/14)《电子行业点评：消费电子及半导体复苏迹象显现，行业景气度有望回升》(2023/11/12)《电子行业周报：苹果发布23FQ4财报，同比下滑趋势有所收窄》(2023/11/7) Sora亮点2：“涌现”出新的模拟功能，视频长度、镜头切换效果与画面流畅度大幅提升，“世界模型”雏形初显。受益于扩散模型的生成和transformer注意力机制下的推理能力，Sora在训练过程中“涌现”了许多新型的模拟功能，而非得益于对3D、物体等属性的归纳偏置（inducitive bias）：1）3D一致性；2）远距离相干性和物体持久性；3）模拟物理世界的交互性；4）模拟数字世界。得益于涌现出的创新功能和领先技术，有别于传统A I视频生成工具，OpenAI的Sora模型能够实现场景和物象的多视角、逻辑合理、内容连贯且稳定的高清镜头切换，在生成视频的时长（60s）上也遥遥领先。 Sora的推出给文生视频产业明确发展路径：更丰富的下游应用、更高的算力需求与安全需要。我们认为，在软件领域，Sora的推出将进一步加深和拓宽OpenAI的护城河；在底层算法和模型方面，少数巨头将占据主导地位；下游第三方应用与生态将不断丰富。在硬件领域，一方面，Sora模型本身需要更丰富的数据和更强的算力来优化其性能，另一方面，丰富的第三方应用生态和更多的视频创作者也带来了更高的算力需求。因此，我们看好相关A I文生视频，AI算力芯片，光模块等产业，以及给AI PC等端侧硬件带来的新机遇。此外，目前推出的Sora模型仍存在弱点，且安全性问题尚未推出完整的解决方案，因此，AIGC视频在中短期内将主要扮演“辅助者”的角色，未来对于模型的安全性问题以及相关规则制度的建立将势在必行。风险提示：1、宏观经济恢复不及预期，下游行业需求不及预期；2、贸易摩擦加剧，供应链进一步受限的风险；3、技术研发和迭代、产品推进不及预期，存在国产替代不及预期的风险；4、行业竞争加剧，使得部分企业盈利能力下滑的风险。 Sora模型横空出世，AIGC行业又一里程碑 2月16日凌晨，OpenAI发布了文生视频AI模型Sora，可以根据文本提示（prompt）、静态图像或视频直接生成或扩展视频。目前，Sora可生成的高保真视频时长可达1分钟。当前OpenAI尚未向公众开放，仅向红队成员（受雇寻找问题的个人，他们将评估与模型发布相关的潜在风险）以及数量有限的视觉艺术家、设计师和电影制作人（以获取有关如何解决问题的反馈）授予访问权限。 Sora能够生成具有多个角色、特定类型的主题和运动，具备准确且高清的细节特征的复杂场景。该模型不仅满足用户在prompt中要求的内容，还了解这些东西在物理世界或数字世界中的存在方式。此外，Sora还可以在单个视频中创建多个镜头，且准确保留角色和视觉风格的一致性和连贯性。亮点1：Sora首次提出统一各类视觉数据的patch，打通了扩散模型和大模型之间的桥梁为了对齐不同时长、分辨率和纵横比的视觉数据，Sora在训练时先将大量不统一的视频和图像编码为较小的数据单元集合patches,每个patch都类似于GPT中的一个tok en，通过统一的数据表示方式，使得Sora可以使用更加广泛的视觉数据来训练扩散模型。资料来源：OpenAI，五矿证券研究所为了将不同规格的视觉数据压缩为patch，Sora团队训练了一个用于降低视觉数据维度的网络（video compression network）。视频压缩网络能够将原始视频作为输入，并输出在时间和空间上被压缩的潜在表示。Sora在这个压缩的潜空间（latent space）中对patch和被压缩的时间和空间特征进行训练，并生成视频。团队还训练了相应的解码器模型，将潜在数组（latents）映射回像素空间。 Sora使用transformer架构，在DALL·E和GPT模型对文本理解技术的基础上来生成高质量的视频。Sora使用DALL·E 3中的重述技术（re-captioning technique），来为视觉训练数据生成高度描述性的说明（caption）；Sora还利用GPT将简短的prompt转换为更加详细的captions，使得Sora能够生成与prompt更匹配的高质量视频。扩散模型和transform er的结合使得视频生成质量随着训练计算的增加而显著提高。Sora团队发现，在固定种子和输入的前提下，训练计算量越大，样本质量的提升越显著。资料来源：OpenAI，五矿证券研究所资料来源：OpenAI，五矿证券研究所亮点2：Sora“涌现”出新的模拟功能，视频长度、镜头切换效果与画面流畅度大幅提升，“世界模型”雏形初显受益于扩散模型的生成和transformer注意力机制下的推理能力，Sora在训练过程中“ 涌现”了许多新型的模拟功能，而非得益于对3D、物体等属性的归纳偏置（inducitive bias）。1）3D一致性：Sora能够生成运动相机拍摄的视频，即伴随相机（视角）的变换，人物和场景可以在三维空间中保持相应的、一致连贯的运动。2）远距离相干性和物体持久性。Sor a通常能够有效地对短期和长期依赖关系进行建模，即模型可以在整个视频中长期保留人、动物和物体，即使它们被遮挡或离开框架，且可以在单个样本视频中生成同一角色的多个镜头。3）模拟物理世界的交互性：Sora有时可以以简单的方式模拟影响物理世界状态的动作，例如画家可以在画布上留下新的笔触，这些笔触会随着时间的推移而持续存在，或者一个人可以吃汉堡并留下咬痕。4）模拟数字世界：Sora团队以《我的世界》为例，表示Sor a可以通过基本策略控制Minecraft中的玩家，同时渲染《我的世界》中的数字场景及其动态；并表示玩家只需要在Sora的prompt中提及“Minecraft”，就能零距离激发这些功能。得益于涌现出的创新功能和领先技术，有别于传统AI视频生成工具，OpenAI的Sor a模型能够实现场景和物象的多视角、逻辑合理、内容连贯且稳定的高清镜头切换，在生成视频的时长（60s）上也遥遥领先。在过去一年中，许多文生视频模型和A I工具纷至沓来，但是普遍存在生成视频的时长短暂、不流畅、视角和场景内容单一等问题。截至2024年2月19日，根据官网信息，2023年Runway推出的Gen-2模型的默认生成时长为4s，最多可扩展为16s；2023年11月Pik a推出的Pika 1.0模型默认生成时长为3s,最多可扩展成15s。 Sora的推出给文生视频产业明确发展路径：更丰富的下游应用、更高的算力需求与安全需要在软件领域，我们认为，Sora模型独树一帜的表现是OpenA I在AIGC领域“护城河 ”再次拓宽和加深的表现。在算法方面，根据OpenA I官方技术报告，Sora模型建立在Ope nA I的GPT模型和DALE模型技术之上。在数据方面，由于Sora实现了对不同规格视觉数据的压缩、编码和解码，丰富了视觉数据的来源，因此，OpenAI与微软的密切合作使得其在训练数据方面也具有领先优势。所以，我们认为，在底层算法和模型方面，头部企业的壁垒将进一步加强，各类大模型在经历大浪淘沙后，由少数巨头获得垄断性优势。而下游第三方应用与生态将不断丰富，例如本次Sora模型的推出将给短视频制作、游戏开发、广告设计、影视娱乐等领域带来了新的机遇和挑战。在硬件领域，我们认为，Sora模型将带来更高的算力需求，除了利好算力基础设施，也给AIPC等端侧硬件带来机遇。一方面，OpenAI对Sora优异功能和性能的展示，意味着未来将可能爆发大量AIGC视频生成工具，视频创作的门槛将进一步降低，大概率将会涌入大量独立创作者，使得高性能的AI硬件成为必需。另一方面，Sora独树一帜的视频生成能力很大程度上得益于大模型的涌现能力；且根据官方技术报告，更高的训练计算能够生成更高质量的视频。因此，我们认为，Sora以及“Sora路径”影响下的AIGC视频模型将进一步带来训练算力需求的提升。但是，我们也看到，目前推出的Sora模型仍存在弱点，且安全性问题尚未推出完整的解决方案，因此我们认为，AIGC视频在中短期内将主要扮演“辅助者”的角色。根据Ope nAI官网的举例示意，Sora目前存在如下问题：1）可能无法准确模拟复杂场景的物理特性，例如在多实体的场景视频中，多实体可能自发出现；2）可能缺乏因果关系，例如，视频中人物咬一口饼干后，饼干没有咬痕；3）可能混淆prompt的空间细节和和随时间推移发生的事件，例如，在空间上的左右混淆，在时间上对特定相机轨迹存在偏移等。此外Sora模型的安全性、对于有害内容的把控、对于偏见和歧视内容的筛查，目前仍处于摸索当中。资料来源：OpenAI，五矿证券研究所资料来源：OpenAI，五矿证券研究所资料来源：OpenAI，五矿证券研究所资料来源：OpenAI，五矿证券研究所风险提示 1、宏观经济恢复不及预期，下游行业需求不及预期； 2、贸易摩擦加剧，供应链进一步受限的风险；3、技术研发和迭代、产品推进不及预期，存在国产替代不及预期的风险；4、行业竞争加剧，使得部分企业盈利能力下滑的风险。分析师声明作者在中国证券业协会登记为证券投资咨询(分析师)，以勤勉的职业态度，独立、客观地出具本报告。作者保证：（i）本报告所采用的数据均来自合规渠道；（ii）本报告分析逻辑基于作者的职业理解，并清晰准确地反映了作者的研究观点；（iii）本报告结论不受任

点击免费查看完整报告