行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

2024大模型Sora解析及Sora加持下全球文生图&视频投资机会分析报告

信息技术 2025-01-04 - 国金证券张东旭

OpenAI视频大模型Sora：
- 发布与目标：OpenAI发布视频生成大模型Sora，旨在构建物理世界通用模拟工具，生成长达一分钟的高清视频，支持指定时间长度、分辨率与宽高比。
- 技术路径：基于Patches视觉特征标记的Diffusion Transformer模型，将视觉数据转化为Patches，构建视频压缩网络，提取时空潜在特征，并推广Transformer模型至视频生成领域。
- 算法实现：Patches实现更灵活的采样和优化的构图，通过DALL·E 3 DCS的描述性标题重述与GPT的标题扩写强化语言理解能力。
- 功能解读：具备文生视频、视频编辑、文生图功能，其中文生视频支持3D一致性、远距离相干性和物体持久性、与世界的互动性，并可模拟数字世界，确保“物理世界常识”始终在场。
文生图/视频海外标杆：
- 应用焦点：文生图/视频为当下AI应用焦点，Midjourney和Pika位列AI产品流量前茅，AI图片生成约占前十AI产品流量的74%。
- 文生图-T2I：Diffusion模型奠定文生图商业化基石，新老玩家广泛入局，如Adobe Firefly和Midjourney。
- 文生视频-T2V：Latent Video Diffusion模型奠定T2V领域的基石，Runway Gen-2是市面上最早商业化的T2V模型之一，MGC时代大幕下的先行者。
文生图/视频国内映射：
- 万兴科技：发布“天幕”大模型整合T2V/I能力，AI赋能订阅及续约率双增，多款产品接入OpenAI GPT系列模型，价格策略调整幅度较小，后续或考虑AI Tokens增值模式。
- 美图公司：自研视觉大模型MiracleVision 4.0，订阅业务收入占比逐年增长，收购站酷强化创意软件业内协同效应。
研究结论与推荐关注：
- 文生图/文生视频大模型或将深刻变革内容生产工作流。
- 推荐关注数字创意软件厂商万兴科技、美图公司；AI技术龙头虹软科技、科大讯飞。

内容目录 1．OpenAI视频大模型Sora：不止于视频，剑指世界模型，初步理解物理规律...............................................41.1 Sora问世：OpenAI发布视频生成大模型，剑指物理世界通用模拟工具...............................................41.2技术路径：基于Patches视觉特征标记的Diffusion Transformer模型.................................................41.3算法实现：Patches实现更灵活的采样+更优化的构图........................................................................51.4功能解读：文生视频+视频编辑，确保“物理世界常识”始终在场的通用模拟工具...................................72.文生图/视频海外标杆：AI应用端焦点，技术及产品迭代迅速.......................................................................82.1文生图/视频为当下AI应用焦点：相关产品流量排序名列前茅.............................................................82.2文生图-T2I（Text to Image）：Diffusion模型奠定文生图商业化基石，新老玩家广泛入局...................92.2.1 Adobe：老牌创意软件巨头向AIG出征，发布下一代Firefly支持多种文生图功能.......................102.2.2 Midjourney：文生图模型新锐，提升创意设计工作效率，广泛实现商业化落地............................112.3文生视频-T2V（Text to Video）：创意产业工作流变革前夜，MGC时代大幕下的先行者...................112.3.1 Pika：AI初创公司发布1.0工具，支持一键生成3秒共计72帧视频...........................................132.3.2 Runway：拥有最早商业化的T2V模型之一-Runway Gen-2........................................................143.文生图/视频国内映射：万兴、美图头部标杆，相继发布视觉大模型，订阅收入占比势能向上....................143.1万兴科技：发布“天幕”大模型整合T2V/I能力，AI赋能订阅及续约率双增.........................................143.2美图公司：自研视觉大模型MiracleVision 4.0，订阅业务收入占比逐年增长.....................................18 图表目录图表1：OpenAI发布文生视频大模型Sora.....................................................................................................4图表2：Sora技术路径：基于Patches视觉特征标记的Diffusion Transformer模型.......................................5图表3：Why Patches？——更灵活的采样+更优化的构图..............................................................................6图表4：基于DALL·E 3 DCS的描述性标题重述与基于GPT的标题扩写........................................................7图表5：Sora功能一览：文生视频+视频编辑，确保“物理世界常识”始终在场.................................................8图表6：Midjourney高居AI产品流量榜首......................................................................................................9图表7：AI图片生成约占前十AI产品流量的74%..........................................................................................9图表8：T2I模型近年来加速迭代演进.............................................................................................................9图表9：Diffusion模型的前向阶段噪声化和逆向阶段去噪过程......................................................................10图表10：Adobe Firefly目前能够支持的部分AI功能....................................................................................10图表11：Midjourney文生图创意作品已广泛商业化落地...............................................................................11图表12：Latent Video Diffusion模型基于文字描述与初始图像编辑视频.......................................................12图表13：以Sora为代表的T2V大模型有望深刻改变影视产业工作流..........................................................13图表14：Pika 1.0工具主要功能...................................................................................................................14图表15：Runway Gen-2主要功能...............................................................................................................14图表16：万兴大模型“天幕”宣传片中透露七大AI功能，涉及视频、图片、音频等多模态领域.......................15图表17：2023年以来万兴T2V/I产品相继更新/发布....................................................................................16图表18：万兴旗下T2V/I多款拳头产品已进行AI功能更新，价格/月活/收入数据相对积极...........................17图表19：AI赋能万兴订阅收入占比及订阅续约率双双逐年增长....................................................................17图表20：美图发布MiracleVision 4.0赋能多行业生产力工作流，开放API支持T2I/I2I功能.........................18图表21：2020年以来美图订阅业务收入占比逐年增长.................................................................................19图表22：推荐关注创意软件厂商万兴科技、美图公司；AI技术龙头虹软科技、科大讯飞.............................19 1.1Sora问世：OpenAI发布视频生成大模型，剑指物理世界通用模拟工具 2月15日，OpenAI发布视频生成大模型Sora。OpenAI基于Transformer架构的Sora大模型能够生成长达一分钟的高清视频，同时可以指定视频时间长度、分辨率与宽高比。OpenAI研究团队认为，Sora的问世一定程度上意味着扩展视频生成模型是构建物理世界通用模拟器的重要潜在途径。来源：OpenAI官网，国金证券研究所 1.2技术路径：基于Patches视觉特征标记的Diffusion Transformer模型 Sora取法Tokens文本特征标记，是基于Patches视觉特征标记的Diffusion Transformer模型。OpenAI研究团队从LLM中汲取灵感，认为LLM范式的成功在一定程度上得益于Tokens的使用，Tokens统一了代码、数学和各种自然语言的文本模式。类似于LLM范式下的Tokens文本标记，Sora创新性地使用了Patches（a part of something marked outfrom the rest by a particular characteristic；视觉特征标记）。鉴于Patches之前已被证明是视觉数据模型的有效表示，OpenAI研究团队进一步研发发现Patches是一种高度可扩展且有效的表示，可以被用于在不同类型的视频和图像上训练生成模型： Step1将视觉数据转化为Patches（Turning visual data into patches）：将视频、图像等视觉数据压缩至低维的潜在空间中，并将其分解为带有时空（Spacetime）特征的Patches（若为图像，则对空间特征进行分解），从而将视觉数据转换为Patches。Step2构建视频压缩网络（Video compression network）：OpenAI训练的视频压缩网络将原始视频作为输入，并输出在时间和空间上都经过压缩的潜在特征。Sora在这个压缩的潜在空间中接受训练并生成视频。OpenAI还训练了一个相应的解码器模型，该模型将生成的潜在对象映射回像素空间。Step3提取视觉数据的时空潜在特征（Spacetime Latent Patches）：给定一个压缩的输入视频，提取一系列时空特征Patches（此方案也适用于图像，因为图像只是单帧视频）。基于Patches的表示使Sora能够利用不同分辨率、视频时间和宽高比的视频和图像进行训练。在推理时，可以通过在适当大小的网格中排列随机初始化的Patches来控制生成的视频的大小。Step4推广Transformer模型到视频生成领域（Scaling transformers for videogeneration）：Sora是一个Diffusion Transformer模型，给定输入的嘈杂（noisy）Patches（以及文本提示等条件信息），它被训练来预测原始的干净（clean）Patches，继而生成高清视频。随着训练计算量的提高，样本质量也明显提高。来源：OpenAI官网，《Auto-EncodingVariational Bayes》（D

点击免费查看完整报告

2024大模型Sora解析及Sora加持下全球文生图&视频投资机会分析报告

你可能感兴趣

计算机软件行业研究：Sora开启创意领域iPhone时刻，关注全球文生图/视频投资机会

2024人工智能Sora文生图视频行业分析报告

电子行业周报2024/2/5-2023/2/18：OpenAI重磅发布文生视频AI大模型Sora，持续关注AI产业链

【研选】文生视频大模型Sora迭代，分析师认为光网络核心受益，看好光通信产业链;国内高端校准检测头部企业，积极切入传感器领域，有望逐步构建起压力传感器、数字压力检测产品及压力变送器的产业结构链

传媒互联网行业周报：关注百度萝卜快跑产业链投资机会，快手将开源文生图大模型可图

计算机行业跟踪报告：OpenAI推出首个文生视频大模型Sora，引领AI文生视频行业跨越式发展

全球科技行业周报：OpenAI发布首个AI视频模型Sora，影视、旅游及本地消费高景气

——全球能源安全体系下的投资机会全景解析：能源转型到物流保障

智谱AI在厦门成立新公司！全球大模型迭代仍在提速下，机构建议关注AI算力、国产AI硬件、AI应用等方面的投资机会

工银瑞信互联网龙头ETF投资价值分析：掘金ETF：调整下互联网多维机会解析