内容目录 1.OpenAI视频大模型Sora:不止于视频,剑指世界模型,初步理解物理规律...............................................41.1 Sora问世:OpenAI发布视频生成大模型,剑指物理世界通用模拟工具...............................................41.2技术路径:基于Patches视觉特征标记的Diffusion Transformer模型.................................................41.3算法实现:Patches实现更灵活的采样+更优化的构图........................................................................51.4功能解读:文生视频+视频编辑,确保“物理世界常识”始终在场的通用模拟工具...................................72.文生图/视频海外标杆:AI应用端焦点,技术及产品迭代迅速.......................................................................82.1文生图/视频为当下AI应用焦点:相关产品流量排序名列前茅.............................................................82.2文生图-T2I(Text to Image):Diffusion模型奠定文生图商业化基石,新老玩家广泛入局...................92.2.1 Adobe:老牌创意软件巨头向AIG出征,发布下一代Firefly支持多种文生图功能.......................102.2.2 Midjourney:文生图模型新锐,提升创意设计工作效率,广泛实现商业化落地............................112.3文生视频-T2V(Text to Video):创意产业工作流变革前夜,MGC时代大幕下的先行者...................112.3.1 Pika:AI初创公司发布1.0工具,支持一键生成3秒共计72帧视频...........................................132.3.2 Runway:拥有最早商业化的T2V模型之一-Runway Gen-2........................................................143.文生图/视频国内映射:万兴、美图头部标杆,相继发布视觉大模型,订阅收入占比势能向上....................143.1万兴科技:发布“天幕”大模型整合T2V/I能力,AI赋能订阅及续约率双增.........................................143.2美图公司:自研视觉大模型MiracleVision 4.0,订阅业务收入占比逐年增长.....................................18 图表目录 图表1:OpenAI发布文生视频大模型Sora.....................................................................................................4图表2:Sora技术路径:基于Patches视觉特征标记的Diffusion Transformer模型.......................................5图表3:Why Patches?——更灵活的采样+更优化的构图..............................................................................6图表4:基于DALL·E 3 DCS的描述性标题重述与基于GPT的标题扩写........................................................7图表5:Sora功能一览:文生视频+视频编辑,确保“物理世界常识”始终在场.................................................8图表6:Midjourney高居AI产品流量榜首......................................................................................................9图表7:AI图片生成约占前十AI产品流量的74%..........................................................................................9图表8:T2I模型近年来加速迭代演进.............................................................................................................9图表9:Diffusion模型的前向阶段噪声化和逆向阶段去噪过程......................................................................10图表10:Adobe Firefly目前能够支持的部分AI功能....................................................................................10图表11:Midjourney文生图创意作品已广泛商业化落地...............................................................................11图表12:Latent Video Diffusion模型基于文字描述与初始图像编辑视频.......................................................12图表13:以Sora为代表的T2V大模型有望深刻改变影视产业工作流..........................................................13图表14:Pika 1.0工具主要功能...................................................................................................................14图表15:Runway Gen-2主要功能...............................................................................................................14图表16:万兴大模型“天幕”宣传片中透露七大AI功能,涉及视频、图片、音频等多模态领域.......................15图表17:2023年以来万兴T2V/I产品相继更新/发布....................................................................................16图表18:万兴旗下T2V/I多款拳头产品已进行AI功能更新,价格/月活/收入数据相对积极...........................17图表19:AI赋能万兴订阅收入占比及订阅续约率双双逐年增长....................................................................17图表20:美图发布MiracleVision 4.0赋能多行业生产力工作流,开放API支持T2I/I2I功能.........................18图表21:2020年以来美图订阅业务收入占比逐年增长.................................................................................19图表22:推荐关注创意软件厂商万兴科技、美图公司;AI技术龙头虹软科技、科大讯飞.............................19 1.1Sora问世:OpenAI发布视频生成大模型,剑指物理世界通用模拟工具 2月15日,OpenAI发布视频生成大模型Sora。OpenAI基于Transformer架构的Sora大模型能够生成长达一分钟的高清视频,同时可以指定视频时间长度、分辨率与宽高比。OpenAI研究团队认为,Sora的问世一定程度上意味着扩展视频生成模型是构建物理世界通用模拟器的重要潜在途径。 来源:OpenAI官网,国金证券研究所 1.2技术路径:基于Patches视觉特征标记的Diffusion Transformer模型 Sora取法Tokens文本特征标记,是基于Patches视觉特征标记的Diffusion Transformer模型。OpenAI研究团队从LLM中汲取灵感,认为LLM范式的成功在一定程度上得益于Tokens的使用,Tokens统一了代码、数学和各种自然语言的文本模式。类似于LLM范式下的Tokens文本标记,Sora创新性地使用了Patches(a part of something marked outfrom the rest by a particular characteristic;视觉特征标记)。鉴于Patches之前已被证明是视觉数据模型的有效表示,OpenAI研究团队进一步研发发现Patches是一种高度可扩展且有效的表示,可以被用于在不同类型的视频和图像上训练生成模型: Step1将视觉数据转化为Patches(Turning visual data into patches):将视频、图像等视觉数据压缩至低维的潜在空间中,并将其分解为带有时空(Spacetime)特征的Patches(若为图像,则对空间特征进行分解),从而将视觉数据转换为Patches。Step2构建视频压缩网络(Video compression network):OpenAI训练的视频压缩网络将原始视频作为输入,并输出在时间和空间上都经过压缩的潜在特征。Sora在这个压缩的潜在空间中接受训练并生成视频。OpenAI还训练了一个相应的解码器模型,该模型将生成的潜在对象映射回像素空间。Step3提取视觉数据的时空潜在特征(Spacetime Latent Patches):给定一个压缩的输入视频,提取一系列时空特征Patches(此方案也适用于图像,因为图像只是单帧视频)。基于Patches的表示使Sora能够利用不同分辨率、视频时间和宽高比的视频和图像进行训练。在推理时,可以通过在适当大小的网格中排列随机初始化的Patches来控制生成的视频的大小。Step4推广Transformer模型到视频生成领域(Scaling transformers for videogeneration):Sora是一个Diffusion Transformer模型,给定输入的嘈杂(noisy)Patches(以及文本提示等条件信息),它被训练来预测原始的干净(clean)Patches,继而生成高清视频。随着训练计算量的提高,样本质量也明显提高。 来源:OpenAI官网,《Auto-EncodingVariational Bayes》(D