您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国盛证券]:计算机行业点评:Sora惊艳发布,文生视频跨越式突破 - 发现报告
当前位置:首页/行业研究/报告详情/

计算机行业点评:Sora惊艳发布,文生视频跨越式突破

信息技术2024-02-17国盛证券匡***
计算机行业点评:Sora惊艳发布,文生视频跨越式突破

请仔细阅读本报告末页声明 证券研究报告 | 行业点评 2024年02月17日 计算机 Sora惊艳发布,文生视频跨越式突破 OpenAI发布Sora模型,1分钟文生视频效果惊艳。2月15日,OpenAI发布文生视频模型Sora,展示出许多亮点:1)视频生成长度可达1分钟,远超其他文生视频模型。2)3D空间的一致性,Sora可以生成具有动态镜头运动的视频,随着摄像机的移动和旋转,人物和场景元素在三维空间中保持连贯运动。3)长期连续性和物体持久性。可以在单个视频中生成同一物体的多个镜头,一个主题即使暂时离开视野也能保持不变。4)能够向前后扩展视频,以及连接两个视频。5)模拟数字世界,Sora能够模拟人工操作,例如控制Minecraft游戏中的玩家。我们认为Sora相比此前其他文生视频模型,已经跨越到实用生产力工具,1分钟长度有望大规模应用在短视频领域,扩展视频的能力也有望制作长视频,或将带来新一轮内容创作产业革命。 AIGC应用空间广阔,算力需求或呈量级提升。Sora是一种扩散模型,与GPT模型类似,Sora使用transformer架构,将视频和图像表示为称为Patch的较小数据单元的集合,类似于GPT中的token。Sora建立在OpenAI在Dall E和GPT模型的基础上。目前Sora暂未对外开放使用,仅OpenAI CEO Sam Altman在X平台上与评论互动生成视频,我们认为算力的限制可能是目前Sora暂未开放使用的重要因素。随着AIGC技术在影视剧集、宣传视频、自媒体、游戏等领域逐步渗透,视频创作效率或迎来显著提升,同时视频相对于文字、图像的交互数据量级将有巨大提升,或对应算力需求的高速扩张。 谷歌发布Gemini1.5 Pro,上下文长度达百万token。2月15日,谷歌推出Gemini 1.5 Pro,支持长达100万个token,远超当前其他基础模型,可以一次性处理大量信息,如1小时的视频、11小时的音频、超过3万行代码或超过70万个单词。Gemini 1.5 Pro是一个中型大小的多模态模型,相同基准测试下其性能与此前谷歌最大的Gemini-1.0 Ultra相似,即使上下文窗口增加,Gemini1.5 Pro也能保持高水平的性能。我们认为,谷歌Gemini1.5的推出进一步促进了大模型技术的良性竞争,产业发展趋势欣欣向荣。 投资建议: 算力侧:中科曙光、浪潮信息、海光信息、利通电子、新易盛、高新发展、中际旭创、工业富联、寒武纪、神州数码、恒为科技、软通动力、润建股份、万马科技、云赛智联、拓维信息、烽火通信等。 映射应用:万兴科技、紫天科技、虹软科技、大华股份、海康威视。 风险提示:技术迭代不及预期、经济下行超预期、行业竞争加剧。 增持(维持) 行业走势 作者 分析师 刘高畅 执业证书编号:S0680518090001 邮箱:liugaochang@gszq.com 相关研究 1、《计算机:2024年度策略:大赛道alpha时间》2024-02-11 2、《计算机:从美股财报看AI产业趋势》2024-02-04 3、《计算机:华为智车持续验证》2024-02-03 -48%-32%-16%0%16%32%2023-022023-062023-102024-02计算机沪深300 2024年02月17日 P.2 请仔细阅读本报告末页声明 内容目录 OpenAI发布Sora模型,1分钟文生视频效果惊艳 .................................................................................................... 3 AIGC应用空间广阔,算力需求或呈量级提升............................................................................................................ 5 谷歌推出Gemini 1.5 Pro,上下文长度达百万token ................................................................................................. 7 投资建议 ............................................................................................................................................................... 8 风险提示 ............................................................................................................................................................... 9 图表目录 图表1:Sora生成动态镜头视频演示 ....................................................................................................................... 3 图表2:Sora连接视频演示,中间的视频是左右两侧视频的插值 ............................................................................... 3 图表3:Sora可以控制Minecraft游戏玩家 ............................................................................................................... 4 图表4:Sora的输入将视频表示为patch ................................................................................................................. 5 图表5:Sam Altman在X平台选取评论使用Sora生成视频 ...................................................................................... 6 图表6:Gemini 1.5 pro的上下文长度领先于其他基础模型 ....................................................................................... 7 图表7:Gemini 1.5 pro演示可以理解、推理和识别402页的文档中的细节 ................................................................ 7 图表8:Gemini 1.5 pro演示可以分析电影中的情节 ................................................................................................. 8 2024年02月17日 P.3 请仔细阅读本报告末页声明 OpenAI发布Sora模型,1分钟文生视频效果惊艳 2月15日,OpenAI发布Sora模型,作为OpenAI首款文生视频模型,Sora展示出许多亮点: ⚫ 视频生成长度可达1分钟,远超其他文生视频模型。作为对比,目前视频生成领域热门的runway gen2模型最长可生成18秒的视频,pika 1.0最长可生成15秒的视频。 ⚫ 3D空间的一致性。Sora可以生成具有动态镜头运动的视频,随着摄像机的移动和旋转,人物和场景元素在三维空间中保持连贯的运动。 图表1:Sora生成动态镜头视频演示 资料来源:OpenAI官网,国盛证券研究所 ⚫ 长期连续性和物体持久性。Sora通常能够有效地对短期和长期依赖关系进行建模。例如可以保留人、动物和物体,即使它们被遮挡或离开镜头。并且可以在单个样本中生成同一角色的多个镜头,在整个视频中保持外观。OpenAI官网称Sora解决了一个具有挑战性的问题,即确保一个主题即使暂时离开视野也能保持不变。 ⚫ Sora 能够向前或向后扩展视频,以及连接视频,可以使用Sora在两个输入视频之间逐渐插值,在具有完全不同主题和场景构图的视频之间创建无缝过渡。我们认为视频扩展和连接的能力有望用于长视频制作。 图表2:Sora连接视频演示,中间的视频是左右两侧视频的插值 资料来源:OpenAI官网,国盛证券研究所 2024年02月17日 P.4 请仔细阅读本报告末页声明 ⚫ 模拟数字世界。Sora能够模拟人工过程,例如视频游戏。Sora可以同时通过基本策略控制Minecraft游戏中的玩家,同时还可以高保真地渲染世界及其动态。 图表3:Sora可以控制Minecraft游戏玩家 资料来源:OpenAI官网,国盛证券研究所 据OpenAI官网文档,目前Sora模型还有一些局限性:它可能难以准确模拟复杂场景的物理特性,并且可能无法理解具体因果关系,例如一个人咬一口饼干但饼干可能没有咬痕。Sora模型还可能混淆提示的空间细节,例如左右混淆,并且可能难以精确描述随时间推移发生的事件,例如遵循特定的相机轨迹。 我们认为Sora相比此前其他文生视频模型,已经从科技探索跨越到实用生产力工具,60秒的视频长度有望大规模应用在短视频领域,且其扩展视频的能力也有望应用于长视频制作,或将带来新一轮内容创作产业革命。 2024年02月17日 P.5 请仔细阅读本报告末页声明 AIGC应用空间广阔,算力需求或呈量级提升 在技术实现方面,据OpenAI官方文档,Sora是一种扩散模型,它从看起来像静态噪声的视频开始生成视频,然后通过多个步骤消除噪声来逐渐转换视频。与GPT模型类似,Sora使用transformer 架构,释放出卓越的扩展性能。OpenAI将视频和图像表示为称为Patch的较小数据单元的集合,每个Patch都类似于GPT中的一个token。通过统一表示数据的方式,可以在比以前更广泛的视觉数据上训练diffusion transformer,跨越不同的持续时间、分辨率和纵横比。 图表4:Sora的输入将视频表示为patch 资料来源:OpenAI官网,国盛证券研究所 同时OpenAI官方表示Sora建立在DALL E和GPT模型的基础上:OpenAI使用了在Dall E3引入的重标题技术到视频上,首先训练一个高度描述性的标题生成模型,然后使用它为训练集中的所有视频生成文本标题。OpenAI发现基于高度描述性视频标题的培训可以提高文本保真度以及视频的整体质量。OpenAI还利用GPT将简短的用户提示转换为更长的详细标题,让Sora能够准确遵循用户提示生成高质量的视频。 目前Sora暂未对外开放使用,仅OpenAI CEO Sam