行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

计算机行业行业动态报告：Sora对算力需求影响几何？

信息技术 2024-02-24 吴砚靖,胡天昊中国银河证券 HEE

根据提供的文字内容，计算机行业的研究报告主要围绕Sora算力需求的影响展开，以下是对报告内容的总结：

Sora算力需求的指数级增长

核心观点：

算力需求激增：Sora的发布标志着计算能力需求的指数级增长，这将推动对算力基础设施的需求。
训练算力需求：基于大语言模型的计算方法，研究推测Sora的参数规模约为30B（具体数值有待确认），相应的单次训练算力需求可达约8.4×10^23 Flops，相当于GPT-3175B算力的2.7倍。

Sora的技术特点

基于DiT模型：Sora采用了DiT架构，融合了Diffusion和Transformer技术，旨在提高视频生成的质量和效率。
模仿大语言模型：借鉴了大语言模型的机制，通过将Transformer应用于扩散模型中，提高了模型的通用性和可扩展性。
视频处理创新：将视频处理为时空Patch，通过降维和编码，实现视频的高效处理和生成。

算力需求分析

数据集规模：假设Sora的训练数据集包含约60亿张图片和3500万个视频，每张图片和每个视频的数据量较大。
模型参数：暂定模型参数量为30B，通过计算得出单次训练所需的算力为8.4×10^23 Flops。
硬件需求：以10,000张A100 GPU进行训练，预计需要约50天的时间。

投资建议

关注领域：看好人工智能产业链的投资机会，特别是国内多模态大模型（如科大讯飞、海康威视、大华股份）、算力基础设施（如工业富联、中科曙光、软通动力、神州数码、曙光数创、润泽科技、拓维信息）以及AI应用端（如万兴科技、金山办公、超图软件、彩讯股份、拓尔思、卫宁健康、嘉和美康等）。

风险提示

技术风险：研发进展、供应链问题、政策推动滞后、市场需求不足以及行业竞争加剧都是潜在的风险因素。

结论

Sora的出现标志着人工智能领域的重要进展，其对算力的巨大需求预示着算力基础设施市场的巨大潜力。投资建议聚焦于能够受益于这一趋势的关键领域和公司，同时需密切关注相关的风险因素。

2024年2月24日计算机行业 Sora对算力需求影响几何？核心观点：分析师研究助理胡天昊：（8610）80927637：hutianhao_yj@chinastock.com.cn Sora基于DiT架构，采用Transformer替换U-Net。Sora实际上是一种基于DiT（DiffusionTransformer，扩散变换器）的模型搭建。，同时采用了Diffusion与Transformer，是一种用于扩散模型的新架构。Sora受到大语言模型的启发，用Transformer替换扩散模型中的U-Net，通过将Transformer与Diffusion结合成为一种基于扩散变换的模型DiT，趋于标准Transformer架构，同时保留其可扩展性。与大语言模型将文本转换为可被理解的token类似，Sora将视频转换成一系列Patch（视觉编码块）并将其进行降维，用Patch作为视觉图像统一表现形式，将噪声通过去噪来预测原始图像信息，进而生成视频。资料来源：wind，中国银河证券研究院 Sora实现跨越式提升，文生视频大模型开启新纪元。Sora可以将Prompt转换成长达60秒视频，相对于此前文生视频大模型Runway、Pika、StableVideo等提升几个级别。同时在视频分辨率以及质量方面，Sora可以生成1080P清晰度视频，并且能够相对完整实现对世界及物体运动规律理解及模拟，在镜头切换方面保持稳定性。此外，Sora还支持图片格式输入、视频扩展、视频拼接等，是文生视频领域突破性技术变革。 投资建议：Sora是人工智能发展进程中的“里程碑”，推动AGI时代加速到来，算力需求将持续爆发，持续看好产业链投资机会。建议重点关注国内上市公司：1、国内多模态大模型：科大讯飞、海康威视、大华股份；2、算力基础设施：工业富联、中科曙光、软通动力、神州数码、曙光数创、润泽科技、拓维信息；3、AI应用端：万兴科技、金山办公、超图软件、彩讯股份、拓尔思、卫宁健康、嘉和美康等。 风险提示：技术研发进度不及预期风险；供应链风险；政策推进不及预期风险；消费需求不及预期风险；行业竞争加剧风险等。目录一、Sora大模型横空出世，AGI时代加速到来.............................................................................................................................3二、Sora基于DiT模型搭建，更适用文生视频领域....................................................................................................................4三、Sora算力分析框架详解，是GPT-3175B所需算力0.5倍.................................................................................................6四、Sora对算力需求将呈指数级增长.............................................................................................................................................7 一、Sora大模型横空出世，AGI时代加速到来北京时间2月16日凌晨，OpenAI发布了首个文生视频大模型Sora，并配有48个生成案例及技术报告，能够通过自然语言指令生成长达60秒的高清流畅视频，在生成视频长度、清晰度、连贯性、多镜头切换方面都有显著提升。资料来源：数字经济先锋号，中国银河证券研究院 Sora在文生视频领遥遥领先。Sora可以将简短文本描述转换成一分钟流畅视频，相对于Runway、Pika、StableVideo等提升了几个代级。1）生成视频长度：Runway、Pika等传统文生视频大模型平均时长在3-5秒，Runway用户可以最多延长视频长度至16秒，Sora相对传统视频生成工具提升15-20倍；2）视频质量显著提升：生成；3）可实现多镜头切换：可以理解和模拟运动中的物理规律，可以实现复杂的运动相机模拟；4）视频连贯性与稳定性更好：在建模能力上表现更好，可以依赖关系进行建模，能初步理解及模拟物理运动规律；5）高可拓展性：支持多种数据格式输入，具备实现文生视频、图生视频、向前或向后视频扩展能力，同时支持视频连接。二、Sora基于DiT模型搭建，更适用文生视频领域 Sora实际上是一种基于DiT（DiffusionTransformer，扩散变换器）的模型搭建。，同时采用了Diffusion与Transformer，是一种用于扩散模型的新架构。DiT尽可能趋于标准Transformer架构，以保留其可扩展性。扩散模型广泛应用于视频生成领域，采用编码器-解码器架构。扩散模型是标准图像扩散架构的自然扩展，它可以从图像和视频数据中进行联合训练，可以减少小批量梯度的方差并加快优化速度，迅速取代了基于生成对抗网络（GANs）和自回归变换器的方法，成为图像生成的主导方法。 Sora受到大语言模型的启发，用Transformer替换扩散模型中的U-Net，通过将Transformer与Diffusion结合成为一种基于扩散变换的模型DiT。 Sora将视频降维成时空Patch作为视频数据对模型进行训练。首先为了适应大模型支持的上下文长度，降低处理复杂度，类似ViT（VisionTransformer）将图像进行处理，将图像进行降维分解，这样一来可以兼容所有的数据素材（静态图像可以看成是在时间t=0的一些列Patch）。 Sora采用DiT模型，通过VAE将视频压缩到LatentSpace（潜在空间）中，然后将这种表现形式分解成时空Patch（视频块），相当于大语言模型中的token。资料来源：OpenAI官网，中国银河证券研究院 Sora通过给定输入噪声及Prompt（文本提示信息），训练出的模型来预测原始的不带噪声的图像，类似于通过预测带有马赛克的原始图像，让模型去学习去除马赛克，从而达到去噪声的目的。在生成视频过程中，Sora通过对噪声进行去噪，来预测原始Patch，最后将图片转化为视频。资料来源：OpenAI官网，中国银河证券研究院三、Sora算力分析框架拆解，单次训练算力需求或可达到GPT-3175B的2.7倍通常在计算大语言模型算力需求通常与参数量及token数量成正比，而Sora大模型中可以将Patch类比与大语言模型中token，本报告基于大语言模型计算算力需求方法框架及以下三大假设，对Sora算力需求进行分析测算。假设一：Sora训练数据集为60亿张图片，分辨率为1980×1024；3500万个视频，每个视频平均时长为30秒，分辨率为1980×1024，帧率为60FPS。根据阿里联合浙江大学、华中科技大学提出的文生视频模型I2VGen-XL，研究人员收集了大约3500万单镜头文本-视频对和60亿文本-图像对来优化模型。我们暂且保守假设Sora训练数据集与I2VGen-XL相同，同时二维向量空间图片表示为H×W×C（其中H为长度，W为宽度，C为RGB颜色通道数，假设C=3）。我们估算Sora训练数据集中视频类数据Patch规模=3500×10^4×60×30×3=6.3×10^10；图片类数据Patch规模=60×10^8×1024×1980×3=1.22×10^16；训练数据集总Patch=图片类数据Patch视频类数据Patch=1.22×10^16。假设二：Sora中PatchSize为16×16，将Patch转化为token。根据谷歌论文《ANIMAGEISWORTH16×16WORDS:TRANSFORMERSFORIMAGERECOGNITIONATSCALE》，Transformer的输入是一个序列，对于一张图像来说如果把每个像素点当作一个token，那就会需要相当旁大的计算量，该文则将图像划分

点击免费查看完整报告