行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

AIGC行业深度报告（12）：Sora算力倍增，国产架构+生态崛起

信息技术2024-02-19刘泽晶华西证券华***

AI智能总结

报告摘要

全球算力架构升级战

英伟达：持续加速其GPU架构升级，平均每两年迭代一次，以维持在GPU市场的主导地位。预计B100芯片将在2024年第三季度量产，性能显著提升。Hopper架构作为AI的旗舰产品，性能强大，适用于各类精度计算，广泛应用于训练市场。
AMD：紧随英伟达步伐，推出MI300系列AI算力芯片，性能优异，尤其在生成式AI领域表现出色，单从跑分来看性价比更高。

自主可控与国产计算生态崛起

华为海思昇腾：面对美国制裁，华为推出中国特供版H20芯片，尽管性能有所折损，但昇腾AI芯片有望构建计算产业的第二极。昇腾计算平台CANN实现从0到1的突破，支持50+主流大模型，兼容主流加速库和开发套件，加速创新落地，支持主流框架，并实现快速适应新版本。

SORA算力需求激增

SORA模型的发布彻底颠覆了文生视频领域，其训练所需的算力需求与传统大语言模型相比存在近百倍的差距。SORA的出现促使算力需求呈现几何倍数的增长，特别是在信创和AI的背景下，国产算力将迎来重大机遇。

投资建议

重点关注受益于AI算力需求增长的相关产业链，如服务器、电源、算力一体机、鸿蒙生态、PC制造、AI应用等，具体包括但不限于高新发展、神州数码、拓维信息、中国长城、泰嘉股份、开普云、云从科技、科大讯飞、安恒信息、新致软件、九联科技、润和软件、软通动力、中软国际、华勤技术、智微智能、东方中科、芯海科技、润达医疗、万兴科技等。

风险提示

核心技术升级不及预期的风险、AI伦理问题、政策推进不及预期的风险、中美贸易摩擦升级的风险。

此报告深入分析了全球算力架构的升级趋势，特别是英伟达和AMD在GPU领域的竞争以及华为在自主可控方面的努力。报告强调了SORA模型对算力需求的巨大影响，预示着国产算力在信创和AI背景下的巨大发展潜力。同时，提供了明确的投资建议和风险提示，为投资者和决策者提供了宝贵的参考。

华西计算机团队2024年2月19日分析师：刘泽晶SAC NO：S1120520020002邮箱：liuzj1@hx168.com.cn 核心逻辑: 全球算力架构升级战已打响。英伟达架构持续升级，升级迭代速度明显加快，平均两年架构升级，我们判断目的是维持在GPU霸主地位，根据新浪财经报道，B100将于2024年第三季度开始量产，部分早期样品将于明年第二季度出货。而我们认为英伟达Tensor Core专为AI而生，目前其Hopper架构已经为第四代，Hopper架构超强性能，可加速所有精度，性能领先，应用广泛，我们判断其广泛应用于训练市场。AMD奋起直追，欲挑战英伟达龙头地位，第三代Instinct MI300系列性能优异，满足生成式AI强劲需求，相较于H100，MI300X性能优异，单从跑分情况更具性价比。 打响关键自主可控保卫战，华为领先演绎国产计算生态崛起:自2018年来，美国通过多种制裁手段，严重限制我国高科技领域发展。根据同花顺财经报道，拜登政府2023年10月17日更新了针对AI芯片的出口管制规定，计划阻止英伟达等公司向中国出口先进的AI芯片。根据钛媒体报道，英伟达应对制裁，推出中国特供版H20芯片，其性能相较于H100大打折扣。华为海思昇腾AI芯片，有望构建算力的第二极，目前我们判断，华为昇腾910已具性价比。华为昇腾计算平台CANN已经实现从0至1突破，已支持50+主流大模型，同时兼容主流加速库及开发套件，加速型创新落地；此外已经支持主流框架，周级实现新版本适配。 SORA彻底颠覆文生视频领域，算力有望呈现几何倍数需求：OpenAI 2月16日凌晨发布了文生视频大模型SORA，它能够仅仅根据提示词，生成60s的连贯视频，“碾压”了行业目前大概只有平均“4s”的视频生成长度。SORA震撼发布，彻底颠覆文生视频领域，SORA根本区别在于，可以理解成是一种融合Transformer模型与Stable Diffusion的一种模型。通过我们的测算，Sora架构的训练与传统大语言模型(LLM)Transformer架构的训练算力需求存在近百倍差距。因此我们推测由于SORA，算力需求有望持续呈现几何规模的倍增，同时在信创和AI的大背景下，国产算力有望大放异彩。 投资建议:受益标的：服务器相关产业链：高新发展、神州数码、拓维信息、中国长城等；电源相关产业链:泰嘉股份等；算力一体机相关产业链:开普云、云从科技、科大讯飞、安恒信息、新致软件等；鸿蒙相关产业链：九联科技、润和软件、软通动力、中软国际等；PC等相关标的：华勤技术、智微智能、东方中科、芯海科技等；AI应用：润达医疗、万兴科技等。 风险提示:核心技术水平升级不及预期的风险、AI伦理风险、政策推进不及预期的风险、中美贸易摩擦升级的风险。目录 01 SORA横空出世，算力需求倍增02全球算力架构升级战已打响03国产算力生态崛起04投资建议:梳理AI算力相关受益厂商05风险提示 1.1大语言模型、文生图、文生视频加速演进 大语言模型(LLM)：LLM是一种利用机器学习技术来理解和生成人类语言的人工智能模型。LLM使用基于神经网络的模型，通常运用自然语言处理(NLP)技术来处理和计算其输出。我们判断GPT3、GPT3.5皆为大语言模型，GPT在此基础上引入了多模态。 文生图：与大预言模型不同，多模态可以根据文字描述创建原创、逼真的图像和艺术作品。它可以组合概念、属性和样式，我们认为文生图功能对于传统图型生成工具具有颠覆性。 文生视频：多模态人工智能技术实现了从AI文生图到AI文生视频的跨越，实为解放生产力的双手，我们认为其功能颠覆摄影、传媒、电影制作等行业，例如Gen2。 SORA推开新世界的大门，文生视频加速演进：OpenAI 2月16日凌晨发布了文生视频大模型Sora，它能够仅仅根据提示词，生成60s的连贯视频，“碾压”了行业目前大概只有平均“4s”的视频生成长度。 1.1大语言模型、文生图、文生视频加速演进 Transformer架构是AI向生成式跨越的重要一步：是一种采用自注意力机制的深度学习模型，这一机制可以按输入数据各部分重要性的不同而分配不同的权重。我们判断其广泛应用于大语言模型中(LLM)，例如ChatGPT系列中。Transformer模型旨在处理自然语言等顺序输入数据，可应用于翻译、文本摘要等任务。注意力机制可以为输入序列中的任意位置提供上下文。 文生图的基础采用的是Stable Diffusion架构：Stable Diffusion架构是一种自回归模型，基于扩散模型，因此训练和推理代价都很高。它主要用于生成以文本描述为条件的详细图像，但它也可以应用于其他任务，例如修复、外绘以及在文本提示引导下生成图像到图像的翻译。首先需要训练好一个自编码模型，然后利用编码器进行压缩，然后在潜在表示空间上做diffusion操作，最后再用解码器恢复到原始像素空间即可，整个流程类比物理学中的“扩散”。 1.2SORA震撼发布，彻底颠覆文生视频领域 Stable Video Diffusion是文生图到文生视频的跨越：Stable Video Diffusion的核心思想是将视频生成任务分解为两个阶段。首先，它使用扩散模型将随机噪声逐步转化为与输入图片相似的图像。这一阶段是通过逐步添加细节来完成的，类似于将一张图片逐渐“放大”。然后，在第二个阶段，该方法使用一个条件变分自编码器（cVAE）将生成的图像序列转化为视频。cVAE是一种生成模型，能够学习数据分布的特征，并根据特定条件生成新的数据样本。 SORA震撼发布，彻底颠覆文生视频领域：而SORA模型根本区别在于，可以理解成是一种融合Transformer模型与Stable Diffusion的一种模型，通过Transformer原理的编码器-解码器架构处理含噪点的输入图像，并在每一步预测出更清晰的图像版本。GPT-4被训练于以处理一串Token，并预测出下一个Token。SORA不是预测序列中的下一个文本，而是预测序列中的下一个“Patch”。 1.2SORA震撼发布，彻底颠覆文生视频领域 SORA具有划时代文生视频的大模型：SORA将可视数据转换成数据包(patchs)，大语言模型通过token将各种形式的文本代码、数学和自然语言统一起来，而SORA则通过视觉包(patchs)实现了类似的效果。从宏观角度来看，首先将视频压缩到一个低维度的潜在空间：这是通过对视频进行时间和空间上的压缩实现的。这个潜在空间可以看作是一个“时空包”的集合，从而将原始视频转化为这些包。 我们判断SORA模型的出现，算力需求有望呈现几何倍数的递增：我们判断Patchs与token的差别在于图片与文字，然而时空间数据相较于语言文字呈现的数据维度有着几何维度的差异，因此我们推测由于SORA，算力需求有望持续呈现几何规模的倍增，同时在信创和AI的大背景下，国产算力有望大放异彩。 SORA与其他主流模型比对 1.3SORA模型算力空间测算 根据AI新智界数据，ChatGPT-3的参数为1750亿，训练数据的token为3000亿，训练所需要每秒浮点运算为3.14x10^23FLOPS，假设训练数据精度为FP16，英伟达H100FP16每秒浮点运算为989.5TFLOPS，假设训练10天，需要英伟达H100卡数为3.14 x 10 ^ 23÷10^12÷（60 x 60 x 24 x10）=367.28≈368张； 根据博客园援引谷歌论文《AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE》，例如对于CIFAR-10，一般的设定是大小为16 x 16 x 3 (3代表3原色，自然界的每种颜色可以通过红、绿、蓝三种颜色表示，AI模型的图片本质即像素点)的patch，因此我们假设SORA适用16 x 16 x 3的patch表示一串有损表示图像的tokens； 由于SORA的本质是可以理解成是一种融合Transformer模型与Stable Diffusion，即在扩散模型基础上的Transformer模型，而与Transformer的本质不同在于训练数据分别是patch与token，分别代表图片与文字。图像的输入数据不是一个一个字符，而是一个一个像素。假设每个像素有C个通道，图片有宽W和高H，因此一张图片的所有数据可以用一张大小为H x W x C的张量来无损地表示。我们假设C=3(3代表3原色)； 根据澎湃新闻数据，Runway GEN-2模型由2.4亿张图片和640万个视频片段组成的内部数据集上训练，我们判断SORA架构的训练参数比GEN-2更大，然而为了方便计算，因此我们假设SORA与Runway GEN-2所训练的数据量相同。我们假设每一张图片分别为1920 x 1080分辨率，每个视频分别为30秒30FPS，因此patch大小为[(2.4 x 10^8）+ (6.4 x 10 ^7 x 30 x 30)]x 1920 x 1080 x 3= 3.73 x 10 ^ 16； 我们将Patch大小转换成token大小即(3.73 x 10 ^ 16)÷(16 x 16 x 3)= 4.86 x 10 ^ 13； Transformer架构持续升级，所需参数量有望增加，然而为了方便计算，我们假设SORA应用的Transformer架构与ChatGPT Transformer架构相同，且参数量相同，同时假设数据数据精度为FP16，假设训练10天，则需要应为英伟达H100卡数为(4.86 x 10 ^ 13)÷(3 x 10^11) x 367.28=59499.74≈59500张。我们推算Sora架构的训练与传统大语言模型(LLM) Transformer架构的训练算力需求存在近百倍差距。 2.1.1英伟达架构持续升级，升级迭代速度明显加快 平均两年架构升级，目的是维持在GPU霸主地位：根据CSDN数据，英伟达14年期间发布8款芯片架构，我们判断芯片架构的持续升级有望维护其在GPU市场的龙头地位。 英伟达架构升级速度明显加快：根据财联社以及SemiAnalysis消息，预计在H200芯片架构后，B100将于2024年第三季度开始量产，部分早期样品将于明年第二季度出货。而GH200和H200也是于2023年开始问世，同时，AMD也推出了MI300AI算力芯片，谷歌直接表示要打造自己的人工智能基础设施，其TPUv5和TPUv5e可用于内部培训和推理，还供苹果、Anthropic、CharacterAI等公司客户使用。我们判断英伟达架构升级明显处于加速状态。 2.1.2英伟达GPU的硬件核心CUDA Core与Tensor Core CUDACore和TensorCore构成了英伟达AI的绝对护城河：在机器学习领域，训练一个机器学习模型需要对大型数据进行筛选。但是随着数据集的数量、复杂度和交叉关系的增加，处理能力的需求呈指数级增长。机器学习经常通过内置的CUDAcore和Tensorcore阵列来完成机器学习任务(训练和推理)。 CUDACore是用于通用并行计算任务的计算核心：可以执行单精度和双精度浮点运算，以及整数运算。它在处理广泛的并行计算任务方面非常高效。CUDACores是实时计算、计算密集型3D图形、游戏开发、密码散列、物理引擎和数据科学计算的主要硬件，在机器学习和深度学习领域，以及TB级别数据训练上，GPU也是重要核心硬件。CUDA的广泛应用造就了GPU计算专用TeslaGPU的崛起。 TensorCore专为AI而生：TensorCore是针对深度学习和AI工作负载而设计的专用核心，可以实现混合精度计算并加速矩阵运算，尤其擅长处理半精度（FP16）和全精度（FP32）的矩阵乘法和累加操作。TensorCore

点击免费查看完整报告