行业专题报告|计算机 证券研究报告2024年05月09日 推理芯片:生成式AI驱动,或迎来重大机遇 人工智能系列报告(四)/算力系列报告(一) 核心结论 生成式AI模型性能不断提升,或处于更大规模放量前夕,推理需求有望高速增长。OpenAI于2022年11月推出生成式AI应用ChatGPT,在不到两个月的时间内,月活跃用户数突破1亿人。以ChatGPT为代表的生成式AI应用快速迭代、落地,模型推理的算力需求逐渐显现。随着生成式AI模型参数和Token数量不断增加,模型单次推理所需的算力持续攀升。同时,ChatGPT、Gemini、Kimi等聊天机器人的用户数逐步上升,MicrosoftCopilot、Adobe Firefly、WPS AI等办公助手持续落地,用户侧的流量不断上升,推理算力未来有望超过训练算力,最终训练芯片与推理芯片数量之比或达到2:8。 量化技术(Quantization)是决定生成式AI推理成本的关键因素,量化技术的迭代升级有望降低推理门槛,为CPU+ASIC、CPU+FPGA等技术路线的发展,以及国产算力的放量提供了技术基础。人工智能模型的量化技术从最初的FP16量化快速发展到目前应用最成熟的INT8量化,再到正在进一步研究中的INT4量化,呈现出数据精度逐步降低,内存或显存占用不断减少的趋势。这一趋势有助于CPU+ASIC、CPU+FPGA等技术路线通过软硬件的优化提高推理能力,也有助于国产算力通过增加低精度计算单元等方式,以较成熟的制程工艺实现可用的推理算力。 分析师 郑宏达S080052402000113918906471zhenghongda@research.xbmail.com.cn 相关研究 消费级GPU产品和海外CSP企业的自研芯片同样被用于推理场景。英伟达和AMD的消费级GPU产品,同样具备接近千亿参数量级的生成式AI模型的推理能力,从侧面说明推理芯片的门槛相对较低。谷歌、微软、亚马逊、Meta等海外CSP企业在大规模采购英伟达数据中心GPU的同时,也在积极自研用于模型训练和推理的芯片,有望成为满足推理算力需求的另一种途径。 计算机:为什么我们对2024年全年计算机行业的业绩更乐观了?—计算机行业2023年年报与2024年一季报总结2024-05-09计算机:国内算力进入业绩兑现期,继续看好算力和端侧智能—计算机行业2024年5月研究观点2024-05-04计算机:计算机行业2024Q1持仓分析:低配 幅 度 扩 大—计 算 机 行 业 周 观 点 第9期2024-04-27 我们认为:生成式AI的发展是一个不断迭代升级的过程,随着国内生成式AI模型的质量持续提升,有望出现更多优质应用,从而带动推理算力需求快速上升。在推理场景下,算力的性价比显得更为重要。在供给端有所限制的情况下,国产推理芯片有望受益于国内生成式AI应用的落地,迎来重大发展机遇。 建议关注: 1)AI推理芯片:寒武纪、海光信息。 2)算力服务器:浪潮信息、中科曙光、神州数码、工业富联。 风险提示:人工智能技术落地和商业化不及预期;产业政策转变;宏观经济不及预期。 内容目录 一、生成式AI推理需求旺盛,量化技术升级降低推理门槛....................................................31.1生成式AI模型持续迭代,推理需求旺盛......................................................................31.2量化技术有助于降低推理的算力门槛...........................................................................3二、推理芯片多种技术路线齐头并进,推动生成式AI落地....................................................42.1英伟达、AMD长期关注GPU的推理算力....................................................................42.2海外CSP自研芯片,或将另辟蹊径.............................................................................52.3国产推理芯片市场潜力大,有望迎来重大机遇.............................................................7三、建议关注..........................................................................................................................8四、风险提示..........................................................................................................................8 图表目录 图1:生成式AI推动全球算力基础设施加速发展....................................................................3图2:量化技术有助于降低模型的推理算力成本.....................................................................4图3:量化技术在模型部署中不可或缺....................................................................................4图4:量化技术在模型部署中不可或缺....................................................................................5图5:谷歌TPU集群已成功进行部署......................................................................................6图6:TPU在训练速度上提升明显..........................................................................................6图7:性价比是决定TPU能否放量的关键因素.......................................................................6图8:Azure Maia 100已在进行测试.......................................................................................7图9:Graviton4采用ARM架构..............................................................................................7图10:寒武纪MLU370采用了Chiplet技术...........................................................................8图11:昇腾已形成较为完整的下游产品系列...........................................................................8 表1:英伟达新一代Blackwell架构重点增强了FP8、FP4精度下的吞吐量...........................5表2:2023年以来运营商加速采购AI服务器..........................................................................7表3:部分国产推理芯片INT8峰值算力与英伟达产品较为接近.............................................8 一、生成式AI推理需求旺盛,量化技术升级降低推理门槛 1.1生成式AI模型持续迭代,推理需求旺盛 生成式AI模型性能不断提升,或处于更大规模放量前夕,推理需求有望高速增长。OpenAI于2022年11月推出生成式AI应用ChatGPT,在不到两个月的时间内,月活跃用户数突破1亿人。以ChatGPT为代表的生成式AI应用快速迭代、落地,模型推理的算力需求逐渐显现。随着生成式AI模型参数和Token数量不断增加,模型单次推理所需的算力持续攀升。同时,ChatGPT、Gemini、Kimi等聊天机器人的用户数逐步上升,Microsoft Copilot、Adobe Firefly、WPS AI等办公助手持续落地,用户侧的流量不断上升,推理算力需求有望高速增长。 资料来源:IDC&浪潮信息《2023-2024年中国人工智能计算力发展评估报告》,西部证券研发中心 推理算力未来有望超过训练算力,最终训练芯片与推理芯片数量之比或达到2:8。目前生成式AI模型仍处于快速迭代,各厂商相互追赶的阶段,随着模型性能的逐步稳定和应用的陆续落地,算力的推理需求有望超过训练需求。而推理需求与训练需求在计算量、精度要求以及部署位置上存在差异。一方面,训练需求的精度要求较推理需求更高,因此训练芯片也就要求有更高的精度范围,在高精度场景下同样需要具备较强的性能。另一方面,训练芯片主要部署在数据中心(云侧),推理芯片则会兼顾云侧与边缘侧的算力需求。根据施耐德电气的测算,到2028年人工智能的推理负载有望占比达到85%。我们认为:考虑到云侧和边缘侧巨大的推理需求,训练芯片与推理芯片数量之比或将达到2:8。 1.2量化技术有助于降低推理的算力门槛 量化技术(Quantization)是决定生成式AI推理成本的关键因素,量化技术的迭代升级有望降低推理门槛。深度神经网络模型存在参数冗余的问题,所有参数均使用32位浮点型数值(FP32),但神经网络模型实际使用的精度远不到FP32所表示的范围。如果针对低位宽的数值计算进行优化,使用低数值进行大规模矩阵运算,模型推理过程会有明显的加速效果。 资料来源:工程科学学报《深度神经网络模型量化方法综述》,西部证券研发中心*图(a)表示全精度矩阵乘法运算,图(b)表示量化后的低精度矩阵乘法运算。 模型量化指的是通过降低网络模型参数数值表示所需的位宽,在不影响模型任务性能情况下达到降低精度和内存容量的效果。假设将一个参数全部是FP32的神经网络的权值和激活值全部量化到16位整型数值(INT16)或8位整型数值(INT8),其内存占用和精度理论上均可减少至原先的四分之一,如果部署的处理器低精度运算较快,则能够有效加速推理过程。目前INT8量化技术已比较成熟,Google的TensorFlow、英伟达的TensorRT、Meta的PyTorch等模型部署框架均已支持INT8量化技术。 资料来源:英伟达公司官网,西部证券研发中心 量化技术快速发展,为CPU+ASIC、CPU+FPGA等技术路线的发展,以及国产算力的放量提供了技术基础。人工智能模型的量化技术从最初的FP16量化快速发展到目前应用最成熟的INT8量化,再到正在进一步研究中的INT4量化,呈现出数据精度逐步降低,内存或显存占用不断减少的趋势。这一趋势有助于CPU+ASIC、CPU+FPGA等技术路线通过软硬件的优化提高推理能力,也有助于国产算