行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

人工智能系列报告（四）算力系列报告（一）：推理芯片，生成式AI驱动，或迎来重大机遇-西部证券

信息技术 2024-05-09 郑宏达西部证券一切如初

生成式AI驱动推理芯片的重大机遇

核心结论

本报告指出，随着生成式AI模型性能的不断提升，推理需求有望迎来高速增长，这为推理芯片市场带来了重大机遇。以ChatGPT为代表的生成式AI应用快速迭代、落地，显著增加了模型推理的算力需求。随着模型参数和Token数量的增加，单次推理所需的算力将持续攀升。

推理芯片技术升级与市场需求

量化技术迭代：量化技术（Quantization）作为决定生成式AI推理成本的关键因素，其升级将有助于降低推理门槛，促进CPU+ASIC、CPU+FPGA等技术路线的发展，以及国产算力市场的放量。
多元化技术路线：英伟达、AMD等数据中心GPU厂商的关注点不仅限于训练场景，同样重视推理算力的提升。同时，谷歌、微软、亚马逊、Meta等海外CSP企业也在积极自研用于模型训练和推理的芯片，寻求更高效的解决方案。

国产推理芯片市场潜力

运营商加速采购：中国移动、中国联通、中国电信等通信运营商已集中采购大量AI服务器，这反映出国内推理和训练算力的加速部署。国产AI芯片在这些场景中的使用率较高，预示着国产推理芯片市场将迎来重大发展机遇。

建议关注的公司

报告推荐关注寒武纪、海光信息等公司在AI推理芯片领域的布局，以及浪潮信息、中科曙光、神州数码、工业富联等公司在算力服务器领域的表现。

风险提示

技术落地与商业化风险：生成式AI技术的商业化进程可能不如预期。
产业政策变化风险：相关政策的调整可能影响行业发展。
宏观经济风险：整体经济形势可能影响市场对AI相关产品的接受度和投入。

结构概览：

生成式AI推理需求增长：阐述了生成式AI模型性能提升带来的推理需求增长背景。
量化技术与成本降低：深入分析量化技术在降低推理成本上的作用。
多元化技术路线：讨论了不同技术路线在提升推理算力方面的进展。
国产推理芯片市场机遇：聚焦国产芯片市场的发展前景及其潜在优势。
关注公司：推荐了在AI推理芯片领域值得关注的企业。
风险提示：列举了影响行业发展的重要风险因素。

主要亮点：

技术进步：量化技术的迭代升级为降低推理成本提供了可能，促进了技术路线的多元化发展。
市场机遇：生成式AI的广泛应用激发了对高性能推理芯片的需求，特别是国产芯片市场展现出巨大潜力。
行业布局：报告推荐的公司布局覆盖了AI推理芯片和算力服务器两大领域，展示了当前行业发展的热点和趋势。

结论：

生成式AI的快速发展为推理芯片市场带来了前所未有的机遇，尤其是在量化技术的迭代、多元技术路线的探索以及国产芯片市场潜力的释放方面。随着生成式AI应用的持续落地，预计推理算力需求将进一步增长，从而为相关企业提供更大的发展空间。

行业专题报告|计算机证券研究报告2024年05月09日推理芯片：生成式AI驱动，或迎来重大机遇人工智能系列报告（四）/算力系列报告（一） 核心结论生成式AI模型性能不断提升，或处于更大规模放量前夕，推理需求有望高速增长。OpenAI于2022年11月推出生成式AI应用ChatGPT，在不到两个月的时间内，月活跃用户数突破1亿人。以ChatGPT为代表的生成式AI应用快速迭代、落地，模型推理的算力需求逐渐显现。随着生成式AI模型参数和Token数量不断增加，模型单次推理所需的算力持续攀升。同时，ChatGPT、Gemini、Kimi等聊天机器人的用户数逐步上升，MicrosoftCopilot、Adobe Firefly、WPS AI等办公助手持续落地，用户侧的流量不断上升，推理算力未来有望超过训练算力，最终训练芯片与推理芯片数量之比或达到2：8。量化技术（Quantization）是决定生成式AI推理成本的关键因素，量化技术的迭代升级有望降低推理门槛，为CPU+ASIC、CPU+FPGA等技术路线的发展，以及国产算力的放量提供了技术基础。人工智能模型的量化技术从最初的FP16量化快速发展到目前应用最成熟的INT8量化，再到正在进一步研究中的INT4量化，呈现出数据精度逐步降低，内存或显存占用不断减少的趋势。这一趋势有助于CPU+ASIC、CPU+FPGA等技术路线通过软硬件的优化提高推理能力，也有助于国产算力通过增加低精度计算单元等方式，以较成熟的制程工艺实现可用的推理算力。分析师郑宏达S080052402000113918906471zhenghongda@research.xbmail.com.cn 相关研究消费级GPU产品和海外CSP企业的自研芯片同样被用于推理场景。英伟达和AMD的消费级GPU产品，同样具备接近千亿参数量级的生成式AI模型的推理能力，从侧面说明推理芯片的门槛相对较低。谷歌、微软、亚马逊、Meta等海外CSP企业在大规模采购英伟达数据中心GPU的同时，也在积极自研用于模型训练和推理的芯片，有望成为满足推理算力需求的另一种途径。计算机：为什么我们对2024年全年计算机行业的业绩更乐观了？—计算机行业2023年年报与2024年一季报总结2024-05-09计算机：国内算力进入业绩兑现期，继续看好算力和端侧智能—计算机行业2024年5月研究观点2024-05-04计算机：计算机行业2024Q1持仓分析：低配幅度扩大—计算机行业周观点第9期2024-04-27 我们认为：生成式AI的发展是一个不断迭代升级的过程，随着国内生成式AI模型的质量持续提升，有望出现更多优质应用，从而带动推理算力需求快速上升。在推理场景下，算力的性价比显得更为重要。在供给端有所限制的情况下，国产推理芯片有望受益于国内生成式AI应用的落地，迎来重大发展机遇。建议关注： 1）AI推理芯片：寒武纪、海光信息。 2）算力服务器：浪潮信息、中科曙光、神州数码、工业富联。风险提示：人工智能技术落地和商业化不及预期；产业政策转变；宏观经济不及预期。内容目录一、生成式AI推理需求旺盛，量化技术升级降低推理门槛....................................................31.1生成式AI模型持续迭代，推理需求旺盛......................................................................31.2量化技术有助于降低推理的算力门槛...........................................................................3二、推理芯片多种技术路线齐头并进，推动生成式AI落地....................................................42.1英伟达、AMD长期关注GPU的推理算力....................................................................42.2海外CSP自研芯片，或将另辟蹊径.............................................................................52.3国产推理芯片市场潜力大，有望迎来重大机遇.............................................................7三、建议关注..........................................................................................................................8四、风险提示..........................................................................................................................8 图表目录图1：生成式AI推动全球算力基础设施加速发展....................................................................3图2：量化技术有助于降低模型的推理算力成本.....................................................................4图3：量化技术在模型部署中不可或缺....................................................................................4图4：量化技术在模型部署中不可或缺....................................................................................5图5：谷歌TPU集群已成功进行部署......................................................................................6图6：TPU在训练速度上提升明显..........................................................................................6图7：性价比是决定TPU能否放量的关键因素.......................................................................6图8：Azure Maia 100已在进行测试.......................................................................................7图9：Graviton4采用ARM架构..............................................................................................7图10：寒武纪MLU370采用了Chiplet技术...........................................................................8图11：昇腾已形成较为完整的下游产品系列...........................................................................8 表1：英伟达新一代Blackwell架构重点增强了FP8、FP4精度下的吞吐量...........................5表2：2023年以来运营商加速采购AI服务器..........................................................................7表3：部分国产推理芯片INT8峰值算力与英伟达产品较为接近.............................................8 一、生成式AI推理需求旺盛，量化技术升级降低推理门槛 1.1生成式AI模型持续迭代，推理需求旺盛生成式AI模型性能不断提升，或处于更大规模放量前夕，推理需求有望高速增长。OpenAI于2022年11月推出生成式AI应用ChatGPT，在不到两个月的时间内，月活跃用户数突破1亿人。以ChatGPT为代表的生成式AI应用快速迭代、落地，模型推理的算力需求逐渐显现。随着生成式AI模型参数和Token数量不断增加，模型单次推理所需的算力持续攀升。同时，ChatGPT、Gemini、Kimi等聊天机器人的用户数逐步上升，Microsoft Copilot、Adobe Firefly、WPS AI等办公助手持续落地，用户侧的流量不断上升，推理算力需求有望高速增长。资料来源：IDC&浪潮信息《2023-2024年中国人工智能计算力发展评估报告》，西部证券研发中心推理算力未来有望超过训练算力，最终训练芯片与推理芯片数量之比或达到2：8。目前生成式AI模型仍处于快速迭代，各厂商相互追赶的阶段，随着模型性能的逐步稳定和应用的陆续落地，算力的推理需求有望超过训练需求。而推理需求与训练需求在计算量、精度要求以及部署位置上存在差异。一方面，训练需求的精度要求较推理需求更高，因此训练芯片也就要求有更高的精度范围，在高精度场景下同样需要具备较强的性能。另一方面，训练芯片主要部署在数据中心（云侧），推理芯片则会兼顾云侧与边缘侧的算力需求。根据施耐德电气的测算，到2028年人工智能的推理负载有望占比达到85%。我们认为：考虑到云侧和边缘侧巨大的推理需求，训练芯片与推理芯片数量之比或将达到2：8。 1.2量化技术有助于降低推理的算力门槛量化技术（Quantization）是决定生成式AI推理成本的关键因素，量化技术的迭代升级有望降低推理门槛。深度神经网络模型存在参数冗余的问题，所有参数均使用32位浮点型数值（FP32），但神经网络模型实际使用的精度远不到FP32所表示的范围。如果针对低位宽的数值计算进行优化，使用低数值进行大规模矩阵运算，模型推理过程会有明显的加速效果。资料来源：工程科学学报《深度神经网络模型量化方法综述》，西部证券研发中心*图(a)表示全精度矩阵乘法运算，图(b)表示量化后的低精度矩阵乘法运算。模型量化指的是通过降低网络模型参数数值表示所需的位宽，在不影响模型任务性能情况下达到降低精度和内存容量的效果。假设将一个参数全部是FP32的神经网络的权值和激活值全部量化到16位整型数值（INT16）或8位整型数值（INT8），其内存占用和精度理论上均可减少至原先的四分之一，如果部署的处理器低精度运算较快，则能够有效加速推理过程。目前INT8量化技术已比较成熟，Google的TensorFlow、英伟达的TensorRT、Meta的PyTorch等模型部署框架均已支持INT8量化技术。资料来源：英伟达公司官网，西部证券研发中心量化技术快速发展，为CPU+ASIC、CPU+FPGA等技术路线的发展，以及国产算力的放量提供了技术基础。人工智能模型的量化技术从最初的FP16量化快速发展到目前应用最成熟的INT8量化，再到正在进一步研究中的INT4量化，呈现出数据精度逐步降低，内存或显存占用不断减少的趋势。这一趋势有助于CPU+ASIC、CPU+FPGA等技术路线通过软硬件的优化提高推理能力，也有助于国产算

点击免费查看完整报告

你可能感兴趣

人工智能系列报告（四）算力系列报告（一）：推理芯片，生成式AI驱动，或迎来重大机遇-西部证券

结构概览：

主要亮点：

结论：

你可能感兴趣

计算机行业人工智能系列报告：华为全球首款AI移动芯片，AI芯片产业链迎来投资大机遇

人工智能系列报告（四）：AI风暴强势袭来，视频物联龙头迎来价值重估

【风口研报·洞察】小米推出MiMo推理大模型，仅用7B参数超越OpenAIo1-mini，其轻量化设计或驱动AI端侧需求爆发，模型端侧化趋势下端侧算力-提升成为共识..

AI系列报告（01）：AGI驱动算力芯片增长，国产芯片加速替代

【风口研报·洞察】从PPI见底角度看本轮反攻；AMD算力芯片“MI300”采用3D堆叠和Chiplet技术或将正面迎战英伟达，分析师看好相关设备厂商有望迎来国产渗透+新增需求机遇