证券研究报告 2025年1月7日 行业研究 本期内容提要: ➢Blackwell或成推理市场的钥匙,FP4精度潜力较大。目前模型参数变大的速度放缓,但模型推理和训练的运算量仍高速增长,尤其在o1引入强化学习之后,postscaling law开始发力。英伟达在发布H100架构时,便就FP8数据精度做出一定讨论。业界曾长期依赖FP16与FP32训练,但这种高精度的运算,在大模型LLM中受到了一定阻碍:由于模型参数等因素导致运算骤升,可能导致数据溢出。英伟达提出的FP8数据精度因为占用更少的比特,能提供更多运算量。以NVIDIAH100 Tensor Core GPU为例,相较FP16和BF16,FP8的峰值性能能够实现接近翻倍。FP4精度是FP8的继承和发展,对推理市场的打开有重要推动。GB200推出了FP4,FP4支持由于降低了数据精度,性价比相比H100几乎倍增。根据Semianalysis的数据,GB200NVL72在FP4精度下,FLOPS相比H100可以最高提高405%(注:H100最低以FP8计算),由此带来性价比提升。目前,FP4的运算已经可以在大模型运算中广泛应用,且已有研究表明网络可以使用FP4精度进行训练而不会有显著的精度损失。此外,由于模型推理中不需要对模型参数进行更新,相对训练对于精度的敏感性有所下降,因此B系列相对于训练,在推理领域会更有优势。B系列引入FP4精度后,大模型在云侧和端侧的协同都有望实现跃升,这也是我们看好接下来的端侧市场的原因之一。 ➢AI产业川流汇聚,2025年有望云端两旺。我们认为,B系列的推出有望打开推理市场,各类AI终端有望掀起持续的机遇。此外,AI产业的闭环有望刺激云厂商资本开支,云端共振共同发展。建议关注英伟达产业链传统的核心厂商,如ODM、PCB厂商等。此外,B系列带来的新兴赛道如铜连接、AEC赛道也值得关注。 ➢风险因素:宏观经济下行风险;下游需求不及预期风险;中美贸易摩擦加剧风险。 信达证券股份有限公司CINDA SECURITIES CO.,LTD北京市西城区宣武门西大街甲127号金隅大厦B座邮编:100031 目录 GB系列:AI产业川流汇聚,云端两旺机遇开启.....................................4Blackwell众多技术突破,整体以机柜形式交货.................................4Blackwell或成理市场的钥匙,FP4精度潜力较大................................6风险因素......................................................................9 表1:建议关注.............................................................................................................................................................9 图目录 图1:GB200 NVL72机柜正面................................................................................................................................4图2:GB200 NVL72机柜背面................................................................................................................................4图3:GB200机柜........................................................................................................................................................4图4:GB200机柜背面..............................................................................................................................................4图5:GB200 Superchip.............................................................................................................................................5图6:Blackwell的技术突破.....................................................................................................................................5图7:全球服务器出货按价格带分布(万台)................................................................................................6图8:四种数据精度...................................................................................................................................................6图9:英伟达H100相对A100有较大峰值性能提升(TFLOPS)...........................................................6图10:训练:在不同规模的GPT模型上使用BF16与FP8进行训练的loss..............................7图11:推理:使用Tensor-LLM实现FP8推理的性能............................................................................7图12:FP8推理过程..................................................................................................................................................7图13:英伟达产品算力对比...................................................................................................................................8图14:FP16和FP4精度下生成的图片对比.....................................................................................................9 GB系列:AI产业川流汇聚,云端两旺机遇开启 Blackwell众多技术突破,整体以机柜形式交货 GB200机柜有NVL36和NVL72两种规格。GB200 NVL36配置中,一个机架有36个GPU和9个双GB200计算节点(以托盘为单位)。GB200 NVL72在一个机架中配置了72个GPU/18个双GB200计算节点,或在两个机架中配置了72个GPU,每个机架上配置了18个单GB200计算节点。 资料来源:英伟达官网,信达证券研发中心 资料来源:英伟达官网,信达证券研发中心 ⚫计算托盘:每一个计算托盘有两个NVIDIA GB200 Grace Blackwell超级芯片。每个超级芯片将两个高性能NVIDIA Blackwell Tensor Core GPU和NVIDIA Grace CPU与NVLink芯片到芯片(C2C)接口连接起来,可提供900 GB/s的双向带宽。借助NVLink-C2C,应用程序可以一致地访问统一的内存空间。这简化了编程,并支持万亿参数LLM、用于多模态任务的transformer模型、用于大规模仿真的模型以及用于3D数据的生成模型的更大内存需求。 ⚫交换托盘:NVIDIA GB200 NVL72引入了第五代NVLink,它可以在单个NVLink域中连接多达576个GPU,总带宽超过1 PB/s,快速内存为240 TB。每个NVLink交换机托盘提供144个100 GB的NVLink端口,因此这9台交换机完全连接了72个Blackwell GPU上每个GPU上的18个NVLink端口中的每一个。每个GPU的革命性1.8 TB/s双向吞吐量是PCIe Gen5带宽的14倍以上,为当今最复杂的大型模型提供无缝高速通信。 资料来源:英伟达官网,信达证券研发中心 资料来源:英伟达官网,信达证券研发中心 Blackwell架构实现了较多的技术突破: ⚫GPU工艺难度和晶体管数量上升。每个GPU具有2080亿个晶体管,采用专门定制的台积电4NP工艺制造。所有Blackwell产品均采用双倍光刻极限尺寸的裸片,通过10 TB/s的片间互联技术连接成一块统一的GPU。 ⚫第二代Transformer引擎及针对推理推出FP4数据精度。第二代Transformer引擎将定制的Blackwell Tensor Core技术与NVIDIA® TensorRT™-LLM和NeMo™框架创新相结合,加速大语言模型(LLM)和专家混合模型(MoE)的推理和训练。为了强效助力MoE模型的推理Blackwell Tensor Core增加了新的精度(包括新的社区定 义 的 微 缩 放 格 式), 可 提 供 较 高 的 准 确 性 并 轻 松 替 换 更 大 的 精 度 。BlackwellTransformer引擎利用称为微张量缩放的细粒度缩放技术,优化性能和准确性,支持4位浮点(FP4) AI。这将内存可以支持的新一代模型的性能和大小翻倍,同时保持高精度。 ⚫第五代NVLink技术实现高速互联。第五代NVIDIA® NVLink®可扩展至576个GPU,为万亿和数万亿参数AI模型释放加速性能。NVIDIA NVLink交换机芯片可在一个有72个GPU的NVLink域(NVL72)中实现130TB/s的GPU带宽,并通过NVIDIA SHARP™技术对FP8的支持实现4倍于原来的带宽效率。NVIDIANVLink交换机芯片能以惊人的1.8TB/s互连速度为多服务器集群提供支持。采用NVLink的多服务器集群可以在计算量增加的情况下同步扩展GPU通信,因此NVL72可支持的GPU吞吐量是单个8卡GPU系统的9倍。 此外,Blackwell架构在安全AI、解压缩引擎、可靠性等方面也实现了不同程度的创新和突破。 资料来源:英伟达官网,信达证券研发中心 资料来源:英伟达官网,信达证券研发中心 Blackwell或成推理市场的钥匙,FP4精度潜力较大 目前模型的参数变大的速度放缓,但模型推理和训练的运算量仍高速增长。由于高质量训练语料的限制,目前模型参数变大的速度正在放缓。但是,模型训练和推理的运算量却在上升,尤其在o1引入强化学习之后,pos