行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

电子：AI产业川流汇聚，云端两旺机遇开启

电子设备 2025-01-07 莫文宇信达证券王英文

GB系列：AI产业川流汇聚，云端两旺机遇开启

Blackwell架构推出多项技术突破，整体以机柜形式交货。GB200机柜分为NVL36和NVL72两种规格，NVL72在一个机架中配置72个GPU/18个双GB200计算节点。计算托盘包含两个GB200 Grace Blackwell超级芯片，每个芯片集成两个高性能GPU和Grace CPU，通过NVLink-C2C接口连接，提供900 GB/s双向带宽。交换托盘引入第五代NVLink，可连接多达576个GPU，总带宽超过1 PB/s。

Blackwell架构的技术突破包括：

GPU采用台积电4NP工艺，拥有2080亿个晶体管，通过10 TB/s片间互联技术连接成统一GPU。
第二代Transformer引擎针对LLM和MoE模型进行优化，支持FP4数据精度，提升性能和准确性。
第五代NVLink技术实现高速互联，NVL72支持130TB/s的GPU带宽，并通过NVIDIA SHARP™技术提升带宽效率。

Blackwell或成推理市场的钥匙，FP4精度潜力较大。模型参数增长速度放缓，但推理和训练运算量高速增长。FP8数据精度因占用比特更少，能提供更多运算量。以NVIDIA H100 Tensor Core GPU为例，FP8的峰值性能相较FP16和BF16接近翻倍。研究表明，FP8训练与BF16收敛性无显著差异，FP8推理可通过KV cache转换提升模型吞吐量约两倍。FP4精度是FP8的继承和发展，GB200推出FP4后，性价比相比H100几乎倍增。GB200 NVL72在FP4精度下，FLOPS相比H100最高提高405%。FP4运算已在大模型运算中广泛应用，研究表明网络使用FP4精度训练无显著精度损失。B系列在推理领域更有优势，引入FP4精度后，大模型在云侧和端侧的协同有望实现跃升。

AI产业川流汇聚，2025年有望云端两旺。B系列推出有望打开推理市场，各类AI终端将迎来持续机遇。AI产业闭环有望刺激云厂商资本开支，云端共振共同发展。建议关注英伟达产业链传统核心厂商，如ODM、PCB厂商等。此外，B系列带来的新兴赛道如铜连接、AEC赛道也值得关注。

风险因素：宏观经济下行风险；下游需求不及预期风险；中美贸易摩擦加剧风险。

证券研究报告 2025年1月7日行业研究本期内容提要: ➢Blackwell或成推理市场的钥匙，FP4精度潜力较大。目前模型参数变大的速度放缓，但模型推理和训练的运算量仍高速增长，尤其在o1引入强化学习之后，postscaling law开始发力。英伟达在发布H100架构时，便就FP8数据精度做出一定讨论。业界曾长期依赖FP16与FP32训练，但这种高精度的运算，在大模型LLM中受到了一定阻碍：由于模型参数等因素导致运算骤升，可能导致数据溢出。英伟达提出的FP8数据精度因为占用更少的比特，能提供更多运算量。以NVIDIAH100 Tensor Core GPU为例，相较FP16和BF16，FP8的峰值性能能够实现接近翻倍。FP4精度是FP8的继承和发展，对推理市场的打开有重要推动。GB200推出了FP4，FP4支持由于降低了数据精度，性价比相比H100几乎倍增。根据Semianalysis的数据，GB200NVL72在FP4精度下，FLOPS相比H100可以最高提高405%（注：H100最低以FP8计算），由此带来性价比提升。目前，FP4的运算已经可以在大模型运算中广泛应用，且已有研究表明网络可以使用FP4精度进行训练而不会有显著的精度损失。此外，由于模型推理中不需要对模型参数进行更新，相对训练对于精度的敏感性有所下降，因此B系列相对于训练，在推理领域会更有优势。B系列引入FP4精度后，大模型在云侧和端侧的协同都有望实现跃升，这也是我们看好接下来的端侧市场的原因之一。 ➢AI产业川流汇聚，2025年有望云端两旺。我们认为，B系列的推出有望打开推理市场，各类AI终端有望掀起持续的机遇。此外，AI产业的闭环有望刺激云厂商资本开支，云端共振共同发展。建议关注英伟达产业链传统的核心厂商，如ODM、PCB厂商等。此外，B系列带来的新兴赛道如铜连接、AEC赛道也值得关注。 ➢风险因素：宏观经济下行风险；下游需求不及预期风险；中美贸易摩擦加剧风险。信达证券股份有限公司CINDA SECURITIES CO.,LTD北京市西城区宣武门西大街甲127号金隅大厦B座邮编：100031 目录 GB系列：AI产业川流汇聚，云端两旺机遇开启.....................................4Blackwell众多技术突破，整体以机柜形式交货.................................4Blackwell或成理市场的钥匙，FP4精度潜力较大................................6风险因素......................................................................9 表1：建议关注.............................................................................................................................................................9 图目录图1：GB200 NVL72机柜正面................................................................................................................................4图2：GB200 NVL72机柜背面................................................................................................................................4图3：GB200机柜........................................................................................................................................................4图4：GB200机柜背面..............................................................................................................................................4图5：GB200 Superchip.............................................................................................................................................5图6：Blackwell的技术突破.....................................................................................................................................5图7：全球服务器出货按价格带分布（万台）................................................................................................6图8：四种数据精度...................................................................................................................................................6图9：英伟达H100相对A100有较大峰值性能提升（TFLOPS）...........................................................6图10：训练：在不同规模的GPT模型上使用BF16与FP8进行训练的loss..............................7图11：推理：使用Tensor-LLM实现FP8推理的性能............................................................................7图12：FP8推理过程..................................................................................................................................................7图13：英伟达产品算力对比...................................................................................................................................8图14：FP16和FP4精度下生成的图片对比.....................................................................................................9 GB系列：AI产业川流汇聚，云端两旺机遇开启 Blackwell众多技术突破，整体以机柜形式交货 GB200机柜有NVL36和NVL72两种规格。GB200 NVL36配置中，一个机架有36个GPU和9个双GB200计算节点（以托盘为单位）。GB200 NVL72在一个机架中配置了72个GPU/18个双GB200计算节点，或在两个机架中配置了72个GPU，每个机架上配置了18个单GB200计算节点。资料来源：英伟达官网，信达证券研发中心资料来源：英伟达官网，信达证券研发中心 ⚫计算托盘：每一个计算托盘有两个NVIDIA GB200 Grace Blackwell超级芯片。每个超级芯片将两个高性能NVIDIA Blackwell Tensor Core GPU和NVIDIA Grace CPU与NVLink芯片到芯片（C2C）接口连接起来，可提供900 GB/s的双向带宽。借助NVLink-C2C，应用程序可以一致地访问统一的内存空间。这简化了编程，并支持万亿参数LLM、用于多模态任务的transformer模型、用于大规模仿真的模型以及用于3D数据的生成模型的更大内存需求。 ⚫交换托盘：NVIDIA GB200 NVL72引入了第五代NVLink，它可以在单个NVLink域中连接多达576个GPU，总带宽超过1 PB/s，快速内存为240 TB。每个NVLink交换机托盘提供144个100 GB的NVLink端口，因此这9台交换机完全连接了72个Blackwell GPU上每个GPU上的18个NVLink端口中的每一个。每个GPU的革命性1.8 TB/s双向吞吐量是PCIe Gen5带宽的14倍以上，为当今最复杂的大型模型提供无缝高速通信。资料来源：英伟达官网，信达证券研发中心资料来源：英伟达官网，信达证券研发中心 Blackwell架构实现了较多的技术突破： ⚫GPU工艺难度和晶体管数量上升。每个GPU具有2080亿个晶体管，采用专门定制的台积电4NP工艺制造。所有Blackwell产品均采用双倍光刻极限尺寸的裸片，通过10 TB/s的片间互联技术连接成一块统一的GPU。 ⚫第二代Transformer引擎及针对推理推出FP4数据精度。第二代Transformer引擎将定制的Blackwell Tensor Core技术与NVIDIA® TensorRT™-LLM和NeMo™框架创新相结合，加速大语言模型(LLM)和专家混合模型(MoE)的推理和训练。为了强效助力MoE模型的推理Blackwell Tensor Core增加了新的精度(包括新的社区定义的微缩放格式)，可提供较高的准确性并轻松替换更大的精度。BlackwellTransformer引擎利用称为微张量缩放的细粒度缩放技术，优化性能和准确性，支持4位浮点(FP4) AI。这将内存可以支持的新一代模型的性能和大小翻倍，同时保持高精度。 ⚫第五代NVLink技术实现高速互联。第五代NVIDIA® NVLink®可扩展至576个GPU，为万亿和数万亿参数AI模型释放加速性能。NVIDIA NVLink交换机芯片可在一个有72个GPU的NVLink域(NVL72)中实现130TB/s的GPU带宽，并通过NVIDIA SHARP™技术对FP8的支持实现4倍于原来的带宽效率。NVIDIANVLink交换机芯片能以惊人的1.8TB/s互连速度为多服务器集群提供支持。采用NVLink的多服务器集群可以在计算量增加的情况下同步扩展GPU通信，因此NVL72可支持的GPU吞吐量是单个8卡GPU系统的9倍。此外，Blackwell架构在安全AI、解压缩引擎、可靠性等方面也实现了不同程度的创新和突破。资料来源：英伟达官网，信达证券研发中心资料来源：英伟达官网，信达证券研发中心 Blackwell或成推理市场的钥匙，FP4精度潜力较大目前模型的参数变大的速度放缓，但模型推理和训练的运算量仍高速增长。由于高质量训练语料的限制，目前模型参数变大的速度正在放缓。但是，模型训练和推理的运算量却在上升，尤其在o1引入强化学习之后，pos

点击免费查看完整报告

电子：AI产业川流汇聚，云端两旺机遇开启

你可能感兴趣

沪电股份业绩验证AI趋势，AI云端两旺共露布局良机

电子2024年中期策略报告：AI供需两旺铸就科技新趋势

电子行业周报：人工智能军备竞赛开启，关注产业投资机遇

计算机行业周报：“星算”计划开启太空算力时代新篇章，OpenAI发布云端AI编程智能体

天风电子世运电路锁定云端机遇多赛道成长路线清晰LP

电子行业跟踪报告：英伟达GTC大会启幕，关注AI算力及应用产业投资机遇

华泰建筑建材关注GTC大会持续推荐AI驱动的电子纱产业机遇中材科技宏和

中泰电子海光信息26Q1业绩超预期持续受益国产AI产业机遇

电子行业周观点：鸿海AI服务器业绩强劲，关注AI产业变革机遇

东吴电子陈海进瑞芯微Q4业绩超市场预期坚定拥抱端侧AI产业机遇