AI智能总结
应该美国向中国出售Hopper芯片吗? 进步研究所 | 2025年12月7日A sse ssingth eim p a c tso f e xp o rtin gth eH 2 0 0o r H 10 0A 我 芯片 应该美国向中国出售Hopper芯片吗? 评估出口H200或H100 AI芯片的影响 进步研究所 | 2025年12月6日 执行摘要 h,特朗普政府决定不出口将 nvidia 的 lackwell 人工智能芯片(例如传说中的“b30a”芯片)运往中华人民共和国(以下简称“中国”),特朗普总统声明我们不会让除了美国以外任何人拥有[最先进的AI芯片]。1 现在,人们希望行政部门召集一个高级别会议来决定是否授权将英伟达H200芯片出口到中国。 2024年3月发布的H200是英伟达上一代“Hopper”系列的最佳AI芯片,是H100芯片的升级版。与尖端的Blackwell芯片类似,Hoppers使用台积电的4nm制程技术。尽管是上一代AI芯片,H200和H100在2026年全年都可能对前沿AI工作负载非常有用: 世界上的GPU集群主要使用Hopper芯片,包括前7名的全部。到年底,Hoppers将代表超过一半的已安装AI计算能力,与Blackwells相比。2 ●前几代人工智能芯片已持续约四年用于前沿模型训练。如果这一趋势对Hoppers也适用,那么它们很可能在2026年全年都用于前沿训练——尤其是2024年末发布的H200。 允许向中国出口大量先进Hopper芯片将产生六个主要影响: 1.该决定将重大偏离特朗普政府当前出口管制策略,它试图剥夺对战略对手的强大人工智能算力。H200 的性能将是 H20 的近 6 倍——而 H20 是一种需要出口许可证才能出口给中国的芯片,并且仅批准了有限数量的出口。 2.中国将获得性能优于其国内公司所能生产的任何芯片的芯片,并且数量要多得多。华为最早也要等到2027年第四季度才会计划生产一款与H200匹敌的AI芯片。 即使这个时间线成立,中国的制造机器人严重芯片m tlenecks这意味着它将不能产生这些芯片大规模生产,到2025年仅占美国产量的 14%,到2026年仅占12%。 3.中国人工智能实验室能够建造实现与美国顶尖人工智能超级计算机性能相似的超级计算机,尽管其训练成本会高出大约50%,推理成本会高出1-5倍,具体取决于工作负载黑威尔斯被宣传为比H200的推理性能高出30倍。然而,这个倍数没有考虑价格差异,并且反映了基于黑威尔斯集群的最佳情况假设以及基于Hopper集群的最坏情况假设。在苹果对苹果的分析中,我们估计黑威尔斯和H200在许多推理工作负载方面性能相近;在最适合黑威尔斯的推理工作负载类型上,黑威尔斯可具有高达5倍的领先优势;基于黑威尔斯的集群在训练方面可具有1.5倍的领先优势。这意味着,如果中国实验室能够获得Hoppers,它们可以在成本增加50%的情况下,构建与美国同等能力的AI训练超级计算机5 — 一个中国共产党(CCP)可能会至少部分补贴的溢价。如果美国人工智能实验室能够利用先进的“低精度”Blackwell功能,Blackwell优势可能会增加。6 有些可能在2026年这样做,但目前还没有证据表明任何已经大规模地这样做。 4.这些出口将反事实上增加中国先进人工智能计算的总供应,并且可能对中国本土化努力影响甚微。中国芯片制造瓶颈意味着华为的峰值产量仍将远远满足不了国内需求。因此,美国芯片销售将增加中国的总算力,而不是替代国内生产。北京也可能通过采购指令和限制关键基础设施中的外国芯片来维持国内芯片的人为需求,从而推动其国内半导体产业,无论美国出口管制政策如何。 5.如图1所示,出口Hopper芯片将严重影响美国相对于中国的预期人工智能计算优势. 没有向中国出口人工智能芯片且没有走私,我们估计美国将保持212026年生产的AI计算能力优势达49倍取决于黑钻芯片使用fp4或fp8性能。7 这种优势将转化为美国在训练前沿模型、支持更多资源更雄厚的AI和云公司,以及为更强大的AI模型和代理运行更强大的推理工作负载方面的巨大能力。无限制的H200出口将使这种优势缩小到6.7倍到1.2倍之间,具体取决于中国需求的规模以及FP4的采用程度。8 6.如果供应受限,为中国生产储罐将直接与为美国及其盟友生产Blackwell进行权衡,因为这两个芯片代产品在争夺大部分相同的高带宽内存(HBM)、逻辑和先进封装能力。 我们在此报告中关注H200芯片,因为它目前正在考虑出口到中国。但由于H200芯片本质上是H100芯片的内存密集型版本,本报告得出的结论在很大程度上也适用于H100芯片。9 什么是英伟达H200和H100芯片? 英伟达H200和H100芯片分别是2024年和2022年发布的数据中心AI芯片。这两款芯片都属于上一代Hopper架构的先进芯片。 哪个仍然为美国的某些地区提供动力最大人工智能数据中心。这两种芯片都包含一个GH100逻辑芯片。它们的不同之处在于,H100包含五个高带宽内存(HBM)堆栈,而H200包含六个使用更先进HBM的堆栈,因此实现了更优越的人工智能推理性能。11 两款芯片的总处理性能(TPP)均超过当前出口管制门槛的十倍左右。12 如何o到H200和H100芯片与其他先进的英伟达 AI芯片相比? 下表比较了H200和H100芯片与其他目前美国出口管制辩论中的核心AI芯片的规格、价格和性价比: ● B300是Blackwell旗舰芯片;●B30A,特朗普总统拒绝近年来对华贸易13和谈判 hopper世代也包括已停产的h800s,以及h20s。h20s的处理性能有显著下降,但在某些推理工作负载的价格性能方面具有很强的竞争力。11 H200 使用 HBM3e 而不是 H100 的 HBM3,提供 40% 的内存带宽提升和双倍的内存存储容量,这是 AI 推理性能的关键决定因素。HBM3e 是尖端 Blackwell 芯片使用的相同内存技术。由于这种高带宽内存 (HBM) 升级,NVIDIA 表示 H200 可以提供比 H100 芯片高达 2 倍的大型语言模型 (LLM) 推理性能。对于某些工作负载,例如 Meta 的 Llama 2 70B 模型的推理,内存是 H100 的瓶颈,因为模型存储在键值 (KV) 缓存中留下了很少的空间,这限制了 H100 批量用户请求(即并行运行更多用户请求)的能力。H200 中的额外内存缓解了这种内存存储瓶颈,将吞吐量翻倍。为了比较 Blackwell芯片和 H200,相对于 Blackwell,内存存储不太可能是 H200 的瓶颈,因为 H200 具有更优越的内存比例考虑。 对内存到处理性能到Blackwells先前,我们不在黑钻芯片与H200之间的内存相关性价比比较中进一步考虑存储,而是专注于内存带宽性价比比较。 近期试图将H200和H100芯片走私进中国的行为已被联邦刑事 ●H20,一款为遵循行政管理部门今年早些时候宣布的出口管制阈值而专门设计的降级霍普芯片批准用于销售。 图2比较了近期已被考虑出口到中国的先进AI芯片的规格。 当考虑fp4性能时,黑井(blackwells)在原始的每片芯片处理能力上要远比英伟达的hopper芯片强大。然而,在芯片可以以类似配置联网的情况下,每片芯片的指标在战略上相关性有限,因为芯片可以联网组成集群来达到所需的总性能水平。在集群层面,最重要的因素是用户每花一美元能获得多少性能——或者说是“性价比”。正如我们下面讨论的,从这一指标来看,先进的hopper芯片与黑井芯片具有很强的竞争力,在训练方面,它们的性价比达到了黑井的约70%。nd变量推理竞争力取决于在任务负载上。 框1:FP4与FP8 黑井与霍普的关键区别之一在于它们执行计算时所支持的“数字格式”。“数字格式”描述了用于存储每个数字的“比特”数量以及这些比特的使用方式。常见的数字格式包括FP4、FP8和FP16,它们分别使用4、8和16比特来存储数字。每减少一位都会提高性能,但通常以增加更多计算错误为代价。黑井支持低至FP4的计算,但霍普仅支持低至FP8的计算。 不同芯片上不同数字格式的可用性使得评估芯片的相对性能变得复杂,因为不同格式之间的比较不是逐项逐项的。 在这个讨论中Blackw分析中,我们通常使用FP8,而不是FP4,作为人工智能训练、人工智能推理和通用芯片性能的主要比较基准。这 是因为即使对于ells,fp8也被前沿人工智能实验室更常用。大多数人工智能训练可能尚未利用fp4。而且,即使今天人工智能公司使用fp4模型进行推理,hopper芯片也可以通过使用fp4来表示模型权重,但使用fp8来进行计算。这为推理工作流程的部分(尽管不一定是全部)带来了与blackwell芯片相似的性能提升。因此,使用fp4性能来衡量blackwells会使其相对于hoppers的真实人工智能训练和推理性能被夸大。14 然而,我们也提供了fp4结果,鉴于fp4今天早些时候的早期使用,以及将来可能增加的使用。 在附录3中,提供了对这些性能指标的更详细比较讨论。 参考表1中列出的规格,我们发现: 1.H200实现了与B300相似的内存带宽性价比. 此指标对推理最为相关,推理通常受内存带宽瓶颈限制,而非处理能力。无论工作负载是在FP4还是FP8下运行,此性能比较都保持不变。 2.H200实现了每秒在FP8下进行tera浮点运算(TFLOP/s)方面比B300价格性能高的70%.是 m这个指标与训练最相关,哪种通常是瓶子受限于可用的处理能力,而非内存带宽。鉴于巨大 的成本对于训练大型AI模型,模型开发者理想情况下希望获得最 具有成本效益的训练计算是可能的。此价格性能估计依赖于FP8性能,而非FP4,因为至少目前而言,FP4尚未被前沿AI公司用于以受益于Blackwell的FP4 FLOP/s溢价的方式来训练大型模型(详情请参见框1和附录3)。 表面上看,这些相对较小的性能差异似乎与英伟达的观点相矛盾marketing,声称Blackwell芯片(特别是B200)的推理性能比H200好30倍。但NVIDIA的30倍优势声称是基于Blackwell集群的最佳情况,以及Hopper集群的最坏情况。在考虑这些因素后,H200在成本效益方面几乎与更多具体特指:st 推理工作负载。 1.英伟达假设黑鸟(Blackwell)运行于FP4模型,而H200运行于FP8模型。然而,尽管H200缺乏原生FP4数学能力,它仍然可以运行基于FP4的模型并实现增强的推理性能。15 但对于推理工作流的部分以及对某些模型和应用场景,一些人工智能实验室现在正在探索如何利用Blackwell的FP4数学能力。详见上文框1。 2.黑井斯可以安装在比H200更大的高带宽网络上,从而提高某些工作负载的推理性能。但是大多数工作负载并不需要如此大的网络,甚至可以在等效网络上配置H200,从而消除所有推理工作负载的这种优势。 3.30倍优势主张是基于每张gpu的,但h200s比b200s便宜,这意味着这个差距可以通过简单地购买更多的h200s来弥补。为了进行恰当的比较,优势需要调整以考虑性价比。 关于每一点的更多细节,请参阅附件1。 对于人工智能训练,一个集群级分析(图3)发现,中国的人工智能实验室可以使用H200构建与美国人工智能实验室提供的同等强大的AI训练FP8超级计算机。bs大约需要额外50%的成本。参见附录2。对于这些计算的细节。这是一个比我们计算出的20%额外成本更高的成本处罚。 对于我们的B30A芯片布莱克威尔报告中国政府可能会补贴部分成本差异,与对中国半导体产业的国家补贴一致(详见下文)。 霍普派r芯片仍然对f很重要 frontier AI 霍普器芯片仍然是一种相对先进的AI芯片。就像最新款的黑鹰设计架构一样,它们采用台积电的4nm工艺制造,并且即使在黑鹰存在的情