行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

英伟达新一代芯片Blackwell翻车过程全纪录20240805

2024-08-05 未知机构王英文

由于太多讯息满天飞，市场上大大小小卖方的讯息取得与理解都不同，整个市场的解读众说纷纭，大家用自己的认知去理解与求证，有朋友问我这是台积电的问题还是 NV？到底问题出在哪？事实上，上述几个问题是同时存在的，但问题的核心还是出在 Blackwell 设计缺陷需要 re tape out ，而 CoWoS – L 良率不好这也是同时存在，在这些问题上，各种型号，名称的混乱加剧了分析问题的复杂性，导致许多卖放解读错误，我甚至看到了有专家说 CoWoS – L 良率只有 66% ，只能出 10 颗 Good die 的离谱说法，在这我还是得说明一下 CoWoS – L 良率确实有问题，但后段封装良率 80%都不可能去排产更何况 66%这种水平，实际上 CoWoS –L 目前的良率在 90%出头，持续提升中， 90 出头的良率当然是不好，因为CoWoS – S 的良率是 99%以上 . 不论 B100/200 或 GB200 的延误主要在 Blackwell 原始芯片也就是B100 的 re tape out ，因为更高型号的 B200 或 GB200 都是来自 B100 的 Chiplet 方案，实际上在台积电内部 Blackwell 只有两个型号那就是 b100 以及 b102 . 由于 Blackwell 采取 Chiplet + CoWoS 组成与型号比较复杂，再加上 NV 对 Blackwell 定义模糊不清，又有分析机构传出 B100 取消等消息，这里面出现了一些名字理解上的混乱 . 我想应该统一各型号的命名才不会有理解的错误， b102 是所有 Blackwell 芯片的基础，由一个 GPU die +4 个 HBM3e 组成， b100 则是由两个 b102 组成，两个 GPU die + 8 个 HBM3e ，如下图所示对应服务器的出货， b102 则是 B200A ，而 b100 则是 B200 ， GB200 则是两颗 b100 + 一颗 G race CPU 放在一块主版上， GB200 并不是一颗芯片而是一块版，不应该与芯片来同比较，如下图所示目前针对 Blackwell 架构的基础芯片只有两款 b102 与 b100 ，但对应服务器的话则有三款主板(B200A/B200/GB200)，很多人好奇，这时候 B100 跑哪去了？说实在的 NV 定义本身就不清楚，而针对不同应用的服务器则可组合出更多款式(HGX B200A / HGX B200/NVL36/72 甚至是 NVL8 或 GB210A 的气冷版本)看了许多卖方报告，除了一小部分出现离谱的错误以外，比如缺乏行业常识的 CoWoS-L 良率，目前整个市场各式各样的解读，除了 Blackwell 同时出现多个问题以外，还有一个很重要的因素就是命名的混乱，每个人理解认知不同，统一一下说法很有必要，大家更不要针对所谓名字去做无谓的争执，以免乱上加乱，大摩 8/2 的报告也注意到了这一点，另外也看到了一个现象，那就是外资卖方研究以芯片源头为依据，内资卖方往往缺少芯片端的基础讯息，而以服务器整体分析为着重点 . 四季更大规模的生产可以追回，这样的阐述确实避重就轻，显得不那么专业，也造成不少人误解，误以为问题小到两周就可以搞定 . 事实上当然不是如此，但结果在第四季追回是合理的，作者 8/2 号再星球更新的文章中就提到 re tape out 的过程，这次出问题的是底层 standard cell ，也就是说确实必须针对性的重新设计，目前问题都已发现并解决，需要重新开几个 mask ，整体来说 wafer in / wafer out 时间没有办法能缩短，但 2024 年本来就不是 Blackwell 服务器出货的主要时间，只有小批量出货，今年底扩大产能把之前缺少的补回来，这对于在 Fab 厂待过的作者来说，我认为并不是啥困难的事. 不知道读者们还记得 7 月中，路透传出中国特供板 B20 的消息，我想很大概率路透以为的 B20 就是只有 b100 一半的 b102(一颗 GPU die + 4 颗HBM3e) ，当时作者也分析在这一代中国特供板 H20 可能被禁止的情况下推出下一代特供板 B20 可能性相对较小，如今看来之前的分析还是合理的 .除了芯片本身的设计缺陷，我们再来看看其他制造问题， Blackwell 的 GPUdie 采用台积电 N4P 制程，跟 AMD，高通，苹果采用的一样，在台积电属于运行成熟的工艺，所以芯片前段制程并没有值得担心的点 . 而 Blackwell 采用的 CoWoS-L 封装技术是首次大规模应用，良率没有达到预期，这一点被国内卖方理解错误而夸大其影响，导致许多人来问我，台积电怎会出这种低级失误，影响了 NV 出货，良率的问题，文章前已经说了， CoWoS-L 良率是 90%+ ，这对先进封装来说确实不高，也不如台积电年初的预期 95%，对于一个新工艺来说，勉强能接受， Fabless 采用全新工艺本来就是要同时开几个方案，不可能全部压注在新方案上，这样风险太大，如果新技术方案有问题，那整代产品就废了， Fabless 在下单时一定会有备选方案同时开案，比如苹果明年想采用全新的 2nm 新工艺，但同时还会有 N3P 的方案在 run ，以确保赚无一失，台积电不保证新工艺良率在什么时间点一定能到多少，最多就是在商务合同上有一个保底良率，但可以肯定这保底良率并不会太高，最终的风险 Fabless 客户在下单时必须自行充分考虑，所以出了这么大问题，我们看到台积电几乎没有什么责任需要承担，更多的是如何帮客户擦屁股，提出各种的紧急解决方案 .目前的问题是没有前段的 GPU die ， CoWoS-L 产能会有一段时间的停摆， NV 服务器出货会造成延迟 . 针对 CoWoS – L 的良率问题，作者也与公认跟台积电 CoWoS最靠普的野村团队 Donnie 确认过，获得的数据跟我原本了解是一致的.在出现 re tape out 这个变化之前， NV 已经计划推出搭载 b102 芯片的HGX B200A 及 GB210A(或 NVL8)服务器，并因为 CoWoS –L 良率没达到 95%的预期，做出生产的调整，也就是 B200A 从原本的 CoWoS – L 改用 CoWoS – S ，这样一来可以分担 CoWoS – L 的生产压力，并在 2025 年可以有更多的 Blackwell 产出，原本 Blackwell 全系列有采用 CoWoS – L ，如今把 B200A 改为 CoWoS– S，很显然，这将很好的追回 2024 年因为 re tape out 而减少的出货量，而且 2025 年 Blackwell 总出货量也能因为 CoWoS – S 的加入而有所提升 . 许多卖方把 B200A 改为 CoWoS – S 归咎于 CoWoS – L 良率低，甚至把 Blackwell 出货延迟误解为 CoWoS – L 良率只有 10 颗 Good die 造成的，大摩 8/2 号的报告则把 B200A 因不需要高性能所以采用 CoWoS – S ，这些说法很显然都是错误的 . 对于其他可能造成出货延误的选项，我们来看一下零部件也就是供应链环节，较为紧张的零部件有 HBM 以及液冷 QCD ，紧俏的零部件供给并不会造成出货延迟，最多只是出货量减少，毕竟这些紧缺的零部件或芯片还是有一定的供货能力 . 更何况如 HBM 下半年也已经明确会加入新的大供应商三星目前进入生产阶段的不止芯片，还有板卡组件、新的交换设备、新设计的机架、新制冷方案等等，从 8 卡 Pod 扩容到 72 卡 Pod 需要考虑的问题很多，尤其是包括网络带宽的收敛、以及各种并行策略（模型数据切分、分段计算、拷贝和重组）在整个 Pod 中的最佳工况。 Rack 也需要重新设计，毕竟 tray 变得更多、更高密、更紧凑，机架内的布线数量、高速交换、散热也就更复杂，相信这种 Rack 还没有正式量产，正紧锣密鼓的进行各种测试中。服务器所有子系统与集成，由于 NVL36/72 是一项全新的技术方案，所有子系统与最终的集成是否完善这一点确实会有风险，因为除了性能以外，整个系统的高成熟度与高可靠性同样是一个商业产品好坏的依据 .除了服务器个子系统产品本身的问题以外，水冷散热的 GB 系列服务器，目前还有漏液的问题，即使该产品已经通过认证，漏夜问题让服务器厂家挺头大。水冷散热主要零件：水冷板、分歧管、CDU 及快接头（QCD）当中，以快接头处是最容易发生漏液之处，漏夜最大的问题就是责任归属。水冷散热服务器最重要的不是价格，而是质量，所以 NV 这类客户选择的条件不是会不会做，而是能不能信赖，一个 AI 服务器的 Rack 动辄数百万美元，但漏液的赔偿可能会让一家小型企业破产，如果漏液，NV 自己需向客户先行赔偿，再向鸿海广达这类系统厂作为责任归属与索赔对象。目前 NV 与系统厂进行水冷散热的合作、测试，然尚无真正大量导入，都纯粹属于沙盘推演，水冷散热的 RACK 价格高、配置高，系统厂趋之若鹜，但是导入后的责任归属，才是最大问题，不论是芯片厂、系统厂或散热厂，没有哪一家厂商愿意承担此风险，这需要实际导入后，有了「白老鼠」才更明朗。我们把所有情况都分析一遍之后，芯片端的部分，设计缺陷的问题是明确了，制造问题上 CoWoS-L 良率或许不完美，但这一点并不会造成出货延迟 . 再来就是全新的服务器技术方案，各式各样采用新技术的子系统可靠度还有提升空间，也就是说不论芯片设计还是服务器方案都是问题点 .对 NV 来说 Blackwell 出现技术失误以及业绩受影响，目前看来是跑不掉，但影响到底几何？要知道 Blackwell 在台积电的芯片生产中第三季本来就是小批量排产， Q4 才会上量，这是台积电芯片的排产节奏，并非 NV 服务器出货，业绩落地节奏， GPU die 生产完到后段 CoWoS 然后才会出货至 Bumping 厂，最终给工业富联或者纬创做服务器的系统组装 .也就是说 Blackwell 原本计划是 2024 第三季在台积电小量排产，第四季才大量生产芯片， 2025 年第一季正式大量出货服务器，英伟达明年第一季度才会实现 Blackwell 较大的新业务增量 . 对于 Blackwell 这个明年才会大量贡献营收的产品，在今年第三季度发现了文章前面所说的诸多技术问题，或许还有一些转圜余地，既然现在发现了问题，也正在进行解决方案，在台积电跑个 super hot run 对应时间还是在今年 Q4 的中后期，也就是 11 跟 12 月份，这些产能与备料原本 NV 都早已预订，所以只要问题能发现， 3 个月的时间基本就可以继续排产，再来是年底台积电不论前段 N4P 或者 CoWoS – S/L 产能都比现在充足，把稼动率拉到 120%来应对原本 Q3 要小量出货而因出问题无法出货的芯片，基本上没有太大困难，也就是说以年度来计算，今年

点击免费查看完整报告

你可能感兴趣

英伟达新一代芯片Blackwell翻车过程全纪录20240805

你可能感兴趣

电子行业周报：英伟达Blackwell芯片需求高涨，小米新机与新车发布拉动市场热情

化工行业新材料周报（20251013-20251019）：英伟达与台积电联合推出 Blackwell 芯片晶圆；本周 6F、SAF 中国、电解液涨价

电子周跟踪：华为推出TruSense系统，英伟达预计Blackwell芯片Q4劲收数十亿

太平洋电子周报：英伟达将为中国推出一款基于Blackwell架构的AI芯片

电子行业周报：英伟达将为中国推出一款基于Blackwell架构的AI芯片