
由于太多讯息满天飞 , 市场上大大小小卖方的讯息取得与理解都不同 , 整个市场的解读 众说纷纭 , 大家用自己的认知去理解与求证 , 有朋友问我这是台积电的问题还是 NV? 到底问 题出在哪? 事实上 , 上述几个问题是同时存在的 , 但问题的核心还是出在 Blackwell 设计缺陷需要 re tape out , 而 CoWoS – L 良率不好这也是同时存在 , 在这些问题上 , 各种型号,名称的混乱加剧 了分析问题的复杂性 , 导致许多卖放解读错误 ,我甚至看到了有专家说 CoWoS – L 良率只有 66% , 只能出 10 颗 Good die 的离谱说法 , 在这我还是得说明一下 CoWoS – L 良率确实有问 题 ,但后段封装良率 80%都不可能去排产更何况 66%这种水平 , 实际上 CoWoS –L 目前的良 率在 90%出头 , 持续提升中 , 90 出头的良率当然是不好 , 因为CoWoS – S 的良率是 99%以上 . 不论 B100/200 或 GB200 的延误主要在 Blackwell 原始芯片也就是B100 的 re tape out , 因为 更高型号的 B200 或 GB200 都是来自 B100 的 Chiplet 方案 , 实际上在台积电内部 Blackwell 只有两个型号那就是 b100 以及 b102 . 由于 Blackwell 采取 Chiplet + CoWoS 组成与型号比较复杂 , 再加上 NV 对 Blackwell 定义模糊 不清 , 又有分析机构传出 B100 取消等消息 , 这里面出现了一些名字理解上的混 乱 . 我想应该统一各型号的命名才不会有理解的错误 , b102 是所有 Blackwell 芯片的基础 , 由一 个 GPU die +4 个 HBM3e 组成 , b100 则是由两个 b102 组成 , 两个 GPU die + 8 个 HBM3e , 如 下图所示对应服务器的出货 , b102 则是 B200A , 而 b100 则是 B200 , GB200 则是两颗 b100 + 一 颗 G race CPU 放在一块主版上 , GB200 并不是一颗芯片而是一块版 , 不应该与芯片来同 比较 , 如下图所示目前针对 Blackwell 架构的基础芯片只有两款 b102 与 b100 , 但对应服务器的话则有三款 主 板(B200A/B200/GB200), 很多人好奇 , 这时候 B100 跑哪去了? 说实在的 NV 定义本 身就不 清楚, 而针对不同应用的服务器则可组合出更多款式(HGX B200A / HGX B200/NVL36/72 甚 至是 NVL8 或 GB210A 的气冷版本)看了许多卖方报告 ,除了一小部分出现离谱的错误以外 , 比如缺乏行业常识的 CoWoS-L 良 率 , 目前整个市场各式各样的解读 , 除了 Blackwell 同时出现多个问题以外 , 还有一 个很重 要的因素就是命名的混乱 , 每个人理解认知不同 , 统一一下说法很有必要 , 大家更不要针 对所谓名字去做无谓的争执 , 以免乱上加乱 , 大摩 8/2 的报告也注意到了这一 点 , 另外也看 到了一个现象 , 那就是外资卖方研究以芯片源头为依据 , 内资卖方往往缺 少芯片端的基础 讯息 , 而以服务器整体分析为着重点 . 四季更大规模的生 产可以追回 , 这样的阐述确实避重就轻 , 显得不那么专业 , 也造成不少人误 解 , 误以为问题 小到两周就可以搞定 . 事实上当然不是如此 , 但结果在第四季追回是合理的 , 作者 8/2 号再星球更新的文章中就 提到 re tape out 的过程 , 这次出问题的是底层 standard cell , 也就是说确实必须针对 性的重 新设计 , 目前问题都已发现并解决 , 需要重新开几个 mask , 整体来说 wafer in / wafer out 时 间没有办法能缩短 , 但 2024 年本来就不是 Blackwell 服务器出货的主要时 间 , 只有小批量 出货 , 今年底扩大产能把之前缺少的补回来 , 这对于在 Fab 厂待过的作 者来说, 我认为并不 是啥困难的事. 不知道读者们还记得 7 月中 , 路透传出中国特供板 B20 的消息 , 我想很大概率路透以为 的 B20 就是只有 b100 一半的 b102(一颗 GPU die + 4 颗HBM3e) , 当时作者也分析在这 一代中 国特供板 H20 可能被禁止的情况下推出下一代特供板 B20 可能性相对较小 , 如今 看来之前 的分析还是合理的 .除了芯片本身的设计缺陷 , 我们再来看看其他制造问题 , Blackwell 的 GPUdie 采用台积 电 N4P 制程 , 跟 AMD, 高通, 苹果采用的一样 , 在台积电属于运行成熟的工艺 , 所以芯 片前段 制程并没有值得担心的点 . 而 Blackwell 采用的 CoWoS-L 封装技术是首次大规模应用 , 良率没有达到预期 , 这一点 被国 内卖方理解错误而夸大其影响 , 导致许多人来问我 , 台积电怎会出这种低级失误 , 影响了 NV 出货 , 良率的问题 , 文章前已经说了 , CoWoS-L 良率是 90%+ , 这对先进封 装来说确实不 高 , 也不如台积电年初的预期 95%, 对于一个新工艺来说 , 勉强能接受 , Fabless 采用全新工 艺本来就是要同时开几个方案 , 不可能全部压注在新方案上 , 这样风 险太大, 如果新技术方案有问题 ,那整代产品就废了 , Fabless 在下单时一定会有备选方案同时 开 案 , 比如苹果明年想采用全新的 2nm 新工艺 , 但同时还会有 N3P 的方案在 run , 以确 保赚 无一失 , 台积电不保证新工艺良率在什么时间点一定能到多少 , 最多就是在商务合 同上有 一个保底良率 , 但可以肯定这保底良率并不会太高 , 最终的风险 Fabless 客户在下 单时必须 自行充分考虑 , 所以出了这么大问题 , 我们看到台积电几乎没有什么责任需要 承担 , 更多 的是如何帮客户擦屁股 , 提出各种的紧急解决方案 .目前的问题是没有前段的 GPU die , CoWoS-L 产能会有一段时间的停摆 , NV 服务器出货 会造成延迟 . 针对 CoWoS – L 的良率问 题 , 作者也与公认跟台积电 CoWoS最靠普的野 村团队 Donnie 确认过 , 获得的数据跟我原 本了解是一致的.在出现 re tape out 这个变化之前 , NV 已经计划推出搭载 b102 芯片的HGX B200A 及 GB210A(或 NVL8)服务器 , 并因为 CoWoS –L 良率没达到 95%的预期 , 做出生产的调 整 , 也就 是 B200A 从原本的 CoWoS – L 改用 CoWoS – S , 这样一来可以分担 CoWoS – L 的生产压力 , 并 在 2025 年可以有更多的 Blackwell 产出 , 原本 Blackwell 全系列有采 用 CoWoS – L , 如今把 B200A 改为 CoWoS– S, 很显然 , 这将很好的追回 2024 年因为 re tape out 而减少的出货量 , 而且 2025 年 Blackwell 总出货量也能因为 CoWoS – S 的加入而有所提升 . 许多卖方把 B200A 改为 CoWoS – S 归咎于 CoWoS – L 良率低 ,甚至把 Blackwell 出货 延迟误 解为 CoWoS – L 良率只有 10 颗 Good die 造成的 , 大摩 8/2 号的报告则把 B200A 因不需要高 性能所以采用 CoWoS – S , 这些说法很显然都是错误的 . 对于其他可能造成出货延误的选项 , 我们来看一下零部件也就是供应链环节 , 较为紧张 的零部件有 HBM 以及液冷 QCD , 紧俏的零部件供给并不会造成出货延迟 , 最多只是出货 量减 少 , 毕竟这些紧缺的零部件或芯片还是有一定的供货能力 . 更何况如 HBM 下半年也 已经明 确会加入新的大供应商三星 目前进入生产阶段的不止芯片,还有板卡组件、新的交换设备、新设计的机架、新制冷方 案等等,从 8 卡 Pod 扩容到 72 卡 Pod 需要考虑的问题很多,尤其是包括网络带宽的收敛、以及各种并行策略(模型数据切分、分段计算、拷贝和重组)在整个 Pod 中的最佳工况。 Rack 也需要重新设计,毕竟 tray 变得更多、更高密、更紧凑,机架内的布线数量、高速交换、散热也就更复杂,相信这种 Rack 还没有正式量产 , 正紧锣密鼓的进行各种测试中。 服务器所有子系统与集成 , 由于 NVL36/72 是一项全新的技术方案 , 所有子系统与最终 的集 成是否完善这一点确实会有风险 , 因为除了性能以外 , 整个系统的高成熟度与高可 靠性同 样是一个商业产品好坏的依据 .除了服务器个子系统产品本身的问题以外 , 水冷散热的 GB 系列服务器,目前还有漏液的 问题,即使该产品已经通过认证,漏夜问题让服务器厂家挺 头大。 水冷散热主要零件:水冷板、分歧管、CDU 及快接头(QCD)当中,以快接头处是最容易 发生漏液之处,漏夜最大的问题就是责任归属。 水冷散热服务器最重要的不是价格,而是质量,所以 NV 这类客户选择的条件不是会不会 做,而是能不能信赖,一个 AI 服务器的 Rack 动辄数百万美元,但漏液的赔偿可能会让一 家小型企业破产,如果漏液,NV 自己需向客户先行赔偿 , 再向鸿海广达这类系统厂作为 责任归属与索赔对象。 目前 NV 与系统厂进行水冷散热的合作、测试,然尚无真正大量导入,都纯粹属于沙盘推 演,水冷散热的 RACK 价格高、配置高,系统厂趋之若鹜 , 但是导入后的责任归属,才是 最大问题,不论是芯片厂、系统厂或散热厂,没有哪一家厂商愿意承担此风险 , 这需要实 际导入后,有了「白老鼠」才更明朗。 我们把所有情况都分析一遍之后 , 芯片端的部分 , 设计缺陷的问题是明确了 , 制造问题上 CoWoS-L 良率或许不完美 , 但这一点并不会造成出货延迟 . 再来就是全新的服务器技 术方 案 , 各式各样采用新技术的子系统可靠度还有提升空间 , 也就是说不论芯片设计还 是服务 器方案都是问题点 .对 NV 来说 Blackwell 出现技术失误以及业绩受影响 , 目前看来是跑不掉 , 但影响到底几 何 ? 要知道 Blackwell 在台积电的芯片生产中第三季本来就是小批量排产 , Q4 才会上 量 , 这是台积电芯片的排产节奏, 并非 NV 服务器出货, 业绩落地节奏 , GPU die 生产 完 到后段 CoWoS 然后才会出货至 Bumping 厂 , 最终给工业富联或者纬创做服务器的系统 组装 .也就是说 Blackwell 原本计划是 2024 第三季在台积电小量排产 , 第四季才大量生产芯片, 2025 年第一季正式大量出货服务器 , 英伟达明年第一季度才会实现 Blackwell 较大的新 业 务增量 . 对于 Blackwell 这个明年才会大量贡献营收的产品 , 在今年第三季度发现了文章前面所说 的 诸多技术问题 , 或许还有一些转圜余地 , 既然现在发现了问题 , 也正在进行解决方案 , 在台 积电跑个 super hot run 对应时间还是在今年 Q4 的中后期, 也就是 11 跟 12 月份 , 这些产能 与备料原本 NV 都早已预订 , 所以只要问题能发现 , 3 个月的时间基本就可以继 续排产 , 再 来是年底台积电不论前段 N4P 或者 CoWoS – S/L 产能都比现在充足 , 把稼动 率拉到 120%来 应对原本 Q3 要小量出货而因出问题无法出货的芯片 , 基本上没有太大困 难 , 也就是说以年度来计算 , 今年