华为发布CloudMatrix 384超节点方案,推理性能出色,硅基流动联合华为云基于该方案上线DeepSeek-R1,单卡Decode吞吐突破1920Tokens/s,单用户20TPS。尽管算力板块近期受市场担忧影响股价承压,但GPU超节点架构仍有望催生产业趋势:
-
推理为何用超节点
超节点架构通过GPU卡间超高带宽紧密耦合(scale up),打破推理场景的内存&内存带宽瓶颈,提升推理效率。即通过提升卡间互联带宽弥补算力短板。
-
对光通信的影响
- 384超节点架构单卡对外互联带宽达2.8T,通过4台16800旗舰型数通交换机实现单层网络组网,单卡匹配18只400G光模块,显著超过此前scale out三层胖树的1:3配比。
- 推理场景中光模块用量缩减的担忧被超节点组网架构证伪,其对光模块的需求依旧可观。