#V4论文强调超节点是必选项,并验证其工程最优解地位。
核心观点与关键数据
V4论文提出硬件架构设计指引:C/B≤2d=6144 FLOPs/byte,即每GBps带宽可支持最大6.1TFLOPs算力不受限。随单卡算力提升,scale-out难以维持此比例,系统易落入带宽受限区间导致算力浪费。为重新拉回有效利用区间,需通过更高带宽密度的Scale-up同步提升算力与带宽,使超节点成为确定性方向。
工程验证
- 推理端:基于DeepSeek V4-Pro模型,昇腾950超节点在8K输入场景下实现TPOT约20ms,单卡Decode吞吐4700TPS。
- 训练端:Atlas 800 A3风冷超节点、Atlas 900 A3 SuperPoD液冷超节点已实现DeepSeek-V4-Flash模型高性能训练复现。
验证超节点在训练与推理端均达最优状态。
市场空间与投资建议
- 出货量假设:26-28年国产卡出货量分别为290/500/792万张,超节点渗透率27%/40%/50%,单台(128卡)价值量2000万。
- 机柜市场空间:26-28年分别为1223/2969/5569亿元,远期万亿市场。
- 投资关注点:国产Switch芯片(盛科通信)、服务器机柜(浪潮信息、华勤技术、紫光股份、中科曙光)、224G高速连接器(华丰科技、航天电器)。