AI发展的必经之路:AI Infra全面走向超节点时代。超节点是训练侧和推理侧算力基础设施发展的必选项,是未来百万卡集群的基石。
核心观点:
- AI模型发展趋势:模型从语言走向多模态,参数规模提升至十万亿级,算力集群规模逐步迈向十万卡、百万卡。AI Scaling Law从预训练扩展到后训练和逻辑推理全流程,对算力需求持续增长。
- 超节点成为最优解:模型参数规模持续增长,单卡GPU远不足以承载模型,分布式训练成为必需,超节点服务器通过内部高速总线互连,有效支撑并行计算任务,缩短大模型训练周期。推理任务对KV Cache缓存要求较高,超节点有效解决“内存墙”问题,且单W每秒生成Tokens更高,在推理侧更具性价比。
- 百万卡集群,Scale up先行:超节点集群(SuperPod)通过高速互联协议与专用交换芯片构建的高带宽域(HBD),有效解决“通信墙”、“内存墙”问题。超节点是百万卡集群的基石,Scale up协议走向开源开放,助力国产卡“弯道超车”。
超节点类型及内部结构:
- 超节点可分成整机柜超节点、分机柜超节点、Matrix超节点(级联超节点)。
- 主要由计算节点、交换节点、TOR交换机、供电单元、供电母线、电缆桥架/正交背板、液冷散热配套等单元组成。
超节点组网架构:
- Clos架构:如英伟达NVL72,通过NVLink组成全互联无阻塞架构。
- FullMesh类架构:如AMD MI350,采用Infinity Fabric互联。
- Torus拓扑:如谷歌TPU,立方体内的TPU处理器通过铜互连连接。
- Dragonfly与Dragonfly+:可扩展性更强,成本效益显著。
Scale up协议及对应项目:
- NVLink:英伟达主导,支持GPU之间直接进行内存访问。
- SUE:博通主导,以以太网为基构建传输层和数据链路层。
- UALink:AMD主导,支持大规模数据集处理、深度神经网络训练。
- UB:华为主导,支持UBPU中的计算单元直接发起同步和异步访存指令。
- HSL:海光主导,实现各家AI芯片厂商与海光CPU的“紧耦合”。
- OISA:中国移动主导,解决万亿参数大模型训练中的通信墙问题。
- ALS:阿里云主导,横跨国内外GPU芯片、互连芯片、服务器整机硬件、云计算等产业领域。
- EthLink:字节跳动自研,优化了链路层报文头,减少传输开销。
- ETH+:阿里云和中科院计算所主导,在Scale up场景取得关键进展。
超节点带来五大变化趋势:
- Scale up交换机与交换芯片用量增加:超节点服务器内部新增Scale up交换机互联,有望带动交换机及交换芯片等需求。
- 新增PCB背板与光互连需求:Cable tray、正交背板、光纤连接,铜缆成为首选,光互连方案适用于高密架构。
- 液冷成为超节点刚需,100%全液冷时代渐进:当单机柜总功耗≥50KW时,液冷成为必选方案,机柜最终或走向100%全液冷方案。
- 服务器ODM厂商价值重估:超节点服务器准入门槛相对较高,供应商格局较8卡机时代大幅改善,服务器厂商与芯片、客户绑定关系进一步提升。
- 超节点重构供电系统:超节点采用集中供电方式,带来Powershelf、Basbar需求,机柜功耗持续提升带动PSU价值持续提升,AI机柜逐步迈入MW级,功耗持续提升带动HVDC、SST系统需求。
投资建议:
超节点是国产算力进攻的“矛”,通过超节点方式弥补单卡性能不足,2026年是国产超节点放量元年。相关标的包括交换芯片、服务器整机、PCB、半导体制造、光模块、铜缆连接器、液冷、供电等领域的厂商。
研究结论:
超节点是AI算力基础设施发展的必然趋势,国产超节点集群加速崛起,相关产业链公司迎来发展机遇。