AI智能总结
超级大厂AI数据中心架构:AI基础设施正从训练导向转向推理优化,网络与能耗成为核心挑战 JPM(S.Chatterjee,25/06/17) AI数据中心建设已进入资源复用和推理优化阶段,绿色能源、I型结构、CPO光互联和软硬解耦正成为大型云厂商的关键部署方向。 •算法进步将重点从训练转向推理优化,推理阶段资源复用率提升算法创新如Mixture-of-Experts(如 超级大厂AI数据中心架构:AI基础设施正从训练导向转向推理优化,网络与能耗成为核心挑战 JPM(S.Chatterjee,25/06/17) AI数据中心建设已进入资源复用和推理优化阶段,绿色能源、I型结构、CPO光互联和软硬解耦正成为大型云厂商的关键部署方向。 •算法进步将重点从训练转向推理优化,推理阶段资源复用率提升 算法创新如Mixture-of-Experts(如DeepSeek)、精度训练与强化学习减少了模型训练对算力的总需求。 行业当前更关注通过蒸馏、压缩等方法优化推理性能而非提升算力堆叠,并将已部署的训练GPU快速转为推理用,以提高设备利用率。 •数据中心部署呈现训练/推理分化,前者偏向新建,后者基于改造 训练集群通常建于专门的新址(greenfield),强调高GPU密度、独立电力和冷却系统;而推理集群多依托城市周边的旧有数据中心(brownfield)扩建,以支撑在线实时服务。 两种部署方式满足不同负载特征,提高整体运营灵活性。 •网络选择需权衡性能与开放性,CPO等新技术正获得关注 在节点内部通信(scale-up)方面,NVLink因其低延迟和高性能优于PCIe,但存在厂商锁定问题。 在跨节点通信(scale-out)方面,InfiniBand适用于高性能需求,但成本较高;Ethernet更具灵活性。 CPO光电共封装有望提升布线效率并简化网络结构,是未来趋势之一。 •Meta推动软硬一体化,自研规格与Whitebox并举以优化性价比 Meta在网络上仍依赖Arista,但正在与Celestica等Whitebox厂商合作,推动网络硬件与内部软件深度融合,提升系统定制化与成本控制能力。 在存储方面,Meta也尝试将Pure Storage与Whitebox硬件结合,采用Hammerspace软件实现灵活部署。 •IDC架构更适配AI训练负载,电力与散热仍是核心瓶颈 Meta采用IDC园区式数据中心结构,聚焦内部AI负载,提升了供电、散热和机柜密度水平。 为解决能耗问题,超大厂正在探索液冷、新型能源(如核电)、智能电网互联等方案,以保障训练集群的高可用性与可持续性。