核心定义:网络基础设施负责在数据中心内部及外部(如用户设备)之间路由数据包。其核心组件包括:网络交换机(负责确定最佳路径的路由设备)和光通信(承载服务器与交换机、数据中心间高速流量的物理媒介)。 AI 对网络需求的根本性改变: 流量模式变化:传统超大规模数据中心约 95%为数据中心内部(东西向)流量,仅约 5%流出数据中心。而在 AI 时代,由于单点供电或物理空间限制,多个数据中心需协作训练大模型,导致流出数据中心的流量比例大幅提升至约 20-25%,从而显著增加网络设备需求。 成本占比提升:传统数据中心中,网络设备(含光器件)成本约占数据中心总硬件成本的 10%。随着 GPU 等服务器成本飙升,网络成本占比并未如预期般下降,反而因设备速度要求提升、替换周期加快而有所上升。 性能要求分层:网络后端(用于 AI 训练)需要与最先进的GPU/TPU 保持同步的“最佳性能”设备;而网络前端(用于推理)对设备刷新周期的要求相对宽松,但目前投资主要集中于训练侧。 2. 架构决策、模块化与升级路径 决策权归属: 数据中心内部网络(Scale-up/Scale-out):架构决策权主 要掌握在运行数据中心的超大规模云计算商(如微软、谷歌)或新型云服务商手中。 数据中心间网络(Scale-across):云服务商通常不会自建长途光纤,而是向网络运营商(如 Lumen)租赁或投资升级暗光纤,并自购设备进行“点亮”。 资产模块化与转换难度: 非完全即插即用:不同客户或芯片架构(如英伟达 GPU vs. 谷歌 TPU)的网络架构设计存在差异。更换租户时,部分设备可复用,但需重新规划架构以实现最优性能,是转换过程中的一个限制性因素。 核心限制在于冷却系统:相较于网络设备(业内习惯定期升级),从传统风冷升级至液冷是数据中心承接高功率 AI 业务的更大门槛和更关键的基础设施改造项。 性能不足的后果:网络如同“高速公路”,设备陈旧或速度不足将导致数据“交通拥堵”,表现为网络延迟增加和效率低下,这在当前追求训练效率最大化的环境下是难以容忍的。 3. 技术演进趋势与当前瓶颈分析 铜缆向光纤的迁移: 现状:在数据中心内部互联(Scale-out)和数据中心间互联(Scale-across)场景,铜缆已达极限,已基本完成向光纤的过渡。 未来关键:在服务器机架内高速互联(Scale-up)场景,铜 缆仍将存在多年,但向更多光通信的过渡是明确的技术方向,英伟达已发布相关路线图。 当前供应链瓶颈: 核心瓶颈领域:目前主要瓶颈集中在光通信上游的激光器制造环节,特别是用于“点亮”光纤的磷化铟材料激光器(因硅材料散热问题),以及用于长距离传输的泵浦激光器。这些特种材料产能扩张周期约 6-9 个月。 缓解时点:部分激光器瓶颈预计在 2027 年初开始得到缓解,但若需求持续超预期,缓解时点可能后移。 与其他瓶颈对比:网络设备瓶颈的严重性低于电力供应瓶颈,后者的解决需要数年时间建设电网容量。 产能扩张能力评估:网络设备及上游厂商的产能扩张相对敏捷,周期多在一年以内(例如 Lumentum、Coherent 已实施或计划大幅扩产)。例外是原始光纤(Raw Fiber)制造,其产能扩张周期长达约两年,这是康宁等公司能签订长期协议的原因。 4. 投资要点总结与行业展望 行业增长的核心驱动力: 结构性需求提升:AI 驱动的“跨数据中心”(Scale-across)计算模式,直接增加了网络设备(交换机、光器件)和光纤的绝对需求量。升级周期加速:为匹配 GPU 算力增长、减少训练延迟,网络 设备向更高速率迭代的速度加快,缩短了更换周期,支撑了资本开支强度。 价值占比韧性:在网络设备性能要求提升的背景下,其在数据中心硬件成本中的占比保持韧性甚至上升,抵消了因服务器成本上升而带来的占比下降压力。 关键子行业催化剂: 短期催化剂(未来 1-2 年):激光器产能瓶颈的逐步解决,将释放被压抑的光器件需求,利好相关供应商。 中长期催化剂:在 Scale-up 场景中,铜缆向光纤的持续迁移,以及整个网络技术向更高速度(如 1.6T 及以上)的迭代,将带来持续的升级需求。 相关企业分析: 网络运营商/光纤资产所有者:如 Lumen,受益于云厂商为构建 DCI 网络而进行的暗光纤租赁与升级投资。 光纤及电缆制造商:例如康宁,其长产能周期(约 2 年)和长期协议,在需求确定性强周期下具备护城河。 光器件与激光器供应商:如 Lumentum、Coherent 等,直接处于当前供应链瓶颈环节,产能扩张与需求释放节奏是关注重点。其扩产能力(数月到一年内)显著快于电力等基础设施。 历史参照与当前定位:当前的网络设备建设热潮在规模和速度上可与互联网泡沫时期相比,但需求驱动更为实质(由 AI 算力真实需求驱动)。 问答整理 1网络基础设施的不同组件是什么?当提及数据中心相关的网络基础设施时,具体指什么? 网络本质上是指从服务器获取数据包并传输到所需位置的过程。例如,从服务器到手机以回答 ChatGPT 查询,数据包的传输路径就是网络。网络包括网络交换机,它们确定流量去向和最佳路由;以及光学组件,用于在服务器、交换机或数据中心之间传输大量流量。 2 在旧时代,网络基础设施设备是什么样的?需求如何?随着进入 AI 所需的极其庞大和功率密集的数据中心,这些如何变化? 在传统数据中心,网络约占成本的 10%,其中一半是光学组件,一半是传统网络设备。随着 GPU 速度提升,数据中心运行速度更快,网络成本保持跟踪。传统数据中心中,只有约5%的流量离开数据中心;而在 AI 数据中心,可能有 20-25%的流量离开,需要更多网络设备。 3 scale up、scale out 和 scale across 这三个术语是什么意思?对数据中心有何意义? scale up 主要指连接 GPU 集群的网络;scale out 连接数据中心内所有机架,形成中心大脑;scale across 是数据中心之间的流量。这三个维度共同创建一个大大脑。 4 这些是否包括数据中心到用户的连接?例如,手机上的推理或查询 ChatGPT,或者那是完全独立的网络? scale across 通常指创建单一大脑。一旦数据到达蚂蚁或手机,就接入电信网络。设备相同,但需求驱动不同。 5 在追求技术最先进性的优先级中,网络设备处于什么位置?例如,升级内存、CPU 或最新 NVIDIA 芯片时,是否需要同步升级网络设备以保持相同性能? 通常希望升级到最新最先进的设备。在推理场景下,可能不需要相同刷新周期;但训练后端需要最佳设备,与最新NVIDIA、AMD 或 TPU 发布保持同步。投资主要流向训练后端。 6 谁负责规模提升、规模扩展和跨领域扩展?是数据中心公司、超大规模企业还是 AI 架构建设者?谁拥有基础设施决策权? 通常是超大规模企业或数据中心运营者。对于数据中心互连,如微软使用 Lumen 加强光纤线路并租赁暗光纤;对于数据中心内的 scale out 和 scale up,由数据中心运营者决定架构。 7 基础设施的模块化程度如何?例如,客户使用不同芯片退出后,新客户使用 TPUs 时,是否需要完全重新配置系统? 架构可能不同,但可以重用部分设备。例如,Google 有针对TPUs 的设计,可以遵循,但需要不同架构。 8 所以这是一个限制因素,对吗? 是的,这是一个限制因素,可以工作但不是最优。 9从成本角度看,升级到最先进技术有多昂贵?例如,拥有传统托管或云资产但想吸引 GPU 或 AI 业务时,是否需要从头开始? 网络设备不是最大的障碍,液冷可能是主要限制因素。网络设备经常升级,但液冷基础设施的设置是关键。 10如果网络基础设施不是最优运行,对 AI 开发(训练或推理)的后果是什么? 网络设备影响数据包移动速度和数量。如果不升级,就像在高速公路上遇到交通堵塞,导致网络延迟。更多和更快的网络提供替代路由,防止拥堵。 11从技术角度看,光纤电缆信息以光速传输,没有实际限制。与铜到光纤的转变相比,这是否正确? 铜到光纤转变仍在进行中。在规模扩大中仍使用铜,但规模扩展和跨域扩展已基本转向光纤。我们正接近铜的极限,但光纤解决方案正在发展。 12当前 AI 的瓶颈在哪里?网络基础设施在瓶颈中排名如何?与电力、内存、劳动力相比。 瓶颈包括激光前端,如磷化铟材料供应;以及泵激光器。这些正在造成瓶颈,预计 2027 年初缓解。网络瓶颈不如电力 关键。 13这些公司如何灵活地扩展供应链? 供应链扩展相对较快。例如,Lumentum 多次增加 50%产能,Coherent 增加 100%产能,而 Corning 进入长期协议。扩展产能通常需要不到一年,而原始光纤需要约两年。 14 自互联网时代以来,行业内是否有过如此快速的建设和对瓶颈的压力?还是说这对这些公司来说是未知领域? 这些是科技泡沫时期的典型代表公司。