您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [未知机构]:Research Insights META META出租H100与购买先进算力并不矛盾 - 发现报告

Research Insights META META出租H100与购买先进算力并不矛盾

2026-07-02 未知机构
报告封面

【Author】Andy 【Commentary】Meta做NeoCloud与继续租Crusoe 1.6GW,并不矛盾 今天盘前,Meta被报道正在考虑把多余AI算力对外商业化,甚至做成类似NeoCloud的业务。市场第一反应非常剧烈:Meta盘前上涨接近6%,但AI算力和neocloud相关股票受到负面Narrative影响,市场担心的是:如果Meta也开始把GPU算力对外卖,是否会直接导致算力过剩? 这个反应可以理解,但我们认为市场把问题想简单了。 首先,Meta这件事本质上不是“AI算力需求见顶”,也不是“Meta不需要继续买算力”。相反,Meta同时还在继续锁定非常大规模的新算力。根据Bloomberg/Reuters报道,Meta最近与Crusoe签署了新的AI computing capacity协议,将从Crusoe位于Texas Childress和Missouri Warrenton的两个数据中心获得合计约1.6GW的容量;Reuters也特别说明,目前金额和交付时间尚未明确,且报道未被Reuters独立验证。(Reuters) 同时,Meta还在向其他Neocloud购买算力。我们在去年3Q25 META Preview中就提到过META正在向NeoCloud寻求购买3GW算力。 所以表面上看,这里确实有一个矛盾:如果Meta自己已经有多余算力,为什么还要继续向Crusoe租1.6GW? 我们的理解是,这不是矛盾,而是算力代际切换。 过去两年,Meta已经采购和部署了大量H100/H200。这些GPU不是没价值,恰恰相反,它们对inference、fine-tuning、企业模型服务、图像/视频生成、传统ML workload仍然非常有价值。但对于下一代frontier model training,尤其是3T+参数规模的MoE、长上下文、多模态和RL-heavy post-training,H100/H200的训练经济性会明显下降。 关键不是H100不能训练,而是单位有效token成本变差。 当模型进入3T+规模后,瓶颈不再只是单卡FLOPS,而是HBM容量/带宽、GPU间通信、scale-up网络、checkpoint/restart、expert routing、sequence parallel、pipelinebubble、以及大规模collective communication。H100集群当然还能跑,但训练wall-clock更长,通信开销更高,集群利用率更难维持,最终表现为同样训练一个frontiermodel,成本和时间都不如GB200/GB300,未来更不如Vera Rubin。 因此,Meta现在面对的是一个很典型的资产配置问题: 最先进的GB200/GB300/Rubin,要优先留给下一代模型训练;上一代H100/H200,则应该尽量转成inference或外部商业化收入。 这也是为什么“做NeoCloud”和“继续租Crusoe 1.6GW”可以同时成立。 Meta继续向Crusoe锁定1.6GW,本质上是在为更长期、更先进、更大规模的AIinfrastructure做准备。这种资源对于Meta来说,更多是未来GB200/GB300/Rubin时代的战略性产能,而不是简单补H100的缺口。 另一方面,Meta既然已经买了大量H100/H200,就不可能让这些资产在frontier training代际切换后闲置。Meta内部当然有广告、推荐、内容排序等大量推理workload,但这和OpenAI/Anthropic那种直接面向外部客户卖token的LLM inference业务并不完全一样。Meta如果没有足够多可以直接monetization的外部token demand,把H100/H200做成cloud capacity或hosted model API对外销售,是非常合理的资本回收方式。 这其实和xAI / SpaceX的思路有相似之处。xAI今年公开宣布与Anthropic达成computepartnership,向Anthropic提供Colossus 1算力;xAI官方称Colossus 1包含超过22万张NVIDIA GPU,包括H100、H200和GB200,并可支持training、fine-tuning、inference和HPC workload。(xAI)这说明即使是frontier AI公司,也可能把一部分已有GPU fleet对外出租,同时把最新、最稀缺、训练效率最高的下一代集群保留给自己的frontier model。 所以今天市场担心“Meta进入NeoCloud会打垮所有NeoCloud”,我们觉得有些过度。 更准确的判断应该是: AI算力市场正在从单一的GPU shortage,进入多代GPU分层定价和分层使用阶段。 第一层是最新训练算力:GB300、Rubin,以及后续更大scale-up domain的系统,主要服务frontier model training。这部分供给仍然稀缺,客户仍然会向Crusoe、CoreWeave、Nebius、Oracle、Microsoft等各类供应商锁产能。 第二层是上一代高端算力:H100/H200/部分GB200,更适合inference、fine-tuning、enterprise AI、hosted model、agent workload和中小模型训练。这部分不是没有需求,而是从“最稀缺的训练资源”变成“可以规模化商业化的推理资源”。 第三层是更通用的GPU cloud和long-tail enterprise workload,对价格更敏感,但需求弹性也更大。 在这个框架下,Meta的行为其实很合理:它不是停止建设AI infrastructure,而是在把不同代际的GPU放到最适合的经济用途上。 因此,我们不认为这是AI infrastructure的大问题。真正重要的判断是:下一代frontiermodel training对GB200/GB300/Rubin的需求仍然非常强;同时,H100/H200这类上一代GPU也不会被废弃,而会进入inference monetization和外部算力销售阶段。 这对整个AI supply chain的含义反而是: GPU fleet开始变成多代际资产,而不是一次性训练工具。旧GPU不归零,新GPU继续稀 缺。Meta做NeoCloud,不是需求崩了,而是算力资产终于开始金融化和商业化。 Meta做NeoCloud与继续租Crusoe 1.6GW,并不矛盾 今天盘前,Meta被报道正在考虑把多余AI算力对外商业化,甚至做成类似NeoCloud的业务。市场第一反应非常剧烈:Meta盘前上涨接近6%,但AI算力和neocloud相关股票则受到负面Narrative影响,市场担心的是:如果Meta也开始把GPU算力对外卖,是否会直接导致算力过剩? 这个反应可以理解,但我们认为市场把问题想简单了。 首先,Meta这件事本质上不是“AI算力需求见顶”,也不是“Meta不需要继续买算力”。相反,Meta同时还在继续锁定非常大规模的新算力。根据Bloomberg/Reuters报道,Meta最近与Crusoe签署了新的AI computing capacity协议,将从Crusoe位于Texas Childress和Missouri Warrenton的两个数据中心获得合计约1.6GW的容量。 同时,Meta还在向其他Neocloud购买算力。我们在去年3Q25 META Preview中就提到过META正在向NeoCloud寻求购买3GW算力。 所以表面上看,这里确实有一个矛盾:如果Meta自己已经有多余算力,为什么还要继续向Crusoe租1.6GW? 我们的理解是,这不是矛盾,而是算力代际切换。 过去两年,Meta已经采购和部署了大量H100/H200。这些GPU不是没价值,恰恰相反,它们对inference、fine-tuning、企业模型服务、图像/视频生成、传统ML workload仍然非常有价值。但对于下一代frontier model training,尤其是3T+参数规模的MoE、长上下文、多模态和RL-heavy post-training,H100/H200的训练经济性会明显下降。 关键不是H100不能训练,而是单位有效token成本变差。 当模型进入3T+规模后,瓶颈不再只是单卡FLOPS,而是HBM容量/带宽、GPU间通信、scale-up网络、checkpoint/restart、expert routing、sequence parallel、pipelinebubble、以及大规模collective communication。H100集群当然还能跑,但训练wall-clock更长,通信开销更高,集群利用率更难维持,最终表现为同样训练一个frontiermodel,成本和时间都不如GB200/GB300,未来更不如Vera Rubin。 因此,Meta现在面对的是一个很典型的资产配置问题: 最先进的GB200/GB300/Rubin,要优先留给下一代模型训练;上一代H100/H200,则应该尽量转成inference或外部商业化收入。 这也是为什么“做NeoCloud”和“继续租Crusoe 1.6GW”可以同时成立。 Meta继续向Crusoe锁定1.6GW,本质上是在为更长期、更先进、更大规模的AIinfrastructure做准备。这种资源对于Meta来说,更多是未来GB200/GB300/Rubin时代的战略性产能,而不是简单补H100的缺口。 另一方面,Meta既然已经买了大量H100/H200,就不可能让这些资产在frontier training代际切换后闲置。Meta内部当然有广告、推荐、内容排序等大量推理workload,但这和OpenAI/Anthropic那种直接面向外部客户卖token的LLM inference业务并不完全一样。Meta如果没有足够多可以直接monetization的外部token demand,把H100/H200做成cloud capacity或hosted model API对外销售,是非常合理的资本回收方式。 这其实和xAI / SpaceX的思路有相似之处。xAI今年公开宣布与Anthropic达成computepartnership,向Anthropic提供Colossus 1算力;xAI官方称Colossus 1包含超过22万张NVIDIA GPU,包括H100、H200和GB200,并可支持training、fine-tuning、inference和HPC workload。(xAI)这说明即使是frontier AI公司,也可能把一部分已有GPU fleet对外出租,同时把最新、最稀缺、训练效率最高的下一代集群保留给自己的frontier model。 所以今天市场担心“Meta进入NeoCloud会打垮所有NeoCloud”,我们觉得有些过度。 更准确的判断应该是: AI算力市场正在从单一的GPU shortage,进入多代GPU分层定价和分层使用阶段。 第一层是最新训练算力:GB300、Rubin,以及后续更大scale-up domain的系统,主要服 务frontier model training。这部分供给仍然稀缺,客户仍然会向Crusoe、CoreWeave、Nebius、Oracle、Microsoft等各类供应商锁产能。 第二层是上一代高端算力:H100/H200/部分GB200,更适合inference、fine-tuning、enterprise AI、hosted model、agent workload和中小模型训练。这部分不是没