VIP ASIC服务器调研:Meta智慧女神服务器架构解析,液冷方案及供应商,TPU分季度出货节奏和互联架构演进路线-聚焦CLS/亚马逊/苹果/广达 原创 消费,TMT,制造业 2025/07/2012:19:26阅读4957点赞0 要点 -AI服务器这边,上半年(2025年)主要是谷歌的TPU在出货对吗?展望Q3和Q4的出货节奏如何? -CCS的业务分类是communication和Enterprise,communication指的是交换机和telecom相关业务,Enterprise应该包含服务器和Hyperscaler这些? -展望今年(2025年)存储业务大概会做到多少规模?目前的产品形态和主要客户有哪些?业务增长点在哪里? -今年(2025年)存储业务会有成本压力吗?如何看待下半年DRAM、NAND和SSD的价格走势? -能否详细介绍Meta的SantaBarbara服务器架构?为什么其GPU与光模块的配比可以达到1:12? -计算板、交换板的PCB板价值量在Meta服务器中大致占比是多少? -Meta服务器液冷的采用比率如何? -Meta服务器每个机架中AEC的数量是多少? -能再讲一下谷歌服务器的架构吗?它和Meta相比有什么区别? -亚马逊方面有进展吗?TR3会做吗? 本文共5116字,预计阅读时间11分钟 以下是专家观点: 已享VIP免费 Chris:AI服务器这边,上半年(2025年)主要是谷歌的TPU在出货对吗? 专家:对,上半年(2025年)主要是谷歌TPU出货,完成了原计划的50%左右。Q2原计划是45万颗,到二季度结束时实际出货量达到48到49万颗,已经超过原定目标。虽然一季度末有部分订单推迟,但二季度整体出货量高于计划,部分订单也得以追回,甚至超额完成。 Chris:今年(2025年)一季度出了多少颗? 专家:今年(2025年)一季度出货量接近40万颗,具体为38万颗左右。 Chris:v4和v5的具体出货情况如何? 专家:v4出货量为12万颗。全年计划是10到12万颗,占比5%到6%。v4在前两个季度全部出完,之后就没有了。 Chris:展望Q3和Q4的出货节奏如何? 专家:如果谷歌没有进一步加单,到今年(2025年)12月底,下半年6个月预计出货量为102万颗或105万颗。 Chris:CCS的业务分类是communication和Enterprise,communication指的是交换机和telecom相关业务,Enterprise应该包含服务器和Hyperscaler这些? 专家:communication原本是Telecom的代名词,后来演变为Hyperscaler。Enterprise是指除此以外的中小型客户。公司根据客户规模将communication和Hyperscaler划分为内部的大客户,即Global大客户,对外则称为communication或Hyperscaler。除此以外的客户为Enterprise。Enterprise收入下滑,主要是因为公司主动砍掉了很多不需要的订单,比如说很多EMS订单都不要了。 在Enterprise市场中,服务器和存储业务都包含在内。Communication市场并不单指通信行业,公司在对外表述时,客户属性和产品属性有时没有解释得很清楚。产品属性上分为communication、compute和storage三块,客户属性上则分为Hyperscaler或Globalaccount,内部称为Globalaccount。Hyperscaler属于Globalaccount的一个范畴。Communication原本指telecom客户,即以通信基础设施为采购需求的客户。Enterprise则是除Globalaccount以外的企业网络客户,包括一线大厂的OEMout客户。去年(2024年)和今年(2025年)Enterprise业务下滑,主要原因是公司主动减少了代工业务。在CCS板块,去年(2024年)代工业务(不含ATS)在交换、路由、计算和存储等领域的营收仍有10亿到15亿美元。今年(2025年)起,许多合同到期后不再续签,主动切断了这部分业务。公司现在只做大客户的高质量JDM或白牌业务。EMS业务在有效合同期内会继续,合同结束后也可能不再承接。因此,Enterprise业务下滑主要是服务器和交换机代工业务大幅减少所致。 Chris:展望今年(2025年)存储业务大概会做到多少规模?目前的产品形态和主要客户有哪些?业务增长点在哪里? 专家:今年(2025年)存储业务主要以白牌形式存在,目前还没有定制化JDM的存储产品。现有存储产品线较短,主要是五六款与闪存相关的产品,包括主控和扩展柜。主要采购方是苹果和DDN,这两家客户占据了约90%的存储业务,剩下10%为中小型客户和自有白牌销售。去年(2024年)存储整机业务营收约为3亿到4亿美元,今年 (2025年)的目标在4亿到5亿美元之间。业务增长主要来自苹果和DDN订单的扩大。自有白牌业务扩张速度较慢,存储在数据中心建设中的份额昀小,但技术门槛昀高。客户购买存储后一般不会轻易更换,因为更换意味着数据迁移和业务系统风险。因此,存储业务的基础盘子和增速都不如交换机和服务器。预计今年(2025年)白牌存储销售额可达5亿美元,主要得益于苹果和DDN订单的增长。同时,在美国以外市场,自有白牌存储的需求甚至超过交换机,因为在这些市场,白牌交换机的价格优势并不明显。 匿名投资者:去年(2024年)财报显示存储业务收入为9亿美元,是否有遗漏的部分?存储业务的具体构成是怎样的? 专家:财报中9亿美元的存储收入包括了存储部件和整机业务。前面提到的是存储整机的OEMout业务。部件级业务主要为大客户定制存储服务器,这类产品与现有全闪存系列和扩展柜不同,不属于标准产品,通常是为特定客户自用而定制。例如,曾为Nokia、Oracle和IBM等客户做过定制存储服务器,这类项目单体规模不大,通常几千万美元,难以超过1亿美元,但累计后也属于存储产品范畴。此外,还有自有标准白牌的大客户直销和渠道转售。定制化存储业务目前规模较小,未来市场空间有限。公司更希望推动标准化闪存产品解决方案,除非有大客户提出超过1亿美元的定制需求,否则不会投入研发和产能资源。对于不到1亿美元的定制化业务,公司会做战略性选择,优先发展标准化产品。公司的主要目标是推广自有闪存标准解决方案。 匿名投资者:今年(2025年)存储业务会有成本压力吗?如何看待下半年DRAM、NAND和SSD的价格走势? 专家:根据供应链反馈,下半年SSD和DRAM价格波动压力较大。公司采取的措施是提前与客户沟通,要求客户做出明确的采购预测,特别是JDM项目,通常需要16+12个月的forecast。供应链反馈显示,下半年SSD和DRAM价格波动将比上半年更剧烈。AI芯片供应目前趋于平稳,下半年整体节奏预计不会有大幅变化。SSD和DRAM价格波动较大,近期连DDR4价格都在上涨,DDR5更是如此。公司做法是提前与客户确认订单,提前进行9到12个月的booking,6个月的订单周期可能无法覆盖市场波动,因此采用NCNR(不可撤销不可修改)订单模式。客户确认后,价格可以提前锁定,避免下半年价格波动影响成本。订单周期与客户预测挂钩,若客户能明确未来6个月的采购计划,公司会建议客户提前下单,公司再与上游供应商谈判,确保未来6个月的目标价格和货期稳定。通过多家供应商分散采购,确保满足4到5个大客户的全部订单需求,昀大程度锁定产能和成本。 Chris:能否详细介绍Meta的SantaBarbara服务器架构?为什么其GPU与光模块的配比可以达到1:12? 专家:SantaBarbara服务器有多种可变配置,产品形态和端口数量决定了其多样性。以两种典型应用为例:在三层架构中,上下各有八个计算刀片,中间有六个交换刀片。第一种配置是计算刀片前面板的光口与交换刀片前面板端口全部互联,这种情况下,计算板和交换板满配时可达到392个光模块的配比。该服务器主要用于算力和相关交换处理,所有应用服务器需接入系统。应用服务器有两种接入方式,在上述配置下,通过交换板上的32个800G端口以外的八个光口接入,这些光口支持100G、200G或400G。外部应用服务器通过这四个光口接入整个AI算力系统,再通过交换板的光口连接到背板。背板上通过连接器实现通信,直接进行背板交换并连接到业务板。数据在背板交换时会经过TH5交换芯片,TH5芯片通过交换板和背板上的连接器,将数据交换到业务板。业务板上的CPU为AMDSP5,AI芯片为MTIA1.5。所有算力资源完成计算后,如果需要跨板,输出数据会通过连接器以以太网方式转接。后端有12个以太网端口,与交换板的32个800G以太网端口一一对应,前端为OSFP光口,后端为以太网电口。后端背板上也有32个以太网电口,通过连接器对接,背板上直接交换数据,不经过OSFP。前端是OSFP光口,后端通过以太网转电信号到背板交换。背板计算结果出来后会原路返回,通过交换板再回到服务器。如果需要跨业务板,也可以通过背板与同一框内其他板,或跨框时回到某块交换板。交换板有两根cable线,可在机架内做背板互联,也可实现机架间短距或长距互联,支持AEC和AOC线缆,具体取决于距离。这种交换模式和架构非常灵活,支持南北和东西方向的非常灵活的动态部署,适合Meta数据中心多业务交叉接入同一算力交换系统。数据既可从业务板进入,也可从计算板前端12个光口直接进入,配置灵活。目前Quanta正在测试的流量模式是从计算板进入业务数据,应用服务器连接到计算板的800G光口,数据进入业务板的交换芯片和AI芯片。如果任务能在单板完成,则直接返回;如需跨板,则通过背板交换,将数据从业务板传到交换板,再跨到其他交换板,实现集群计算,昀终结果再返回。目前正在进行的压力测试模型是从计算板进数据。第二种压力测试模型,即从交换板进数据并分配到各计算板,计算后再合成结果返回,目前还未测试。现有发货模式下,所有硬件未做改动,压力测试采用第一种方式。Meta要求先测第一种,目前已完成并通过测试,因此从上周开始发货,预计7月下旬将测试第二种压力模型。目前整体使用较为复杂,即使有图示,配置步骤也较多,理解上可能仍有难度。 Chris:计算板、交换板的PCB板价值量在Meta服务器中大致占比是多少? 专家:PCB板大约占整个板子的10%左右。除去芯片部分,芯片占比约70%到75%,剩下的20%到30%中,PCB约占10%到12%,配比其实是比较高的。 匿名投资者:Meta服务器液冷的采用比率如何? 专家:Meta服务器全部采用液冷,目前有三种液冷方案。第一种是directtochip(DtoC),即芯片级直冷,在设计时就已采用。第二种是部件级的两相液冷,将主板或某部件夹在两块微通道散热板之间,通过液冷管连接到泵,采用制冷行业标准,液冷剂为2134A。这种部件级液冷的设计和原理来自传统制冷行业,成本远低于IT行业常用的水冷和静默式液冷,仅为整体水冷成本的5%左右。第三种是机架级液冷,目前与Jetcool联合开发,Jetcool好像已被伟创力收购。预计今年(2025年)四季度,在Minerva项目的trialplan第二阶段,将上线整机柜集成液冷方案,届时将对比部件级和机架级液冷的成本和效率。 Chris:部件级液冷的供应商是哪家? 专家:部件级液冷方案的供应商是DurbinGroup。机架级液冷方案的供应商是Jetcool。 匿名投资者:Meta服务器每个机架中AEC的数量是多少? 专家:AEC和AOC的数量取决于现场部署情况。距离较短时,机架内或跨机架可用AEC,跨机架距离较远时可用AOC,也可用光模块连接。配置方式灵活多变。通常每块计算板有一根cable,可选用AEC或AOC。满配情况下,中间有井架需乘以2,约6块计算板共12根,再加16根,合计28根线缆。一个机架内有28根