您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:VIP AEC大厂调研:北美各大客户订单及送样进展,应用场景及市场空间,生产策略和供应链等-聚焦英伟达/微软/Meta/博通/Marvell等 - 发现报告

VIP AEC大厂调研:北美各大客户订单及送样进展,应用场景及市场空间,生产策略和供应链等-聚焦英伟达/微软/Meta/博通/Marvell等

2025-09-26-未知机构f***
AI智能总结
查看更多
VIP AEC大厂调研:北美各大客户订单及送样进展,应用场景及市场空间,生产策略和供应链等-聚焦英伟达/微软/Meta/博通/Marvell等

EN VIPAEC⼤⼚调研:北美各⼤客户订单及送样进展,应⽤场景及市场空间,⽣产策略和供应链等-聚焦英伟达/微软/Meta/博通/Marvell等 半导体 原创 已关注 共享调研纪要2025/09/26 15:24:37 联合发布⼈:Patrick 要点 1. 某⼤⼚北美各⼤客户的订单及送样进展;2. AEC应⽤场景及市场空间;3. ⼤⼚⽣产策略和供应链。 本⽂共7787字,预计阅读时间16分钟 已享VIP免费 以下为专家观点: 当前AEC的主要应⽤场景是什么?在服务器到TOR交换机以及TOR到Spine交换机的连接中,AC与其他技术相⽐有哪些优势? AEC的主要应⽤场景集中在服务器到TOR交换机的连接中,⽽在TOR到Spine交换机的连接中则仅有少量使⽤。早期低速率时,通常采⽤DAC,⽽随着速率提升,⼤部分场景转向光模块。然⽽,在柜内连接中,AEC相较光模块具有显著优势,包括以下三个⽅⾯:第⼀是成本,AEC整体成本低于光模块;第⼆是功耗,由于AEC不包含光器件及其驱动相关组件,因此功耗更低;第三是可靠性,光模块中的光器件存在⼀定⽐例的失效⻛险,⽽这⼀问题在AI应⽤场景下尤为重要。 TOR交换机通常放置在哪些位置?其与服务器之间的物理布局有哪些常⻅形 式? TOR交换机的放置⽅式主要有两种:第⼀种是在服务器所在同⼀机柜内,将TOR放置于服务器之间或靠近中间的位置;第⼆种是在独⽴的机柜内,与左右两侧分别存放服务器的两个机柜相邻,中间独⽴设置⼀个⽤于存放TOR及可能附带Leaf交换机的专⽤机柜。这两种布局形式是当前数据中⼼部署中的主流⽅式。 Nvidia是否直接向Credo采购AEC产品? Nvidia⽬前尚未直接采购AEC产品,但公司设备已通过了相关认证。在现阶段,其内部scale-up连接采⽤铜缆,⽽外部scale-out连接则允许客户⾃⾏选择采购光模块或AEC来实现从GB200到TOR交换机之间的互联。例如,Meta和SCI均计划⾃⾏采购AEC⽤于此类连接,⽽⾮通过Nvidia直接购买。此外,Nvidia⾃身也销售以太⽹或IBswitch,但并未将中间互联部分打包销售,⽬前仍以⾃有产线⽣产并销售光模块为主。 在未来200G及更⾼速率应⽤中,Nvidia是否可能改变其现有采购模式?具体在哪些代际产品上会涉及这些变化? 在200G速率应⽤中,⽬前尚⽆明确迹象表明Nvidia会改变现有模式。GB300代际预计仍不会采⽤AEC,⽽Rubin代际可能会有所接触。⽬前相关讨论仍处于前期阶段。此外,对于800G速率互联,从现阶段来看,⼤概率将采⽤AEC。已有800G AEC样品送⾄客户进⾏测试,但最终决定尚未完全确定。 AWS当前对AEC产品的需求情况如何?其主要⽤途是什么?未来架构是否会发⽣变化? AWS⽬前主要将AEC⽤于⾃研芯⽚相关项⽬,其H100和GB200仍然通过光模块实现互联。⽽AWS对单通道50G AEC产品(如8×50Gbps组成400Gbps链路)的需求集中于较早期版本。当前,这些产品主要⽤于训练任务中的⽹卡到TOR之间互联。在2026年计划推出的新⼀代架构Trainium3中,将从400Gbps 升级⾄800Gbps,即从8×50Gbps升级⾄8×100Gbps或4×100Gbps。同时,其GPU间scale-up⽹络将从PCIe 5.0升级⾄PCIe 6.0。然⽽,对于具体⽹络形态,例如64个GPU互联还是16个GPU互联,⽬前AWS尚未透露明确信息。从⽬前情况看,新⼀代⽹卡到TOR之间的⼤概率会采⽤800G AEC技术。 关于Trainium3相关的出货计划,其时间节点和部署安排是怎样的? Trainium3的出货计划因延迟有所调整,原定于2025年底推出,⽬前推迟⾄2026年第⼆季度。Trainium3在推出后,还需完成⾃主芯⽚的开发以及服务器的⽣产与部署。预计公司产品的批量部署将在2026年第三季度进⾏。 ⽬前是否有关于2026年的采购量指引? ⽬前尚未收到明确的采购量指引。根据Trainium2的经验,通常会在当年的第⼀季度开始准备下订单,并在第三季度左右提供下⼀年度(即后年)的全年指引。例如,Trainium2在部署初期仅提供按季度计算的⽬标,⽽到2024年第四季 度时 则给 出了2025年的全 年 指 引。 因 此 ,预计 类似 节 奏可 能适⽤ 于Trainium3。 2025年的采购节奏和数量如何? 2025年的采购节奏基本与往年⼀致,上半年约为70-80万条,全年的总量预计为150万条。这⼀数量主要⽤于正常节奏下的部署,同时也为Trainium3的⼤规模应⽤做准备。 Amazon⽬前采⽤的是哪种技术⽅案?光模块和AEC之间如何选择? Amazon当 前 主 要 采 ⽤400G AEC技 术, 并且其 设 计 中 ⼀ 个ASIC对应 ⼀ 个AEC。从产品⻆度来看,AEC具有更⾼稳定性、更低功耗以及更低成本等优势。然⽽,在实际选择中,商业考量占主导地位。通常情况下,如果现有AEC⽅案运⾏良好,不太可能切换回光模块。此外,对于GPU到TOR交换机之间的互联,不太可能采⽤正交背板设计,因为这种设计复杂且没有必要性。 关于800G AEC产品,其价格及组成部分如何划分? 800G AEC产品根据距离不同价格有所差异:短距离(1.5⽶以内)的售价约为450-500美元;⻓距离(如5⽶)售价接近600美元。此外,还有⼀种800G转双400G Y型线缆,其价格也超过600美元。 相较于400G产品,800G AEC产品有哪些价格变化及原因? 相较于400G AEC产品(售价约200美元),800G产品售价翻倍甚⾄略⾼⼀些。这主要由于以下原因:第⼀,⽬前800G需求紧张且供应尚未完全跟上;第⼆,800G所需Retimer芯⽚制程更先进、成本更⾼;第三,相⽐400G已⼤规模出货导致价格下降,800G仍处于早期阶段。 与光模块相⽐,800G AEC在成本上的竞争⼒如何? 单模光模块每个售价接近300美元,两端合计约600美元;⽽三模则更贵,每个超过400美元。相⽐之下,短距离800G AEC售价450-500美元,因此两者在成本上差距并不显著,但AEC仍具备⼀定优势。 在AEC的定价策略中,如何平衡其与光模块的价格差异,同时确保客户对AEC价值的认可? AEC的定价策略旨在避免客户将其视为廉价产品,因此价格设定为略低于光模块,但不会便宜太多。这种定价既体现了产品价值,⼜保持了市场竞争⼒。 从CSP的⻆度看,选择AEC时成本、功耗和可靠性三者的重要性排序如何? 在传统云计算环境中,成本通常是⾸要考虑因素。然⽽,随着数据中⼼规模扩⼤,功耗控制的重要性逐步提升。在AI训练场景中,由于训练过程对数据完整性的⾼要求,可靠性成为⾸要关注点。AI训练通常持续约20天,如果因可靠性问题导致中断,将造成重⼤损失。因此,在当前环境下,性能及可靠性被优先考虑,⽽成本和功耗则次之。 AEC在可靠性⽅⾯相较光模块有何具体优势? 光模块在前六个⽉内的失效率约为千分之⼀,⽽AEC由于采⽤纯铜设计,其失效率显著降低⾄⼗万分之⼀以下,相当于提⾼了100倍。此外,在传统云计算场景中,这种千分之⼀的失效率可以通过备份机制接受,但在AI训练场景中,这样的失效率难以容忍,因为⼀次训练失败会导致整个数据⽆效。 AEC主要应⽤在哪些服务器型号上?是否存在混⽤情况? AEC主要⽤于连接H100和GB200服务器。在GB200服务器上,其短距离连接全部采⽤AEC,仅⻓距离连接使⽤光模块,不存在混⽤情况。 GB200服务器明年的采购量预期是多少?这将如何影响AEC需求量? 预计GB200服务器明年每季度采购约1,000个机柜,每季度对应70K⾄75K条AEC需求。如果机柜采购量增加,将直接推动AEC需求增⻓。 GB200服务器为何选择800G速率⽹卡,⽽⾮400G速率⽹卡? GB200配备CX8⽹卡,因此采⽤800G速率。⽽此前H100服务器配备CX7⽹卡,则使⽤400G速率。因此明年GB200相关部署将全⾯转向800G速率。 如果未来速率提升⾄1.6T,对AEC⽀持的距离有何影响?是否会限制其应⽤范围? 当前800G速率下,理论极限传输距离为7⽶,实际使⽤极限为5⽶;⽽1.6T速率下理论极限缩短⾄3⽶,实际使⽤极限约2.5⽶。然⽽,即使是2.5⽶,对于机柜内连接仍然⾜够,因为从⽹卡到TOR交换机通常仅需1.5⽶左右。此外,为优化布线布局,⽬前TOR交换机多放置于机柜中间位置,从⽽进⼀步减少所需传输距离。因此1.6T速率下仍可满⾜现有应⽤需求。 Meta是否也像XAI⼀样,在GB200部署中全⾯采⽤AEC⽽⾮光模块?其采购计 划如何影响市场预期? Meta在GB200部署项⽬中同样全⾯采⽤AEC,不再考虑光模块。Meta今年⼩批量订单始于6⽉,⼤规模交付预计从第三季度开始。根据⽬前计划,其明年每季度采购量预计与XAI相近。这⼀指引较保守,但可能存在上调空间,总体营收贡献预计达⼀点⼏亿美元。 Microsoft⽬前主要在哪些场景下使⽤100G AEC,其未来订单规模如何? Microsoft主要在传统数据中⼼部署100G AEC。今年5⽉底⾄明年6⽉期间,其已下单超过80万条100G AEC。这些产品主要⽤于传统数据中⼼内部⽹络连接。 某些政府服务中⼼的⽹络部署中,采⽤了Y型电缆连接两个服务器到⼀台交换机的⽅案。这种设计的具体⽬的和技术要求是什么? 这种Y型电缆的设计主要⽤于实现⾼可靠性需求。其⼯作原理是,在正常情况下仅使⽤⼀侧连接,当主服务器发⽣故障时,备⽤服务器能够⽴即接管并补充数据,从⽽确保系统的连续性和稳定性。此外,这种⽅案通常需要定制化的AEC,以满⾜特定场景下的性能和兼容性要求。这类部署多⻅于政府合同项⽬中。 Microsoft在GB200这⼀代产品上的进展为何较慢?是否存在客户反馈关于未采⽤AC⽅案的问题? Microsoft在GB200上的进展相对缓慢,其原因主要是商务推进速度较慢,以及其业务复杂、项⽬众多。此外,Microsoft作为⼀家相对保守的公司,其决策流程也较为谨慎。虽然800G样品早已送测,但尚未收到明确反馈。 AWS为何未在GB200上采⽤AEC⽅案,⽽选择其他解决⽅案? AWS选择不使⽤AEC⽅案可能与商业考量及认证时间有关。⼀种可能是AWS倾向于直接从英伟达采购成套设备,因为英伟达提供了预先认证过的光模块, 这可以缩短部署时间。⽽对于部分客户⽽⾔,更快完成部署⽐花费时间进⾏独⽴认证更具吸引⼒。然⽽,也有如Meta这样的客户认为使⽤AEC不会显著增加时间成本,因此仍愿意选择该⽅案。 Google为何未采⽤AEC,并且在光模块选择上表现出不同于其他公司的偏好? Google⻓期以来并未使⽤AEC,⽽是主要依赖DAC和单模光模块。值得注意的是,与多模光模块相⽐,单模光模块成本更⾼,但Google似乎并不特别关注成 本节 约。 此 外 ,Google与Marvell及Inphi等供 应商关系 密切, 这 可 能对Credo等竞争者造成⼀定商务障碍。因此,即使送测了样品,也未能取得进⼀步商务进展。 Oracle⽬前在GB200上的测试和采购计划如何推进?是否有望成为未来的重要客户? Oracle已经分批接收了⼏百条样品进⾏测试,⽬前测试进展顺利且接近完成阶段。如果Oracle决定下订单,其⽣产准备不会成为问题。然⽽,由于Oracle的⼤规模部署计划通常存在⼀定延迟,例如今年初订单确认被推迟数⽉,因此即便⽬前尚⽆明确订单数量信息,也不能排除未来合作可能性。从内部评估来看,与Oracle达成合作的希望相对较⼤,有望成为Meta之后的重要发展客户。 当前市场竞争格局中有哪些主要玩家参与800G领域竞争?Amphenol、Molex等⼚商是否已实现批量供货? 在800G领域,⽬前主要竞争者包括Amphen