2026年4月27日 超节点:从芯片堆叠到系统优化 看好 事件 当前算力产业正从单纯堆芯片的粗放式增长,全面转向系统级协同优化的新阶段。超节点通过重构计算局部性边界,将高频通信收敛至机柜级受控域,破解“比特搬运成本高于浮点运算”的行业核心痛点,成为国产算力实现突破的重要技术路径。 核心观点 超节点的核心价值在于大幅提升理论算力向实际可用吞吐的转化效率。传统分布式架构跨服务器通信时延高,导致集群算力利用率普遍低于30%。超节点通过机柜内总线通信、全局内存统一编址和系统级协同设计三大变革,将通信时延压缩至200纳秒级,系统级算力迭代速度达每代5-6倍,远超单芯片制程提升的边际效益,成为下一代AI算力基础设施的主流形态。 数据来源:Wind,国新证券整理 海外市场形成多元技术路线竞争格局。英伟达凭借“全栈封闭+垂直整合”保持领先,2026年推出Vera Rubin NVL144超节点,下一代Rubin Ultra计划2027年发布;谷歌坚持光互联路线,发布第八代TPU,首次实现训练与推理芯片分离;AMD依托UALink开放生态加速追赶,能效优势显著;博通则主打以太网原生的低成本方案。 相关研究 国内呈现多厂商并行发展态势。华为商用进度领先,CloudMatrix384已批量交付,综合性能超越英伟达GB200 NVL72,Atlas 950SuperPod将于2026年第四季度量产。阿里、腾讯、百度、中科曙光等也推出了各具特色的超节点产品,国产算力与大模型的协同生态已进入商业化落地关键阶段。 超节点正重塑算力产业链价值分配,互联环节价值占比大幅提升,成为核心增量来源。同时推动液冷技术全面普及、服务器交付模式转向整机柜预集成,并拉动高速光模块市场需求。未来三年中国AI加速卡市场将保持高速增长,国产替代进程持续加速。 分析师:钟哲元登记编码:S1490523030001邮箱:zhongzheyuan@crsec.com.cn 投资线索 超节点是算力产业链确定性较强的成长主线,核心驱动来自国产替代加速与市场渗透率快速提升的双重共振。投资遵循三层逻辑:优先把握超节点架构催生的独家增量环节,重点关注Scale Up互联领域的高端交换芯片、Switch Tray;其次布局具备软硬协同能力的国产算力芯片与大模型厂商,以及液冷、整机柜交付、高速光模块等确定性受益的配套产业链;长期跟踪CPO/LPO光互联技术及开放互联标准生态发展带来的长期投资机会。 风险提示 1、 技术发 展不及 预期;2、 市场 竞争加 剧;3、 地缘政 治影响 。 证券研究报告 目录 一、从单卡峰值到系统级实际吞吐............................................................................................................................................3二、海外厂商:多元路线并存,覆盖全场景需求....................................................................................................................3三、国内厂商:多厂商并行发展,华为商用进度领先............................................................................................................4四、超节点引发的产业链价值变化............................................................................................................................................5五、投资建议................................................................................................................................................................................6六、风险提示................................................................................................................................................................................7 一、从单卡峰值到系统级实际吞吐 超节点的核心价值并非单纯提升单卡峰值算力,而是大幅提升理论算力向实际可用吞吐的转化效率。在传统分布式计算架构中,跨服务器通信需经过复杂的多层网络路径,端到端时延高达1-3微秒,这导致大规模AI集群的整体算力利用率普遍低于30%。超节点通过三大技术变革,改变了计算系统的局部性边界:一是将跨节点网络通信降维为机柜内总线通信,实现任意两张加速卡之间“一跳直达”,通信时延压缩至200纳秒级;二是实现全局内存统一编址,加速卡可直接跨板卡读取物理内存,无需经过传统的序列化与反序列化流程;三是将计算、互联、内存、散热等原本独立的设计维度纳入同一工程边界,实现多目标协同的系统级最优。 从技术增长逻辑来看,单芯片制程微缩每代仅能带来约2.5倍的算力提升,且边际效益正在快速递减;而超节点通过引入系统级设计这一全新增长变量,将系统级算力的迭代速度推高至每代5-6倍。这一显著的系统级红利,正是超节点能够取代传统分布式架构,成为下一代AI算力基础设施形态的主要原因。 二、海外厂商:多元路线并存,覆盖全场景需求 海外超节点市场已形成多元技术路线并存的成熟竞争格局,英伟达、谷歌、AMD、博通等全球领先厂商基于自身核心技术优势,分别布局封闭私有、光互联、开放标准、以太网原生等技术方向,全面覆盖从训练到推理、从通用到专用的各类算力需求。 英伟达仍是全球超节点技术的绝对标杆,其“全栈封闭+垂直整合”的技术路线持续构建并深化难以逾越的技术壁垒。2026年下半年,Vera Rubin NVL144超节点将启动小批量出货,核心技术实现三大突破性进展:一是互联架构全面升级,采用PCB中板替代传统5000余根有源铜缆,彻底消除线缆故障点,系统可靠性提升40%;NVLink 6采用400G SerDes技术,单卡双向带宽达3.6TB/s;NVSwitch6单芯片集成72个端口,总交换容量达28.8TB/s,实现单柜144颗Rubin GPU无阻塞全互联。二是计算架构深度优化,Rubin GPU采用3nm先进工艺,集成新一代FP4张量核心,单卡FP4峰值算力达50PFLOPS,较上一代B200提升2倍。三是系统工程创新突破,采用整机柜浸没式液冷技术,单柜功耗约190kW,较上一代提升48%。针对推理场景,英伟达同步推出GB300 NVL72推理超节点,通过优化MoE模型路由机制,推理吞吐量较GB200显著提升,单Token延迟大幅降低。其下一代旗舰产品Rubin Ultra NVL576计划于2027年下半年推出,将通过NVLink 7和3.2T CPO硅光技术实现576卡全互联,单柜FP8算力将突破20EFLOPS。 谷歌始终坚持光互联差异化技术路线,于2026年4月正式发布第八代TPU系列产品,首次采用训练与推理芯片分离的架构,推出面向大规模训练的TPU 8t和 面向低延迟推理的TPU 8i,标志着其AI硬件发展路线的重大战略转向。TPU 8t专为万亿参数大模型训练优化,单芯片配备216GB高带宽HBM内存,ICI互联带宽较上一代翻倍,单超节点最大支持9600颗芯片互联,FP4精度总算力达121EFLOPS,整体能效是上一代TPU Ironwood的两倍,性价比提升80%;同时升级新一代MEMS光交换机,端口密度提升至256×256,交换时延压缩至5毫秒以内。TPU 8i则聚焦低延迟高吞吐推理场景,搭载288GB HBM内存和3倍于上一代的片上SRAM,采用Boardfly分层拓扑结合OCS光互联技术,实现任意芯片间通信最多7跳可达,多芯片协同等待时间缩短80%,推理能效较上一代提升117%,专为AI智能体和MoE模型的复杂推理任务量身优化。目前TPU v7已完成向Anthropic的首批10万颗芯片交付,第八代TPU将于2026年下半年正式对外供应,谷歌自有数据中心已启动先期部署。 AMD依托UALink开放生态加速追赶,于2026年3月正式发布UALink 2.0规范,新增在网计算和统一内存扩展两大核心功能,目前联盟成员已突破130家。其Helios MI455X超节点工程样品和限量交付有望在2026年下半年实现,采用双宽机架设计,单柜搭载72颗MI455X GPU,通过UALink实现260TB/s总互联带宽,FP4算力达2.9 EFLOPS,而功耗仅为同级别英伟达产品的45%,能效优势显著。博通则推出SUE(Scale Up Ethernet)协议,基于Tomahawk 6 Ultra交换芯片实现单芯片102.4T交换容量,主打以太网原生兼容性和低成本优势,已获得微软、亚马逊等全球主流云厂商的采用。 三、国内厂商:多厂商并行发展,华为商用进度领先 国内超节点赛道呈现多厂商并行发展、全产业链协同突破的良好格局。华为凭借全栈自主技术能力,成为国内技术成熟、商用进度快的领先厂商;阿里、腾讯、百度、中科曙光、中兴通讯、紫光股份等企业也已推出各具特色的超节点产品,共同推动国产算力基础设施的快速升级。 华为凭借全栈自主技术能力持续领跑国内市场,其“集群化补短板+自主协议创新”的技术路线成效显著。2026年第一季度,CloudMatrix 384超节点已完成国内主要云厂商的批量交付,单集群384颗昇腾910C芯片可实现300 PFLOPSBF16算力,综合性能超越英伟达GB200 NVL72约1.7倍,总内存容量是其3.6倍,内存带宽是其2.1倍。预计2026年第四季度量产的Atlas 950 SuperPod将集成8192颗昇腾950DT芯片,FP8总算力达8 EFLOPS,采用“柜内铜互联+柜间光互联”的混合架构;其自主研发的灵衢2.0协议已向行业开放,并正在参与工信部统一国产互联标准的制定。华为昇腾超节点与国内顶尖大模型厂商的协同也取得突破性进展,2026年4月发布的DeepSeek-V4系列模型实现了昇腾平台的Day 0适配,通过融合kernel、多流并行等技术充分释放硬件性能。官方明确表示,昇腾950超节点批量上市后,DeepSeek-V4-Pro的API服务价格将大幅下调,这标志 着国产算力与国产大模型的协同生态已进入商业化落地的关键阶段,将显著加速超节点技术的普惠进程。 国内其他厂商也在加速技术落地和商用部署。阿里推出磐久128超节点,采用自研Alink互联协议,单柜集成128颗PPU芯片,2026年已在阿里云数据中心实现规模部署;腾讯发布ETH-X超节点架构,基于以太网原生优化,支持多厂商芯片混布,具备良好的兼容性和扩展性;百度天池256超节点基于昆仑芯P800芯片打造,整体性能较上一代提升50%以上,昆仑芯M100推理芯片将于2026年同期上市,后续将推出基于M100的推理专用超节点产品;中科曙光推出ScaleX640超节点,最大支持640张GPU堆叠,总算力超600 PFLOPS;中兴通讯发布Nebula超节点,采用自研OLink协议和凌云交换芯片,可支撑万卡级智算集群的高效运行;紫光股份推出Unipod超节点,提供从芯片到软件的全栈国产化解决方案。寒武纪