您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国移动]:面向大规模智算集群场景光互连技术白皮书(2025年) - 发现报告

面向大规模智算集群场景光互连技术白皮书(2025年)

信息技术2025-10-28中国移动董***
AI智能总结
查看更多
面向大规模智算集群场景光互连技术白皮书(2025年)

编制单位:中移智库、中国移动通信研究院、中国移动云能力中心、中国移动设计院 前言 当前,智算集群已成为支撑人工智能大模型训练、自动驾驶算法迭代等前沿领域的核心基础设施,并以惊人的速度从万卡向十万卡级规模演进。随着单节点算力突破每秒百亿亿次,这类超大规模集群的极致计算能力对互连链路带宽、延迟和功耗提出了极其严苛的要求。传统基于铜介质的电互连方案,正面临“带宽墙”、“延迟墙”及“功耗墙”等三重严峻挑战:单通道速率难以突破400Gbps,传输延迟高达数微秒,单机架互连功耗占比更是超过40%,这一系列瓶颈已成为制约超大规模智算集群算力释放的核心障碍。 相较于传统可插拔光模块等设备级光互连技术,芯片级光互连正在开辟全新的技术路径和产业赛道。它通过先进封装将光引擎与电芯片合封在一起,把电信号的传输距离从米级大幅压缩至毫米级,从而改写了物理层互连架构,实现50%以上的系统能效提升。由此构建的“芯片—设备—集群”一贯式全光互连架构,已被业界广泛认定为下一代智算基础设施的关键技术。 本白皮书系统性剖析芯片级光互连技术的核心原理和架构设计,深入探讨光源、调制器等关键器件的技术发展路径。同时,全面梳理芯片级光互连在国内外的产业现状,客观研判未来演进趋势和技术挑战。期望通过产学研用多方协作,加速芯片级光互连技术从实验室原型走向规模化商用落地,推动我国智算基础设施在硬件架构层面实现跨越式升级,为数字经济的高质量发展筑牢坚实的算力基石。 编写说明 牵头编写单位: 中国移动通信集团有限公司 联合编写单位(排名不分先后,按汉语拼音排序): 北京凌云光通信技术有限责任公司烽火通信科技股份有限公司飞腾信息技术有限公司光本位智能科技(上海)有限公司华为技术有限公司昆仑芯(北京)科技有限公司沐曦集成电路(上海)股份有限公司摩尔线程智能科技(北京)有限责任公司锐捷网络股份有限公司上海曦智科技有限公司上海图灵智算量子科技有限公司苏州盛科通信股份有限公司苏州奇点光子智能科技有限公司无锡芯光互连技术研究院有限公司新华三技术有限公司中兴通讯股份有限公司 目录 前言......................................................................................................................II 1.1.大模型的巨量迭代引发智算集群架构变革...................................................................11.2.大规模智算集群呼唤“光进电退”技术.......................................................................2 2.1.业界存在两大类光互连技术.........................................................................................8 2.1.1.设备级光互连:光交换机的演进与应用...............................................................92.1.2.设备级光互连:可插拔光模块的演进与应用......................................................102.1.3.芯片级光互连:从近封装到光学I/O...................................................................112.1.4.新型光互连技术具备巨大潜力............................................................................15 2.2.芯片级光互连三大技术路线场景互补........................................................................16 2.2.1.芯片级光互连技术的组成原理............................................................................162.2.2.三大技术路线并驾齐驱,硅光或成未来主流......................................................19 3.前瞻性芯片级光互连生态迎来关键窗口期....................................................23 3.1.国际产业由巨头牵引率先打通产业链........................................................................233.2.国内处于从研究向应用转化的起步阶段.....................................................................28 4.规模化应用需跨越技术和产业的双重挑战....................................................35 5.呼吁产学研擘画一贯式全光互连产业蓝图....................................................41 缩略语列表..........................................................................................................43 参考文献.............................................................................................................47 1.下一代智算集群提出近乎严苛的互连需求 1.1.大模型的巨量迭代引发智算集群架构变革 实现通用人工智能(AGI,ArtificialGeneralIntelligent)已成为大模型未来发展方向的广泛共识。大模型技术总体仍遵循扩展法则(ScalingLaw),参数已迈向万亿甚至十万亿规模,对智能算力的需求呈现爆炸式增长。如下图所示,模型参数规模的增长速度约每两年400倍,其算法结构在原有Transformer的基础上,引入扩散模型、专家系统(MoE,MixtureofExpert)等,使模型泛化能力增强,并具备处理10M+超长序列能力,推动芯片算力(FLOPS)约每两年3倍的提升,需要至少百倍规模的集群演进速度来支撑大模型的发展,但芯片间的互连能力提升缓慢,只有约每两年1.4倍,远落后于模型规模和算力的演进速度。 超大模型的训练过程尤其是张量并行(TP,TensorParallelism)、专家并行(EP,ExpertParallelism)等模式依赖集群内GPU芯片之间频繁的数据交互。然而,互连速率的提升已严重滞后于算力的快速演进,导致显著的通信开销,这直接限制了集群有效算力随GPU数量的线性增 长,已成为制约集群规模扩展和性能提升的关键瓶颈,如下图所示。在此背景下,仅仅依靠IB(InfiniBand)或RoCE(RDMAoverConvergedEthernet)等传统网络技术来满足模型性能指标已十分困难,需构建具备高带宽、低延迟特征的GPU卡间互连技术体系,以扩大节点规模,大幅降低通信时间占比,最终实现集群算效的显著提升。 同时,全球智算中心规模触达十万卡级别,智算集群架构正经历一场根本性变革,从传统单机八卡向超节点演变。超节点并非简单的硬件堆叠,是一种通过极致性能的高速互连技术,将数十乃至上千颗GPU芯片集成于单个或多个机柜的集群系统,突破传统设备算力瓶颈,显著降低多芯片并行计算的通信损耗,实现大模型训练与推理效率的飞跃。 1.2.大规模智算集群呼唤“光进电退”技术 目前,超节点智算集群展现出三大技术特性,一是互连性能高,GPU之间具有超低时延超高带宽(百纳秒级,TB/s级)且无收敛的互连能力;二是算力密度高,由单个或多个机柜构成,包含32个以上甚至到千卡的GPU数量,不断逼近电互连物理部署极限;三是能效PUE高,超节点单机柜功率可达40kW以上,采用液冷为主、风冷为辅的散热方案,配合柜级集中电源供电,在提供更高供电效率的同时大幅降低数据中心PUE。 为了实现更高的集群算效水平,互连技术方案的演进迫在眉睫。在超节点设备的互连选择上,当前主要存在两种路径:基于铜缆和基于光纤的传输方式。尽管铜缆作为目前的主流方案,相较于传统的可插拔光模块与光纤组合,拥有技术成熟度、成本、可靠性以及部署维护便捷性等多方面优势。通常在小于2米短距离和低于800Gbps的非超高速组网场景中,铜缆凭借这些优势依然能满足绝大多数应用需求。特别是无源直连铜缆(DAC,DirectAttachCable),凭借其极低的成本和超高的平均无故障时间(MTBF,MeanTimeBetweenFailures),成为当前主流选择。 然而,在高速传输场景下,铜缆面临着距离受限、功耗激增、速率瓶颈和布线困难等严峻挑战,已然逼近其性能极限。随着超节点集群规模继续扩展至256节点乃至千卡级别,且单通道传输速率迈向800Gb/s,铜缆的固有物理局限性正日益凸显,已成为制约智算集群互连性能与扩展潜力的严峻挑战。 首先,铜缆的局限性体现在其距离限制。受限于信号衰减,铜缆的有效传输距离极其有限。例如,在极短的10厘米PCB走线中,100Gbps的速率就足以造成超过15dB的插入损耗,导致信号失真率突破5%。当GPU跨越多机柜时,距离超过10米的情况下,信号衰减与功耗问题更为 突出。其次,功耗激增是另一核心痛点。在800Gbps及以上的高速传输场景下,电流通过铜线产生的巨大热量不仅大幅推高了数据中心的运营成本,也显著增加了系统的散热复杂性。再者,铜缆面临着传输速率瓶颈。受限于“趋肤效应”和PCB走线的寄生电容、电感,其中长距离传输的单通道速率难以突破200Gbps,且多通道并行会导致严重的串扰,进一步限制了电互连的带宽密度。最后,布线困难成为规模化部署的巨大障碍。随着智算集群规模呈指数级扩张,所需的铜缆数量几何级增长,使得布线难度与成本显著提高,严重制约集群快速扩展和高效运维。这四大固有物理局限,使得铜缆已无法满足未来高算力密度和大规模扩展的智算集群的严苛需求。 为跨越基于电信号铜缆传输的固有物理极限,新一代光互连技术正快速登上历史舞台。以近封装光学(NPO,NearPackageOptics)、共封装光学(CPO,Co-PackagedOptics)、以及光输入/输出(OIO,OpticalInputOutput)为代表的创新方案成为替代铜缆方案的优秀选择。这些技术的核心在于最大程度地缩短电信号与光引擎(OE,OpticalEngine)之间的距离,实现在芯片层面即完成光电转换,从根本上规避了传统可插拔光模块的高成本与易故障问题,同时继承了光纤传输的技术优势。 功耗显著降低。NPO、CPO等技术将光引擎与GPU封装在同一基板甚至同一芯片上,将电信号路径缩短至厘米甚至毫米级别,大幅减少了传输过程中的中继损耗,并降低了SerDes接口的性能要求,从而系统性地降低了整体功耗。 带宽密度显著提升。通过缩短电信号传输路径,这些技术能支持更高的单端口传输速率,同时在同一封装体内集成多个光通道,使得带宽密度达到百Gbps/mm²至Tbps/mm²,远超铜缆互连方案。此外,连接距离得到极大扩展。光信号的低损耗特性使其能够轻松覆盖数据中心内数百米甚至10公里以上的距离,彻底打破了铜缆在