您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [中国移动云能力中心]:云智算光互连发展报告 - 发现报告

云智算光互连发展报告

报告封面

前言 本发展报告面向未来智算中心超大规模扩展、AI 大模型极致性能与高效部署的核心需求,联合产业合作伙伴共同提出先进光互连技术架构与演进路径,旨在突破传统电互连在带宽、距离与能效方面的根本性瓶颈,构建高带宽、超低时延、低功耗及高可靠性的新一代智算中心互连底座,为人工智能、高性能计算及云服务等关键业务的持续跃升提供坚实支撑。 本发展报告的版权归中国移动云能力中心所有,并受法律保护。转载、摘编或利用其它方式使用本发展报告文字或者观点的,应注明来源。 目录 前言...................................................................................................... 1目录..................................................................................................... 21. 背景与需求...................................................................................42. 智算中心光互连技术概述...........................................................52.1 新型可插拔模块.................................................................52.1.1 线性可插拔光学.................................................... 52.1.2 线性接收光学........................................................ 62.2 光电共封技术.....................................................................62.2.1 板上光学.................................................................62.2.2 近封装光学.............................................................72.2.3 共封装光学.............................................................82.2.4 光输入/输出...........................................................92.3 光交换.................................................................................92.3.1 光线路交换.............................................................92.3.2 光分组交换...........................................................112.3.3 光突发交换...........................................................123. 智算场景下光互连技术的应用研究........................................ 133.1 LPO 在 AIGC 算力网络中的应用..................................... 133.2 CPO 交换机在智算场景下的应用................................... 143.3 OCS 在 AI 集群参数面的应用......................................... 153.4 光互连技术在 GPU 超节点的应用.................................. 16 4. 移动云在智算场景下的光互连应用展望................................ 185. 产业生态与标准化.....................................................................215.1 光电领域互连标准............................................................215.1.1 CPO 领域标准....................................................... 215.1.2 LPO 领域标准....................................................... 225.1.3 Chiplet 领域标准............................................... 225.2 光电领域交换标准与产业生态....................................... 245.2.1 光交换标准发展现状........................................... 245.2.2 光交换产业生态进展.......................................... 276. 发展趋势与发展建议.................................................................286.1 发展趋势............................................................................286.2 产业发展建议....................................................................28附录:............................................................................................... 30常见缩略语...............................................................................30 1.背景与需求 在 AI 大模型、云计算及智能应用普及的推动下,全球算力需求正经历前所未有的爆发式增长。基于铜缆的互连技术在带宽密度、传输距离与能耗效率上的瓶颈日益凸显,光子作为光互连技术的信息载体和物理基石,具有极低传输损耗、超高频率、抗干扰等物理特性,使得光互连技术在带宽、距离、抗扰、功耗、密度等方面具有压倒性优势,拥有巨大潜力。 光互连技术的应用范围正从传统的电信骨干网和城域网,快速向数据中心内部、高性能计算集群等更广泛的领域渗透。特别是在数据中心内部,随着服务器端口速率向 400G、800G 乃至 1.6T 演进,光互连技术方案正迅速取代铜缆,成为数据中心以及超节点场景下的优选方案。随着 LPO、CPO 等技术引入数据中心架构,光电协同设计已成为芯片集成的核心技术需求,芯片-封装-系统级的多维协同优化成为新的挑战。与此同时,随着全光交换技术的逐步小规模应用,为光互连技术的演进方向提供了新的思路。 本发展报告聚焦光互连技术在智算中心和数据中心等典型应用场景下的技术演进,为行业提供兼具前沿性与实践性的技术参考。 2.智算中心光互连技术概述 随着智算中心的飞速发展,数据吞吐量激增,对底层硬件互连提出了前所未有的挑战。在此背景下,光互连技术以高带宽、低时延、低功耗等方面的优势,有望成为未来算力时代不可或缺的基础设施。智算中心场景下的光互连技术具体包括新型可插拔模块、光电共封以及光交换三个核心技术方向。 2.1 新型可插拔模块 2.1.1 线性可插拔光学 随着数据中心传输速率的不断攀升,传统光模块的功耗和成本急剧上升,已成为制约数据中心扩展的瓶颈。 在传统光模块的功耗中,DSP 模块占了很大的比例,因此在 LPO技术中,直接去除了传统光模块中的 DSP,在发射端使用具有高线性度的 Driver,在接收端使用高线性度的 TIA,从而构建一个纯模拟的、“线性直驱”的光信号处理通道,如图 1 所示。虽然去除了传统光模块中的 DSP,但是 DSP 功能并未消失,而是转移到了交换机 ASIC 中,这意味着 ASIC 的 SerDes 模块必须具备更强的线性驱动能力和信号处理能力。 由于移除了传统光模块中的 DSP 模块,LPO 技术能够将功耗降 低 30%~50%,并能够降低延迟。于此同时,由于去除了 DSP 模块,能够在一定程度上节省成本,并且 LPO 技术保留了可插拔的产品形态,有比较好的可维护性。 2.1.2 线性接收光学 LRO 在接收端移除了 DSP,发送端保留了重定时器,是相较于LPO 的折中方案,如图 2 所示。重定时器可以对信号进行整形、重新计时和放大,发送端保留重定时器能够补偿了信道损耗,确保了发送信号的质量,并提供了更好的互操作性和链路诊断能力。而接收端采用线性模拟组件直接接收来自主机 ASIC 的信号,这在一定程度上减少了的光模块的功耗,以实现节能降本的功效。 2.2 光电共封技术 2.2.1 板上光学 OBO 的核心思想是:将光引擎从传统的可插拔模块中解放出来, 直接安装到系统主板上,但交换或计算的电芯片仍然保持独立的封装,如图 3 所示。光引擎与电芯片通过主板上的精密走线进行互连。 由于移除了可插拔模块的“金手指”接口、外壳以及部分重复的电路,缩短了电芯片与光引擎的电气路径,从而降低了信号驱动的功耗。同时,如果光引擎损坏,可以单独进行更换,而无需更换昂贵的电芯片或整个主板。 在性能方面,OBO 虽然优于可插拔模块,但由于主板上的互连距离仍然较长,因此在超高速率传输场景下的优势并不明显。 2.2.2 近封装光学 NPO 的核心思想是:将光引擎非常靠近电芯片放置,但并不像CPO 那样与电芯片共封装在同一基板或中介层上。它通常将光引擎安装在同一基板上,通过极短的高性能电气链路与电芯片相连,形成一个高度集成的系统,如图 4 所示。 NPO 将光引擎与电芯片物理分离,避免了电芯片的高温热量直接冲击光器件,散热设计更简单、高效。由于电芯片本身是巨大的热源,工作时温度很高,而激光器等光器件对温度极其敏感,所以, 光引擎与电芯片共封装会导致波长漂移和性能下降。同时,由于光引擎未与电芯片共封装,NPO 在可维护性层面具有优势,如果光引擎失效,只需更换光引擎子模块即可,避免了大量的维护成本。 相比激进的 CPO 技术,NPO 技术是一种更务实、风险更低的路径。并且,NPO 与传统光模块相比,其性能远超传统光模块,其主要优势包括以下几点: NPO 的光引擎拥有更大的可布置面积和更灵活的走线方案,可以方便地使用 LGA 封装,且有利于光引擎散热;NPO 不影响电芯片原有设计,只对 PCB 或基板做差异设计即可满足不同需求;NPO 与电芯片解耦,能够避免形成电芯片垄断问题;NPO 可单独测试 TP1 的电信号质量,可归一化设备的驱动与固件,可测试性更好。 2.2.3 共封装光学 CPO 相对于 NPO,光引擎与电芯片共封装在同一个插槽或基板上,集成度更高,电互连距离更短,如图 5 所示。同时,相对于传统光模块,CPO 能够显著降低功耗,并通过节省设备面板空间,可克服面板 I/O