您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[湖南大学&中国联通研究院&中国联通软件研究院&北京邮电大学&上海交通大学]:智算中心光电协同交换网络全栈技术白皮书 - 发现报告

智算中心光电协同交换网络全栈技术白皮书

AI智能总结
查看更多
智算中心光电协同交换网络全栈技术白皮书

湖南大学中国联通研究院中国联通软件研究院北京邮电大学上海交通大学2025年8月 编写说明 编写单位: 湖南大学、中国联通研究院、中国联通软件研究院北京邮电大学、上海交通大学 编写人员: 湖南大学: 陈果、梁帮博、陈禹澎、刘璇 中国联通研究院: 程新洲、曹畅、徐博华、杨斌、文晨阳、谢志普、徐洁、黄金超 中国联通软件研究院: 杨迪、李张体、张承琪、王宇、马煜 北京邮电大学: 邢颖、林雪燕 上海交通大学: 赵世振 前言 人工智能正以前所未有的速度重塑人类生产与生活方式。以大语言模型、多模态模型为代表的新一代AI应用,持续突破计算与通信的极限,推动智算中心从计算、存储到网络的全栈架构深度演进。在这一浪潮中,智算中心不仅是国家科技战略的核心支撑,更是产业智能化升级的关键基础设施。 随着AI模型参数量呈指数级增长,尤其是在大规模分布式并行训练场景下,网络性能已成为制约智算中心整体效率的关键瓶颈。当前普遍部署的纯电交换网络在互联规模、带宽密度、端到端时延与能效比等方面逐渐逼近物理与经济的上限:算力芯片的通信需求远超传统网络承载能力,高功耗、高成本和复杂布线问题愈发突出。 在此背景下,光交换技术凭借超大带宽、超低延迟与低功耗等特性,正与电交换形成互补融合的“光电协同”架构,成为新一代智算中心网络的重要发展方向。光电协同不仅能够在物理层显著提升链路性能,还为网络的灵活重构、智能调度与按需适配提供了技术空间。全球领先的产业与科研力量均已在此领域展开探索,并在部分应用场景实现试点部署。 然而,要实现光电协同网络在智算中心的规模化落地,仍需跨越多重技术关卡。从应用层集合通信模式与动态拓扑的适配,到传输层协议机制与流量调度优化;从路由层控制平面的可扩展性,到链路层资源的智能分配;再到物理层光交换的传输损耗与延迟难题,均对网 络架构设计、协议栈演进与资源编排提出了系统性挑战。 本白皮书面向智算中心光电协同交换网络的全栈技术体系,旨在: •梳理国家政策、AI发展趋势与智算中心网络需求,揭示光电协同兴起的背景; •分析光交换与电交换的性能差异与技术互补性; •总结光电协同网络在应用层、传输层、路由层、链路层与物理层的关键挑战与发展路径; •提出面向未来的技术演进方向与标准化路线建议。 我们期望本白皮书能为智算中心网络领域的研究人员、设备制造商、运营商与服务提供商,提供系统的参考框架与技术洞察,共同推动构建超大规模、超大带宽、超低时延、超高可靠的新一代智算中心网络基础设施。 本白皮书的编制工作得到了国家自然科学基金项目(编号:U24B20150)的支持,在此表示感谢。 目录 前言.............................................................................................................3 1.智算中心发展与光电协同交换网络兴起...........................................7 2.智算中心光电协同交换网络面临挑战.............................................20 2.1应用层:集合通信与网络拓扑的失配挑战...........................212.2传输层:复杂功能的协议设计与流量调度挑战...................212.3网络层:路由收敛滞后挑战...................................................232.4链路层:非对称资源动态分配挑战.......................................242.5物理层:信号衰减挑战与时延约束挑战...............................25 3.智算中心光电协同交换网络协议栈技术发展.................................26 3.2.3错峰出行智算流量调度方案.........................................353.3网络层:面向光电网络的智能路由控制...............................363.3.1路由协议的光电优化方向.............................................373.3.2面向光电拓扑的预计算优化与双模路由表设计.........383.4链路层:面向光电网络的智能双工重构...............................393.4.1上下行非对称带宽的链路利用.....................................403.4.2智能预测与链路池化资源管理策略.............................413.5物理层:分布式光交换与物理层优化...................................454.总结与展望..........................................................................................464.1光电协同交换网络的标准化路径...........................................474.2面向未来的研究与产业发展方向...........................................49参考文献...................................................................................................51 1.智算中心发展与光电协同交换网络兴起 1.1国家政策发展 全球智能化浪潮风起云涌,人工智能领域创新呈突破之势,语言大模型、多模态大模型和具身智能等领域日新月异,推动以智算中心为代表的基础设施向更高效、更弹性的方向快速发展。 2025年1月1日,国家发展改革委等联合印发《国家数据基础设施建设指引》[1]强调高效弹性传输网络可为大模型训练和推理等核心场景数据传输流动提供高速稳定服务,在高效弹性传输网络支撑下,能够显著提升数据交换性能,降低数据传输成本。 7月26日,李强总理出席2025世界人工智能大会暨人工智能全球治理高级别会议开幕式,围绕如何把握人工智能公共产品属性、推进人工智能发展和治理发表致辞。大会发表《人工智能全球治理行动计划》[2]协力推进全球人工智能发展与治理。该计划指出应“加快数字基础设施建设”,即加快全球清洁电力、新一代网络、智能算力、数据中心等基础设施建设,完善具备互操作性的人工智能和数字基础设施布局,推动统一算力标准体系建设。 这些政策举措充分体现了我国在人工智能基础设施建设方面的前瞻性布局,通过政策引导、标准制定和国际合作等方式,为人工智能技术创新和产业发展构建坚实的算力支撑体系,同时为智算中心的快速发展注入了强大的助推剂。 1.2智算中心发展 据中国互联网络信息中心的报告[3],2024年我国人工智能产业规模突破7000亿元,连续多年保持20%以上的增长率。2025年上半年,生成式人工智能产品实现了从技术到应用的全方位进步,产品数量迅猛增长,应用场景持续扩大。 在人工智能+医疗领域,医联MedGPT、神农中医药大模型和岐黄问道等医疗大模型已广泛应用于辅助诊断、中医诊疗、智能开方等环节,显著提升了医疗服务质量和效率。在人工智能+汽车领域,大模型推动变革汽车产业全链条,全面智能化升级。华为盘古汽车大模型聚焦汽车产业全链条场景,覆盖设计、生产、营销、研发等核心环节,为汽车行业垂直领域解决方案。在数据要素价值释放过程中,强大的算力可以将“大数据”转向“好数据”,并充分挖掘海量数据的经济和社会价值,不断激活数据要素潜能,实现原始数据向知识再向智慧跃迁的更高层次价值释放。 随着人工智能与实体经济深度融合,智算需求已经呈现爆发式增长。AIGC大模型参数量达到万亿,训练阶段需要万卡甚至十万卡集群支持。如表1-1所示,训练万亿级模型(如GPT-4)已突破万亿(10²⁵)FLOPs,需数千至万块H100级芯片,训练成本达上亿美元。 大模型参数量达到万亿,迭代训练需使用数据并行、流水线并行、张量并行和专家并行等技术。并行推理将每个模型层的计算任务拆分到各个服务器中多卡GPU上执行。各GPU无法独立完成计算工作。在训练的过程中需要进行频繁且复杂的通信。这就要求构建GPU之间的全互联高速数据通道,以确保数据的高效传输,最大限度减少GPU间通信耗时。那么,如何满足大规模GPU之间的高效通信,构建超大规模、超大带宽、超低时延、超高可靠的智算网络,已成为当前智算网络发展重要挑战。 智 算 中 心 网 络如 图1-1所 示 ,可 按 通 信 范 围 分 为机 内 互 联(Intra-Node)与机外互联(Inter-Node)两类: 机内互联:主要用于单服务器或单节点内的多GPU连接。典型技术包括PCIe与NVLink,其中最新一代NVLink[4]5.0点对点带宽高达1800GB/s,并通过NVLinkSwitch实现多GPU全互联,支持构建大规模GPU池。 机外互联:用于跨服务器或跨机柜的GPU通信,需依赖高速网络结构实现。当前主流方案采用电交换芯片构建以太网或IB网络,常见架构包括Fat-Tree、Leaf-Spine、DCell、BCube。这些结构通过 多层交换机实现大规模互联,支撑分布式训练中的全互联需求。 无论采用机内互联还是采用机外互联,都要采用电交换芯片来做网络流量交换。然而,随着模型规模和节点数的增加,电交换面临带宽、延迟和能效的瓶颈。 1.3光电协同交换网络的兴起 在交换技术方面,电交换技术具有成熟性、协议兼容性和灵活的控制能力,基于以太网(如RoCEv2、InfiniBand)传输协议,支持复杂网络策略,在智算中心广泛部署。基于电交换机的典型的架构包括Fat-Tree、Leaf-Spine、Dcell、BCube等。受限于集成电路工艺的发展限制,传统电交换机的带宽密度已难以满足大模型训练增长的流量需求。光交换具有大带宽、可靠性高、功耗小、组网灵活的特点,相比电交换机具有高带宽、低能耗的优势,是突破网络核心侧带宽密度瓶颈的最佳技术路线,适用于超大规模AI训练集群。光电协同架构[6]可以将光交换的高带宽、低延迟和电交换的灵活控制能力整合起来,提供TB级带宽,充分发挥光与电两者优势。 1.3.1电交换的技术瓶颈与发展困境 端口密度瓶颈 尽管近年来电交换芯片在制程工艺、转发架构与缓存设计方面不断优化,但在智算中心应用场景下,其性能仍面临明显瓶颈。随着摩尔定律逐渐失效,交换芯片的更新迭代速度明显放缓,芯片交换容量难以实现持续增长。目前主流商用电交换芯片已发展至102.4Tbps级别,例如BroadcomTomahawk6采用3nm制程工艺,可提供多达128个800G端口或64个1.6T端口。而国产交换芯片仍停留在7nm制程的25.6Tbps交换容量,瓶颈效应更加严重。然而在实际部署中,为保障链路冗余、流控带宽和管理接口,芯片可用端口通常不到理论最大值,导致整体带宽扩展能力受到压制。尤其是在并行训练中伴随的突发性大量同步与广播时,网络时常出现瞬间拥塞、缓存溢出与延迟剧增等问题[7]。 与此同时,随着大模型参数规模和训练复杂度的持续增长,智算中心对网络端口密度的需求正加速攀升。以GPT-4等万亿级模型为例,其完整训练任务需部署约25,000张H100GPU卡。假设每台服务器需与Top-of-Rack(ToR)交换机建立至少2条400G上行链路,并在Leaf层与Spine层交换节点之间形成全互联结构,则光是Leaf层汇聚这些服务器所需的交换芯片就需提供