您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国移动通信有限公司研究院&中国信息通信研究院&清华大学&北京邮电大学&华为&中兴通讯&橙科微电子&新华三&锐捷网络&盛科通信&朗美通通讯&光迅科技&思博伦通信&集益威半导体&新易盛通信&索尔思光电&华工正源光子&云脉芯联]:面向新型智算中心的以太网弹性通道(FlexLane)技术白皮书 - 发现报告

面向新型智算中心的以太网弹性通道(FlexLane)技术白皮书

AI智能总结
查看更多
面向新型智算中心的以太网弹性通道(FlexLane)技术白皮书

前言随着以ChatGPT、Deepseek为代表的AI大模型崛起,算力需求呈指数级增长,全球正加速建设智算中心以应对这一挑战。智算中心内部或智算中心间海量的数据交换,对网络链路的可靠性提出了前所未有的要求。任何链路闪断或中断都可能导致AI训练任务失败,造成巨大的时间和资源浪费。然而,光模块的成本与可靠性瓶颈以及大规模集群中链路数量的激增,使得已有技术难以满足新型智算本白皮书面向新型智算中心逐渐以承载AI业务为主的演进诉求,提出FlexLane链路高可靠技术构想。该技术基于高速接口多通道架构的现状,打破原有固定组合,引入灵活多通道架构,通过降速运行实时有效的规避任何通道发生的故障,将链路可靠性提升万倍以上(助力AI网络互联可靠性超越5个9),保障AI训练和推理业务不受影响。FlexLane技术支持在现有设备上通过软件升级快速部署,或升级硬件实现更优的性能,同时可支持主动降速,在链路轻载和空闲期间动态节能,为智算中心提供灵活、经济、高效的可靠性保障。本白皮书旨在提出中国移动及产业合作伙伴对以太网链路高可靠FlexLane技术的愿景、架构设计和能力要求。希望能够为产业在规划设计智算中心网络、网络互联高可靠相关技术、产品和解决方案时提供参考和指引。本白皮书由中国移动通信有限公司研究院主编,中国信息通信研究院、清华大学、北京邮电大学、华为技术有限公司、中兴通讯有限公司、上海橙科微电子科技有限公司、新华三技术有限公司、锐捷网络股份有限公司、苏州盛科通信股份有限公司、朗美通通讯技术(深圳)有限公司、武汉光迅科技股份有限公司、思博伦通信科技(北京有限公司)、集益威半导体(上海)有限公司、成都新易盛通信技术股份有限公司、索尔思光电、武汉华工正源光子技术有限公司、上海云脉芯联科技有限公司联合编撰。本白皮书不包含我国科技发展战略、方针、政策、计划等敏感信息。不包含涉密项目的背景、研制目标、路线和过程,敏感领域资源、数据,关键技术诀窍、参数和工艺信息。本白皮书的版权归中国移动所有,未经授权,任何单位或个人不得复制或拷贝本建议之部分或全部内容。 中心AI业务对可靠性的需求。 目录1背景与需求.......................................................12FlexLane技术架构................................................62.1技术目标.....................................................62.2设计原则.....................................................62.2.1兼容性原则............................................62.2.2一致性原则............................................62.3技术架构.....................................................63FlexLane关键技术................................................83.1故障隔离.....................................................83.1.1软件升级..............................................93.1.2硬件演进.............................................103.1.3技术效果.............................................133.2故障预防....................................................143.3动态节能....................................................154应用场景........................................................164.1智算中心....................................................164.2智算中心互联................................................175总结与展望......................................................19缩略语列表........................................................20参考文献..........................................................21 1背景与需求近年来,人工智能(AI)技术取得了突破性进展,特别是以ChatGPT、Deepseek为代表的大语言模型(LLM)的兴起,标志着AI进入了一个全新的发展阶段。大模型通常拥有数千亿甚至万亿的参数,中小模型通常也有十亿参数以上,需要海量的算力进行训练和推理。为满足庞大的算力需求,智算中心作为AI发展的新型基础设施底座,正加速在全球范围内建设和部署。图1-1传统数据中心与新型智算中心流量模型对比传统数据中心主要承载企业级应用,提供云服务,如Web应用、数据库、存储等。如图1-1所示,这些应用的流量模式以南北向通讯为主,网络的主要任务是保证客户能够及时可靠访问服务器,以及服务器能够快速可靠响应客户请求。用户通过𝐀跳入云,每跳链路的可靠性为𝐀,则业务端到端可靠性为𝐀=𝐀=1𝐀∁𝐀𝐀×𝐀𝐀×1−𝐀102𝐀𞐀𝐀),单个服务器或链路的故障通常只会影响到部分客户端,影响范围相对有限。新型智算中心主要承载AI训练与推理业务,部署大量服务器协同工作,流量模式与传统数据中心不同,东西向流量特征明显。在这种流量模式下,大量服务器共同承载AI任务并行计算,对网络的可靠性提出了前所未有的挑战。服务器之间逻辑连接的任何一条物理链路发生故障,都会导致数据同步失败,任务中断,造成大量时间和资源的浪费。如果承载AI任务的服务器之间共有𝐀条物理链路,每条链路的可靠性为𝐀,则AI训练任务的可靠性为𝐀=1FIT:FailureinTimeof109hours,在109小时中发生故障的次数[1]。 1𝐀−𝐀≈𝐀×𝐀(𝐀= 200𝐀𞐀𝐀1,𝐀= 3时,𝐀×𝐀≈6×𝐀=1𝐀∁𝐀𝐀×𝐀𝐀×1− 2𝐀𝐀−𝐀≈𝐀×𝐀(𝐀= 200𝐀𞐀𝐀,万卡集群无收敛组网𝐀= 15360时,𝐀×𝐀≈3×106𝐀𞐀𝐀),和传统DC业务的可靠性比较,端到端的可靠性下降数千倍以上。根据MetaLLama3.1万卡集群公开的论文[2],LLama3.1在为期54天的训练期间共发生466次故障中断,其中GPU、网络互联和主机等故障占比靠前,其中因网络设备和线缆问题造成网络互联故障共35次。光互联链路在带宽、延迟、传输距离等方面具备较大优势,已在智算中心得到广泛部署,如图1-2所示2。图1-2智算中心互联光链路类型主流高速接口400G/200G光模块年失效率超0.2%,千卡以上集群平均每年发生数十次光模块故障事件。除了器件失效,设备侧或配线架光纤端面脏污也会引发链路闪断[4],如图1-3所示。2常见多模或单模光模块常为多通道架构,每通道含CDR(时钟数据恢复,ClockandDataRecovery),DSP(数据信号处理器,DigitalSignalProcessor)以及激光器等元器件。 3链路发生中断或闪断故障会对AI训练和推理业务产生诸多影响[5-8],主要体现在AI训练的效率、稳定性和结果准确性,同时也威胁到AI推理的可用性、实时性和可靠性。根据业界当前情况,链路故障可能会导致小时级的业务中断。IEEE802.3标准以太网[9]面向接口性能最优设计,单一物理通道故障则整条高速链路失效。一个含𝐀个物理通道的标准高速接口故障的概率为:𝐀𝐀𠰀𝐀𧀀=𝐀=1𝐀∁𝐀𝐀×1−𝐀𝐀🰀𝐀𣠀𝐀−𝐀×𝐀𝐀🰀𝐀𣠀𝐀≈𝐀×𝐀𝐀🰀𝐀𣠀。典型的单通道光模块可靠性𝐀𝐀🰀𝐀𣠀约为100~500𝐀𞐀𝐀[1],则双通道光模块的标准接口(𝐀= 2,𝐀𝐀🰀𝐀𣠀= 100𝐀𞐀𝐀)可靠性(1小时内发生故障的概率)为:𝐀𝐀𠰀𝐀𧀀≈𝐀×𝐀𝐀🰀𝐀𣠀= 2×100×1×10−9= 2×10−7标准接口下的双通道光模块链路在一小时中发生故障的概率为:𝐀𝐀𝐀𝐀𥠀=𝐀=12∁2𝐀×1−𝐀𝐀𠰀𝐀𧀀2−𝐀×𝐀𝐀𠰀𝐀𧀀𝐀≈2×𝐀𝐀𠰀𝐀𧀀=2×2×10−7= 4×10−7, 4如图1-4所示,一个典型的万卡集群无收敛组网,(GPU总数为10240,高速互联链路总数M为15360条),组网中任一链路发生故障会导致网络故障,每小时全网发生故障的概率为:𝐀𝐀𣠀𧀀𤠀𠰀𝐀𥠀=𝐀=1𝐀∁𝐀𝐀×1−𝐀𝐀𝐀𝐀𥠀𝐀−𝐀×𝐀𝐀𝐀𝐀𥠀𝐀≈𝐀×𝐀𝐀𝐀𝐀𥠀= 15360×4×10−7= 6.14×10−3根据当前常见大模型披露的训练时间3,如表1-1所示,在一个万卡集群内,使用标准接口进行大模型训练,过程中发生链路故障的次数约为2~22次,无法满足新型智算中心AI业务零中断新需求。表1-1使用标准接口进行AI大模型训练期间发生链路故障次数接口类型𝐀𝐀𝐀𝐀𝐀𝐀𝐀𞐀_𝐀𣠀𧀀𤠀𠰀𝐀𥠀4𝐀𧀀𝐀🰀𝐀𝐀𝐀𝐀𝐀𝐀5(hour)𝐀𝐀𝐀𝐀𥠀_𝐀🰀𝐀𝐀6标准接口1536010240约80%(典型值)334.48(Deepseek-R1)2.10839.80(LLama3.370B)5.163700.00(LLama3.1405B)22.71有多种路径可以实现AI业务零中断。就提升光链路可靠性而言,可以在服务器与交换机、交换机与交换机之间广泛部署LAG冗余技术,链路可靠性可提升千倍(光模块年失效率0.4%,光链路年失效率0.8%,LAG链路年失效率0.0016%)。3DeepSeekAI官方披露是278.8万个H800小时,LLama3.370B的训练时间是700万个H100小时,LLama3.1405B是训练了3084万个H100小时[10]。4𝐀𝐀𞐀_𝐀𠐀𝐀𤠀𝐀𨐀𝐀:AI集群网络并行计算线性度。5𝐀𝐀𨐀𝐀𧰀𝐀𝐀𧰀𝐀𝐀:万卡AI集群网络完成一次大模型训练的时间,𝐀𝐀𨐀𝐀𧰀𝐀𝐀𧰀𝐀𝐀=𝐀𝐀𣠀𣠀𝐀𝐀𞠀𝐀×𝐀𝐀𞐀_𝐀𠐀𝐀𤠀𝐀𨐀𝐀。6𝐀𣠀𧰀𝐀𝐀_𝐀𝐀𧰀𣠀:万卡AI集群完成一次大模型训练过程中发生链路故障的次数,𝐀𣠀𧰀𝐀𝐀_𝐀𝐀𧰀𣠀=𝐀_𝐀𨐀𝐀𧰀𝐀𝐀𧰀𝐀𝐀×𝐀𝐀𠐀𝐀𤠀𝐀𨐀𝐀 5就高速光链路自身而言,单通道失效(器件失效、脏污)占比大,单通道失效阻塞整条链路,资源严重浪费。业界亟需探索新的可靠机制,支持抗单通道或少数通道故障,保障AI任务继续运行。针对上述新型智算中心高可靠承载AI业务的诉求,中国移动联合业界合作伙伴提出弹性容错FlexLane技术方案,在物理层引入灵活多通道架构,打破原有高速接口与物理通道的固定组合,在单通道或少数通道故障情况下,通过隔离任何故障通道降速工作,可有效提升链路可靠性百万倍以上,确保AI任务不因网络互联故障而中断。本白皮书的发布有望推动FlexLane技术的产业共识、技术成熟与商用落地