AI智能总结
编者按编者按 AI时代的网络是智能世界的基石。在AI技术迅猛发展的今天,网络作为AI基础设施的核心组成部分,日益展现出其不可或缺的重要性。Scaling Law驱动AI集群算力规模持续扩展,AI集群的线性度、可用度面临巨大挑战,进而对网络的带宽、时延、规模和可用度等都提出了新的要求。每一次AI的重大突破,都离不开高效、智能且可靠的网络支持。本期《华为研究》聚焦于AI时代背景下网络技术的创新与演进,围绕传输层技术、网络均衡、通算融合、集合通信、网络拓扑、互联与接口等多项核心议题,探讨如何构建面向未来的智能网络,为智能世界的实现提供坚实的技术支撑。 传输层技术是AI数据流动的命脉,在AI训练和推理网络中极为重要。如何保证传输层的高吞吐、低流完成时间(FlowCompletion Time,FCT)是关键课题。《传输层数控分离DCP技术体系》在深入研究“有损”和“无损”两大技术路线后,提出了“数控分离、控制面无损、数据面有损”的数控分离(Data Control Partitioning,DCP)技术体系,并对双向概率头部裁剪(CuttingPayload,CP)、可靠保序机制、多路径拥塞控制、细粒度负载均衡等关键技术进行了探讨。 网络均衡是提升资源利用效率的核心。在AI驱动的分布式系统中,网络均衡对资源高效利用至关重要。《智算中心网络负载均衡技术》基于智算中心网络流量特征(流量流数量少、路由熵低、单条流量大且因集合通信算子实现方案不同呈现多种阶段性),从负载均衡粒度角度出发,针对树形拓扑下哈希不均问题提出算网协同时空均衡NSLB(Network Service Load Balancing)和逐包均衡方案,并通过测试验证方案有效性。 通算融合推动网络与计算的深度融合,是AI时代网络发展的重要方向,旨在实现“网络即计算”的愿景。《AI大模型训练网存算融合技术研究》总结AI训练系统优化工作,洞察大模型负载特征和集群计算效率下降原因,提出网存算融合优化创新思路和技术,探讨未来One-Giant-NPU创新探索,提出统一多NPU编程范式概念,以实现系统性能近线性扩展并提高兼容性及可维护性。 集合通信是加速AI训练的引擎,是大规模AI训练和高性能计算的关键技术。随着AI大模型的兴起,其在训练和推理通信中的作用日益重要。面对AI大模型训练中参数量和序列长度指数增长的挑战,提升端到端集合通信效率、降低不可掩盖通信占比、提升算效成为业界研究热点。集合通信性能受模型切分布放、算法选择和网络传输效率影响。《AI大模型时代的集合通信研究》重点介绍了集合通信算法设计的挑战、业界及华为的实践,并展望了未来研究方向。 网络拓扑的智能设计助力高效通信,直接影响到AI系统的性能和可靠性,而AI为其带来了全新的设计范式。《软件定义数据中心光电混合组网研究》探讨了AI业务发展下,传统电交换组网架构遇到的成本、能耗等问题,提出光电混合数据中心网络优势及关键技术挑战解决思路。《智算网络拓扑分析与设计概述》分析智算网络多层级结构,重点研究超节点、集群组网设计原则与创新改进,阐述超节点特征。《大规模集群网络路由控制系统》回顾数据中心网络应用转变,针对机器学习、大模型发展下的新需求,提出创新路由控制架构FIRE(Fast-convergence Intent-based Routing Engine)。三篇论文共同为网络拓扑在AI等领域的应用与发展提供深入研究与见解。 互联与接口是实现AI数据高效流动的关键。《AI计算网络中高效智能短距光互联技术探索》介绍了超节点和大型集群网络中光互联模块的多模和单模技术及其进展,阐述光互联技术面临的挑战,并重点探讨高效智能光互联模块的探索。《智能化高速接口》详细给出了高速光模块智能化的具体应用和发展趋势,包括智能故障诊断、灵活降Lane和物理层加密等方面。《探索448G互联技术:需求、架构和关键技术》展望了448G互联技术的需求、演进趋势、架构及关键技术,为构建新一代互联技术框架提供参考。 《提升AI集群网络性价比的探索实践》、《跨AZ分布式AI训练的组网和通信》、《数据驱动网络自闭环在华为云的应用与思考》、《网络流量大模型的构建与应用》、《基于LLM的运维Agent构建与应用实践》等文章从不同角度对AI时代的网络技术及应用进行了思考和阐述,旨在为读者提供多维度的视角和深入的见解。 在AI时代,网络不仅是数据传输的通道,也是计算集群的关键子系统,更是AI Scaling Law得以继续的关键基础设施。网络技术的不断创新为智能世界的实现奠定了坚实基础。我们期待本期《华为研究》能够激发更多关于未来网络技术发展的思考,推动AI与网络的深度融合,共同迈向更加智能的未来。感谢所有作者、专家和合作伙伴的贡献,也感谢读者的关注与支持。让我们携手探索AI时代网络技术的无限可能,迎接更加智能的世界。 王建兵2012实验室网络领域首席技术专家 目录目 录CONTENTS Ө˞ᆑ崖ЯᦊᠫநἻ以ᠠ̔ืюӿՂὉἷያBἸL0240054 传输层技术 主编:廖恒 本期责任主编:王建兵 编委会:廖恒,童文,肖新华,胡邦红,周慧慧,鲍丰,Jeff Xu,陈海波,陆品燕,王建兵,李瑞华,白博 传输层数控分离DCP技术体系 02 索阅、投稿、建议和意见反馈,请联系:HWResearch@huawei.com 曾高雄,张君逸,李文雪,段英杰,任首首,陈哲,陈凯,刘冰洋 网络均衡 印刷数量:4000本印刷单位:雅昌文化(集团)有限公司印刷地址:深圳市南山区深云路19号印刷日期:2025年7月21日 编印单位:华为技术有限公司发送对象:本行业、本系统、本单位 智算中心网络负载均衡技术 11 通算融合 AI大模型训练网存算融合技术研究 涂植鹏,李之尧,周卓珊,张宸,王海博,代良,刘文杰,郑加利,韩俊,郭鹏,王姜奔,王波,肖诗汉 版权所有©2025华为技术有限公司,保留一切权利。 集合通信 左天健,孙德胜,王映辉,张森,王青,尹恒达,向前,丁琪,王建兵 探索448G互联技术:需求、架构和关键技术91陆玉春 综合以及AI for Network 网络拓扑 提升AI集群网络性价比的探索实践104杜文华,陈晖,周轶刚,程中武,李彬轩 跨AZ分布式AI训练的组网和通信114虞子豪,徐安民,唐瑞峰,陈哲 软件定义数据中心光电混合组网研究35孟柯,张博文,董鹏,王伟光,贾希彤,吕倩,黄福光,曹捷 数据驱动网络自闭环在华为云的应用与思考123 智算网络拓扑分析与设计概述45刘少腾,陈祥玉,陈定定,郑晓龙,袁辉 刘向阳,姚振,彭文,谢安,朱夏 网络流量大模型的构建与应用129丁伋堃,吴俊,薛莉,谢于明 基于LLM的运维Agent构建与应用实践137何聪 互联与接口 AI计算网络中高效智能短距光互联技术探索70 传输层数控分离 DCP 技术体系 曾高雄,张君逸,李文雪,段英杰,任首首,陈哲,陈凯,刘冰洋网络技术实验室 的代价支持更长距离。另一方面,在多路径传输性能上,传统的“网络有损”技术路线依赖序列号的乱序或者重发超时(RetransmissionTimeout,RTO)来判断丢包,无法区分丢包和多径乱序,容易造成错误重传或高重传延迟;而DCP控制面无损则提供了精准的丢包反馈信号,解决了多路径传输的二义性问题。此外,DCP可以将控制面信号从数据面通道剥离出来,在拥塞或丢包等恶劣场景,通过快速通道传输,实现更及时的拥塞反馈和控制。 1传输层数控分离架构 随着人工智能(ArtificialIntelligence,AI)大模型的兴起,AI大模型训练对底层的算力底座提出了越来越高的要求。为了最大化AI算力中心的计算效率,网络传输协议成为支撑算力底座的关键技术之一。当前,高性能传输协议基于“网络有损”和“网络无损”的基础假设,分别衍生出了两条技术路线。 本文将围绕以上核心思想,介绍DCP技术体系的系统设计,顺序组织如下:第2节介绍DCP的实现原理,核心技术是网络侧双向概率头部裁剪(CuttingPayload,CP)技术;第3节介绍DCP传输架构,如何在“控制面无损”的基础上,构建可靠传输和保序功能;第4节介绍拥塞控制,在CP信号的加持下,如何感知拥塞并做出快速精准响应;第5节介绍负载均衡机制,如何充分利用网络节点间的多路径实现高吞吐传输。 一方面,网络无损技术路线 [1] 通过交换设备之间的逐跳流控技术,如基于优先级的流控(Priority-basedFlowControl,PFC)等,实现网络无丢包,端侧主机和网卡可以搭配使用极简的传输协议栈。但是,该技术路线为了实现网络无损引入的流控技术会同时带来头阻、死锁等问题;同时要求网络大缓冲(Buffer)以支持更大规模、更长距离的网络,对网络设备的资源和成本开销巨大。 另一方面,网络有损技术路线 [2] 则不再保证网络侧不丢包,把压力完全给到了端侧主机和网卡;通常端侧要求实现复杂的丢包重传技术,如选择性应答(SelectiveACK,SACK)等。随着AI算力中心往更大规模演进,长距和多路径的支持变得尤为重要。由此带来的多路径乱序和丢包二义性问题、二次重传和尾包重传等问题,采用传统可靠性重传技术难以有效应对。此外,端侧网卡将需要更大的缓存(Cache)支持乱序接收,硬件资源和成本开销大。 2双向概率CP 2.1传统CP技术 我们对传输层数控分离技术框架做进一步的定义。通常一个正常的数据报文包含头部和载荷两部分;我们把数据面(DataPlane)定义为数据报文载荷(Payload)的正常转发流程;把控制面(ControlPlane)定义为数据报文头部(Header)和反馈报文(ACK和NACK等)的转发处理流程1。 综上所述,现有“网络无损”和“网络有损”两大技术路线都存在各自不可避免的问题。为此,如图1所示,我们思考是否可以开辟一条新的技术路线,通过传输层的“数控分离(DataControlPartitioning,DCP)”,只要求控制面无损,不保证数据面无损,以极小的网络开销实现极高的传输性能,从而实现两条技术路线的优势互补。 “数控分离”的技术基础是CP技术,业界也称其为报文头部修剪(HeaderTrimming,HT)技术[3, 4]。如图2所示,当网络发生拥塞,常规报文队列将要丢包时,网络设备将100% 触发CP动作:保留控制面头部;丢弃数据面载荷部分;头部再通过高优先级控制队列经严格优先级(StrictPriority,SP)调度发往下游网络。收端收到CP头部再反馈NACK回发端。如此一来,端侧基于头部信息即可判断网络丢包状况,从而以极小的代价实现高可靠传输。 具 体 地, 在 保 证 无 损 方 面, 相 比 于 完 全“ 网 络 无损” 技 术 路 线, 以PFC为 例, 需 要1个 带 宽 时 延 乘 积(Bandwidth-DelayProduct,BDP)的Buffer保证无损,2个BDP的Buffer保 证 满 吞 吐;DCP则 仅 需 保 证 控 制 面的 无 损, 报 文 头 部 只 占 数 据 报 文 的5% 以 内, 对 应 仅 需BDP×5% 大小的Buffer即可保证DCP的控制面无损,从而降低网络侧Buffer开销和功耗、成本压力,同时以更小 关键设计之二是双向CP,即CP信息同时反馈至收发两端。具体地,CP触发动作为:基于概率性CP的条件触发CP动作,丢弃报文载荷部分;修改优先级并标记CP字段为1(1:丢包;0:正常);同时向发端和收端转发CP头部报文。对于正向反馈的CP报文,直接发往下一跳,可以帮助收端快速处理乱序等问题。对于发往发端的反向CP报文,将报文头部的源和目的地址做调换,发往发端口。该方法实现快速反馈,对长距场景收益巨大。 传统CP技术存在诸多问题,难以满足大规模、高性能网络传输的需求。 ●网络队列深和潮汐同步问题。传统CP技术在Buffer溢出前会100% 触发,将导致