AI智能总结
版权声明 ODCC(开放数据中心委员会)发布的各项成果,受《著作权法》保护,编制单位共同享有著作权。 转载、摘编或利用其它方式使用ODCC成果中的文字或者观点的,应注明来源:“开放数据中心委员会ODCC”。 对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC及有关单位将追究其法律责任,感谢各单位的配合与支持。 编写团队 项目经理:杨凯上海合见工业软件集团有限公司工作组长:何泽坤腾讯科技(深圳)有限公司贡献专家:夏寅贲腾讯科技(深圳)有限公司张潍丰腾讯科技(深圳)有限公司尚浩然腾讯科技(深圳)有限公司王少鹏中国信息通信研究院孙聪中国信息通信研究院齐一健上海合见工业软件集团有限公司何志阔上海合见工业软件集团有限公司孙杰上海合见工业软件集团有限公司谭艳上海合见工业软件集团有限公司甘春闰上海合见工业软件集团有限公司文韬上海合见工业软件集团有限公司戚聪上海合见工业软件集团有限公司王任重上海合见工业软件集团有限公司侯旺林上海合见工业软件集团有限公司许永琦上海合见工业软件集团有限公司 前言 本测试报告依据《ETH-XScaleUp互联协议规范》,通过原型验证平台,完整实现了ETH-X事务层,链路层,物理层的协议,与国内先进交换机通过400G接口进行组网,测试了PAXIPRI增强承载在典型场景下的可行性和性能指标。报告包含了组网连通性、交换机转发性能、DirectAccess性能、DirectCopy性能以及MOE通信性能多种类型测试,初步验证了该协议在转发时延、端到端通信时延、有效吞吐等关键指标方面能够满足scale-up网络通信需求,为后续工程优化与部署提供参考。 目录 一、测试背景......................................................1二、测试目标和范围................................................1三、术语和缩略语..................................................2四、测试环境和方法................................................3五、组网连通性测试................................................4(一)端到端RoCEv2报文收发..................................5(二)端到端PAXI报文收发....................................6六、转发性能测试..................................................7(一)报文转发时延...........................................8七、DirectAccess性能测试.........................................9(一)报文承载效率..........................................101.RoCEv2报文承载效率......................................102.ETH-XPAXIPRI增强报文承载效率..........................12(二)单事务响应时延........................................141.PAXIPRI增强承载写操作时延..............................142.PAXIPRI增强承载读操作时延..............................15(三)访存队列有效吞吐......................................161.PAXIPRI增强承载写操作有效吞吐..........................162.PAXIPRI增强承载读操作有效吞吐..........................18八、DirectCopy性能测试..........................................20(一)HBM间数据拷贝吞吐....................................201.RoCEv2有效吞吐..........................................202.PAXIPRI增强承载有效吞吐................................21九、MOE通信性能测试..............................................23(一)Dispatch通信完成时间.................................231.RoCEv2通信完成时间......................................232.PAXIPRI增强承载通信完成时间............................24(二)Combine通信完成时间..................................26 1.RoCEv2通信完成时间......................................262.PAXIPRI增强承载通信完成时间............................27(三)AlltoAll通信性能.....................................281.RoCEv2通信性能..........................................282.PAXIPRI增强承载通信性能................................29 图目录 图1测试组网环境..............................................3图2原型验证平台..............................................4图3 RDMA工作计时模型.........................................4图4转发时延计算..............................................8 一、测试背景 随着人工智能(AI)模型规模持续扩展,尤其是在大规模训练和推理场景中,计算集群内部的互联性能已经成为影响整体系统效率和可扩展性的关键因素。ETH-X项目制定了《ETH-XScaleUp互联协议规范》,该互联协议面向超节点架构,提供高吞吐、低时延的高性能互联能力,实现GPU之间的高效数据访问,满足对数据传输效率和系统扩展性有严格要求的场景需求。 本测试报告依据《ETH-XScaleUp互联协议规范》,围绕协议核心能力开展测试,验证其在典型场景下的可行性和性能优势,为后续工程优化与部署提供支撑。 二、测试目标和范围 本测试报告聚焦于ETH-XScaleup协议(PAXI+PRI)关键能力验证与性能评估,重点覆盖通信时延、吞吐性能等核心指标。测试过程中,引入主流传统互联技术RoCEv2作为对比基线,采用对比分析的方法,初步验证该协议在关键性能指标方面的先进性与技术可行性。 测试结果将为协议的后续功能优化、标准化推进及工程部署提供量化的数据支持和技术参考。 本次测试覆盖了从基础连接能力到典型通信场景,包含组网连通性测试、转发性能测试、DirectAccess性能测试、DirectCopy性能测试以及MOE通信性能测试。 1)组网连通性测试:验证在基本组网下,节点间可以通过 RDMA或PAXI协议实现互联互通。 2)转发性能测试:验证交换机在不同负载下,均具备极低时延转发能力满足scaleup域端到端时延要求 3)DirectAccess性能测试:验证加速器远端高效访存能力,包括报文承载效率、指令级事务响应时延以及访存队列有效吞吐 4)DirectCopy性能测试:验证高吞吐的大批量数据数据搬移能力,支持HBM间数据拷贝 5)MOE通信性能测试:验证在MoE模型架构下的一对多、多对一及多对多通信能力,以满足MOE在不同阶段的通信需求 三、术语和缩略语 RDMA:远程直接内存访问(RemoteDirectMemoryAccess) RC:可靠连接(ReliableConnection) QP:队列对(QueuePair) CQE:完成队列元素(CompletionQueueElement) WQE:工作队列元素(WorkQueueElement) RoCEv2:RDMAoverConvergedEthernetversion2 AXI:高级可扩展接口(AdvancedeXtensibleInterface) PAXI:Peer-to-PeerAXI(参见《ETH-XScaleUp互联协议规范》) MOE:专家混合模型(MixtureofExperts) PRI:报文速率提升(PacketRateImprovement) FCT:流完成时间(FlowControlTime) 四、测试环境和方法 本测试组网如图1所示,由1台交换机,4台主机原型组成。 交换机为高性能以太交换机,整机容量为51.2T,支持128个400G高速端口,具备低时延转发能力,可满足scale-up域内互联需求。 主机原型为合见工软验证平台,支持高性能网络协议栈,包括当前 数 据 中 心 网 络 广 泛 使 用 的RoCEv2协 议 , 以 及 适 用 于ETH-Xscale-up网络的PAXI+PRI协议。4台主机原型各自通过一个400G端口与交换机相连,可用来测试一对一、一对多、多对一、多对多不同场景下的通信能力。 以RDMA为例,验证平台(2台主机原型)与交换机连接如图2所示。RDMA作为基线测量时,其SQ,CQ以及数据源、目的地址均在HOST主机内存;测试激励,WQE组织,都由host测试软件产生;RDMA硬 件 可 以 对 整 体 工 作 时 间 提 供 计 时 , 用于dispatch,combine,all2all等模拟场景的工作时间进行评估。RDMA单次操作的工作计时模型如图3所示。 验证平台支持PAXI功能,整体架构与RDMA功能模块相似,但使用硬件激励收发器进行测试。 五、组网连通性测试 ETH-X定义了涵盖物理层、数据链路层、事务层的全栈互联协议,支持高吞吐低时延的PAXI访存协议,以及数据链路层PRI增强承载。 组网连通性测试分别测试基于RDMA的标准RoCEv2报文互通,和基于PAXI的ETH-X报文互通,验证测试系统端到端报文封装、转发和解析能力,满足协议互通性,是后续测试的基础。 (一)端到端RoCEv2报文收发 (二)端到端ETH-X PAXI报文收发 六、转发性能测试 在Scale-up域中,算力引擎之间的互联需具备大带宽和低时延特性,以支撑高效的数据交互与协同计算。尤其对于时延敏感的事务操作,如load、store指令,端到端时延直接影响算力引擎的同步操作的完成效率,从而影响整体计算性能。端到端时延由端侧IO时延、光模块时延、光纤时延以及交换机转发时延组成。单跳组网下,端到端RTT时延<2us是scaleup互联的主流要求。 Eth-XScale-up端侧PAXI具备极低协议延迟,单向收发<200ns(参见第七章(二)),在交换机转发时延<480ns情况下,即可满足端到端RTT<2us的需求,如图2所示,其中标准400G光模块TX+RX 收发时延约为110ns,光纤长度可支持10m。转发性能测试主要验证交换机转发时延性能能够满足上述要求。 (一)报文转发时延 到的过交换机RTT