您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国移动研究院]:统一的以太无损网络测试技术白皮书(2020) - 发现报告
当前位置:首页/行业研究/报告详情/

统一的以太无损网络测试技术白皮书(2020)

统一的以太无损网络测试技术白皮书(2020)

1 统一的以太无损网络 测试技术白皮书 (2020年) 中国移动通信有限公司研究院 随着近年高性能计算、存储和人工智能等技术的高速发展,伴随着应用和介质性能的大幅提升,网络的性能已经逐渐成为制约应用和系统性能进一步提升的重要瓶颈,通过以太无损网络技术发展来提升特定应用场景下的网络性能已成为业界共识。而在该领域,测试是技术应用、研究以及演进发展必不可少的重要组成部分。 本白皮书旨在针对以太无损网络应用及测试的重点、难点和当前存在的问题,创新性的提出中国移动基于当前开展的测试方法研究和测试仪表,构建的易获得、高精度、标准化的以太无损网络测试技术。希望能够为产业在部署以太无损网络、产品和解决方案时提供参考和技术指引。 本白皮书的版权归中国移动所有,未经授权,任何单位或个人不得复制或拷贝本建议之部分或全部内容。 前 言 中国移动 统一的以太无损网络测试技术白皮书(2020) 1 目 录 1 技术背景 ................................................................ 1 2 中国移动对以太无损网络的需求 ............................................ 3 3 以太无损网络关键技术与测试 .............................................. 6 3.1网络流量控制 ......................................................... 6 3.2以太无损网络测试现状和难点 ........................................... 7 4 统一的以太无损网络测试 ................................................. 10 4.1测试思想变革 ........................................................ 10 4.2关键参数 ............................................................ 11 4.3 RoCE性能指标 ....................................................... 12 4.4通用测试仪表 ........................................................ 17 4.5测试实践 ............................................................ 18 5 结束语 ................................................................. 19 6 缩略语列表 ............................................................. 20 联合编写单位及作者 ......................................................... 22 1 技术背景 为了降低数据中心内部网络延迟,提高处理效率,RDMA技术(Remote Direct Memory Access,远程直接内存访问)的出现为新兴业务系统(如高性能计算HPC、数据库RAC、一体机等)的高效应用提供了新的机遇。RDMA允许用户态的应用程序直接读取和写入远程内存,无需CPU介入多次拷贝内存,并可绕过内核直接向网卡写数据,实现了高吞吐量、超低时延和低CPU开销的效果。 图1 RDMA基本原理 相应地,RDMA技术也对网络性能提出了更高的要求。而传统以太网这种尽力而为转发,容忍拥塞和丢包的特点是无法满足RDMA的性能需要的,因为拥塞和丢包会极大的影响RDMA性能。所以在2015年以前,RDMA技术主要通过Infiniband(IB)网络来承载。基于IB的RDMA无损网络,通过基于credit的链路层流控、简化传输层协议、通过HCA网卡卸载传输层功能等技术手段,可以达到高带宽、低时延和无丢包的高性能网络效果,也因此获得了一定的市场商用。但IB作为高性能专用网络,与以太网完全不兼容,技术小众化导致其网络建设成本和运维成本较高。 如今数据中心的一个重要转变是基础架构的融合,而以太网又是最核心的数据中心网络承载技术,因此将各类专用网络技术与以太网进行融合,降低网络的建设和运维成本是当前数据中心网络发展的重要趋势。随着近年IETF发布DCB(Data Center Bridging)标准,基于RDMA/Infiniband的无损链路得以解决,以太网终于在专有网络领域内拥有了自己的标准,同时也提出了RoCE(RDMA over Converged Ethernet)的概念。经过版本的演进,当前RDMA 2 技术在以太网上的传输协议是RoCEv2。RoCEv2在RoCEv1基础上,将GRH(Global Routing Header)换成UDP Header和IP Header,扩展后的帧结构如图1所示。 图2 RoCEv2帧结构 支持三层路由的RoCEv2使得RDMA技术彻底与以太网实现兼容,以太无损网络应用而生。得益于与数据中心以太网络架构的兼容性,以及较低的TCO(Total Costs of Ownership),以太无损网络已经在微软Azure、亚马逊AWS、阿里云、百度、字节跳动等国内外大型互联网公司获得了大规模商用。 微软是在数据中心大规模部署以太无损网络的第一家HyperScale公司,其为了Azure云环境的低延时网络,在2015-2018年的Sigcomm 会议上发布了大量的论文来介绍以太无损网络在数据中心的部署。国内阿里云从2016年起投入专项研究以太无损网络,从网卡底层设计开始提升传输性能,使得服务器集群极大地突破了传输速度瓶颈,并将时延显著降低90%。以2019年天猫双11为例,基于以太无损网络技术的云存储和电商数据库服务器可以从容地应对峰值流量考验。而百度则建设了国内最大的以太无损网络,集群总体规模达到600台,用于承载了深度学习、语音识别和自然语言处理等人工智能系统相关的机器学习任务。 3 2 中国移动对以太无损网络的需求 2017年以来,越来越多的高性能应用与各类业务系统的结合愈发紧密。例如在中国移动的IT线条,IT私有云资源池、计费账务、BOSS、经营分析和用户关系管理(CRM)等重要的业务支撑系统均开始大规模应用分布式存储、一体机、数据库RAC、大数据和人工智能等技术。一方面这些高性能技术,例如内存数据库,使用内存分布数据的大数据运算大幅度提高了应用的响应速度,特别是通过RDMA技术,大幅降低了应用在服务器内的传输时延;另一方面越来越高的硬件介质性能,比如应用全闪存磁盘、NVMe接口的存储系统、使用高性能GPU的服务器等,也极大的提高了存储和计算的系统性能,这些最终导致网络已经成为了制约应用系统整体性能提升的瓶颈。 以这两年在中国移动规模商用的分布式存储为例,在以HDD为主的分布式存储体系内网络时延并不突出,介质时延占据了总体时延的90%。而要提高分布式存储系统的IOPS性能,通常只有通过提升系统并行度和降低单次IO时延两种手段。对于一定的分布式架构,系统并行度又是固定的,使得降低单次IO时延成为了提高系统性能的主要手段。为了提高分布式系统的性能,高性能的SSD闪存占据了越来越多的市场,而随着NVMe这种高性能存储接口的出现,数据表明网络时延占到了整体时延的65%,成为了系统整体性能提升的最大瓶颈。而降低网络时延,过去往往更注重网络设备的静态转发时延,然而实际情况是由拥塞和丢包带来的动态时延会极大的恶化网络的性能,而这种拥塞和丢包在高性能应用场景又是非常常见甚至无法避免的。 图3 存储网络时延影响和组成 4 以人工智能场景TensorFlow PS架构的AI训练系统为例,网络流量模型存在着周期性的“多打一”爆发式的流量,而对于传统以太网来说,大流量的“多打一”显然会导致拥塞和丢包,而一旦产生拥塞和丢包就会极大的降低整个系统的性能。对于这种拥塞和丢包,是由于其架构和传输模式本身决定的,无法通过网络扩容解决。 图4 TensorFlow PS架构流量示例 为了满足高性能应用的网络性能需求,中国移动已开始逐步引入基于RoCE的以太无损网络。使用以太无损网络一方面能提高系统的整体性能,提高了单位硬件投资的性能收益,使得能够以更少的投资获得更高的性能收益。比如以前系统需要100个节点才能满足业务性能的需求,那么假设使用以太无损网络后单节点性能平均提高20%,那么我们只需要80个节点左右就能达成目标,既大幅减少了硬件投资需求,也降低了建设和运维成本。 图5 传统以太网与无损网络性能对比 另一方面,过去为了收获计算的低时延、存储的无丢包和网络的低成本,需要在计算、存储和网络分别使用IB、FC和以太技术建立三张网,并且每张网都需要不同技术背景的工程师单独维护。而在引入以太无损网络,后续逐步实现网络融合以后,可以统一使用以太无损网络来连接计算、存储和网络,既 5 能降低网络复杂度和运维成本,又能在5G时代做到云网融合,提高业务的拉通效率。 图6 独立组网与融合网络对比 6 3 以太无损网络关键技术与测试 3.1网络流量控制 当前基于RoCEv2的以太无损网络,采用的是基于无连接协议的UDP传输协议。相比面向连接的TCP协议,UDP协议更加快速、占用CPU资源更少,但其不像TCP协议那样有滑动窗口、确认应答等机制来实现可靠传输,一旦出现丢包,依靠上层应用检查重传,会大大降低RDMA的传输效率。所以要想发挥出RDMA真正的性能,突破数据中心大规模分布式系统的网络性能瓶颈,关键就是解决网络拥塞。 为了实现端到端的无损转发,避免因为拥塞导致交换机缓存溢出而引发的数据包丢失,网络必须引入流量控制相关技术,通过对链路上流量的控制,减少对交换机缓存的压力,来规避丢包的产生。目前主流的流控技术包括PFC、ECN和DCQCN等,这些技术往往需要结合使用,才能更好的达到流量控制的效果。 PFC(Priority based Flow Control)是在交换机入口(ingress port)发起的拥塞管理机制。在通常无拥塞情况下,交换机的入口buffer不需要存储数据。当交换机出口(egress port)的 buffer 达到一定的阈值时,交换机的入口buffer开始积累,当入口buffer达到我们设定的阈值时,交换机入口开始主动的迫使它的上级端口降速。由于 PFC 是基于优先级的控制,所以这种反压可能导致同样优先级的应用都受到影响。如图7所示。 图7 PFC示意图 ECN(Explicit Congestion Notification)是在交换机出口(egress port)发起的拥塞控制机制。当交换机的出口buffer 达到我们设定的阈值时,交换机会改变数据包头中的ECN位来给数据打上ECN标签,当带ECN标签的数据到达接收端以后,接收端会生成CNP(Congestion Notification Packet)并将它发送给发送端,CNP包含了导致拥塞的flow或QP的信息,当接收端收到CNP 后,会采取措施降低发送速度。可见 ECN 是基于TCP flow或RDMA QP的 7 拥塞控制机制,它只对导致拥塞的flow或QP起作用,不会影响到其他的应用。如图8所示。 图8 ECN示意图 总的来说,ECN技术能够对于拥塞流量进行精确标记以便于精

你可能感兴趣

hot

以太无损网络测试方法学(2020)

信息技术
中国移动研究院2020-10-16
hot

超融合数据中心网络无损以太场景等级测评规范2021

信息技术
开放数据中心委员会2021-09-15
hot

数据中心智能无损网络白皮书

开放数据中心委员会2021-09-15
hot

网络仿真测试能力白皮书

数世咨询2022-04-24
hot

B 下一代以太网络技术需求白皮书

信息技术
开放数据中心委员会2022-09-14