AI智能总结
版权声明 本白皮书版权属于中国移动通信集团公司、中国信息通信研究院并受法律保护。转载、摘编或利用其他方式使用本白皮书内容或观点,请注明:“来源:数据中心高性能网络拥塞检测技术白皮书”。违反上述声明者,编者将追究其相关法律责任。 编写组 II项目经理:赵兴华中国移动云能力中心工作组长:王超阿里云计算有限公司贡献专家:徐军中国移动云能力中心刘军卫中国移动云能力中心姚军中国移动云能力中心孟令坤中国移动云能力中心王东旭中国移动云能力中心张胜举中国移动云能力中心孙伟云脉芯连科技有限公司张久仙中国移动云能力中心季忠铭中国移动云能力中心许治国中国移动云能力中心潘训营中国移动云能力中心史成龙中国移动云能力中心陈继磊中国移动云能力中心杨亚军中国移动云能力中心王晓辉中国移动云能力中心郝泉澄中国移动云能力中心薛迁中国移动云能力中心徐军中国移动云能力中心 目录 版权声明...........................................................I编写组............................................................II术语与缩略语......................................................VI前言.............................................................1 一、高性能网络的机遇与挑战........................................3 (一)应用背景与现状...........................................41.分布式储存场景..........................................42.内存池化场景............................................63.键值存储场景............................................74.智能算力场景............................................9 (二)高性能网络拥堵问题与挑战................................10 (一)拥塞控制技术............................................131.基于ECN的拥塞控制.....................................142.基于时延的拥塞控制.....................................143.基于INT的拥塞控制.....................................154.其他技术方案...........................................165.拥塞控制总结...........................................18 4.链路控制总结...........................................26(三)负载均衡技术............................................271.流级别.................................................272.包级别.................................................293.Flowlet级别............................................294.负载均衡总结...........................................30(四)流量调度技术............................................311.基于规则的调度技术.....................................322.基于反馈的实时调度.....................................343.流量调度总结...........................................34(五)本章小结................................................35 三、高性能网络拥塞检测技术.......................................36 四、总结与展望...................................................50参考文献..........................................................52 术语与缩略语 前言 《“十四五”数字经济发展规划》中指出数字经济是继农业经济、工业经济之后的主要经济形态,是以数据资源为关键要素,以现代信息网络为主要载体,以信息通信技术融合应用、全要素数字化转型为重要推动力,促进公平与效率更加统一的新经济形态。 随着数字经济的持续发展,算力需求呈爆发性增长,逐步成为新时代的核心生产力。算力的发展带动了网络的变革,构建了高效、灵活、敏捷的数据中心网络新型基础设施,成为算力网络驱动和演进的关键。 远程直接内存访问(RemoteDirect MemoryAccess,RDMA)网络是一种高性能网络传输技术。通过绕过操作系统内核,RDMA可以直接在网络适配器和内存之间传送数据,从而减少了数据传输过程带来的延迟和CPU开销,提高了数据传输的效率和吞吐量。近年来,高性能网络广泛应用于高性能计算、云计算、大数据处理等领域,成为当下网络领域的研究热点之一。 高性能网络的重要性在于,为各种应用提供了快速、可靠、安全的数据传输能力,并将数据中心、云计算和大数据处理等领域的计算资源、存储资源和网络资源紧密结合,提高了整个系统的效率和性能。同时,高性能网络还可以支持更多的应用和服务,促进了科学研究、产业发展和社会进步。因此,高性能网络的发展和研究是当前网络领域的重要方向。 本白皮书通过阐明和分析高性能网络技术发展的过程与现状,以网络拥塞这一关键问题展开详述当前业界拥塞管理控制技术的架构体系,并聚焦拥塞管理控制过程中面临不同需求所产生的拥塞检测机制。本白皮书旨在通过对拥塞检测技术的研究,推动高性能网络技术的深入发展、生态链建设和产业落地。 一、高性能网络的机遇与挑战 在需求端强力驱使下,过去的10年中,数据中心网络链路传输带宽经历了从1Gbps到100Gbps的快速增长,并且这一增长趋势仍在持续。因此,作为未来数据中心服务的提供者,云计算厂商面临着越来越严苛的数据中心网络建设需求。 目前,传统数据中心应用的TCP/IP网络已经难以高效地满足新的需求。一方面,快速膨胀的链路速率导致了极高的CPU占用率,每增加一个用于TCP网络传输的CPU资源意味着云计算厂商能够出售的虚拟机减少了一个,这将降低整体的经济效益。另一方面,机器学习、搜索等业务所要求的超低的网络延迟(低于10 us/跳),传统的TCP/IP协议的性能是很难达到的。 为解决这一问题,远程直接内存获取(Remote Direct MemoryAccess,RDMA)技术开始逐渐广泛地应用于数据中心网络中(本文提及的RDMA无损网络针对更广泛应用的以太网络,如无特殊声明,适用协议为RoCEv2)。 相较于传统的TCP/IP,RDMA有着如下的优势: 1)降低了CPU占用率。数据传输过程不再需要CPU的持续介入,而是通过硬件卸载的形式完成数据传输。 2)降低了传输时延,避免了数据拷贝过程中频繁的用户态和内核态切换。因此,通过硬件卸载、内核旁路,RDMA完成了数据传输和计算的解耦,从而实现高效的并行计算处理。 正因为以上的技术优势,高性能网络已经成为云计算领域应用广泛核心基础设施之一。据公开文献[1]显示,在微软Azure存储集群中,RDMA流量已经占据了超过一半的比例。在可以预见的未来,高性能网络技术都将作为云计算领域的核心基础设施之一,深刻地影响数据中心技术格局。 (一)应用背景与现状 随着云计算技术的发展,高性能网络的应用场景日益增多。本节主要从分布式云存储、内存池化、键值存储、智算中心四个方向的应用,对高性能网络的应用场景和应用现状进行概述。 1.分布式储存场景 分布式存储是云计算中的一个核心应用。各家云厂商都会提供高达百万输入/输出操作每秒(IOPS)的高性能存储实例,旨在满足对性能要求极高的应用场景。 由于百万IOPS云硬盘需要同时处理大量的读取和写入请求,这就要求了网络要提供极高的吞吐量和极低的响应时间。因此,主流云厂商普遍选择RDMA作为高性能分布式存储的网络解决方案,如公开文献中阿里云、微软云等关于分布式云存储的工作[1],[2]。 阿里云EBS云存储中应用的阿里自研网络协议栈Solar[3],对云存储IO延迟进行了全面优化。论文中给出了EBS产品详细的网络延迟性能测评。图3中的数据为阿里云超过10万个计算节点一周时间的测试结果。在图中,Kernal是传统的TCP/IP协议,Luna是用户态加速协议栈,Solar是阿里自研的RDMA网络,FN是计算是存储的前端网络,BN是存储集群后端网络,SSD是落盘网络,SA是阿里自研的SPDK软件。该实验很好的对比了内核态、用户态、RDMA对于存储业务的影响。可以看到,整体IO延迟性能上,Solar RDMA 协议有明显的优势。同时,RDMA网络协议栈还在很大程度上改善了整个网络的长尾时延问题,性能实现了数量级的提升。 2.内存池化场景 现有的数据中心是通过服务器构建的,每个服务器紧密集成了计算任务所需的各种资源(CPU、内存、存储)。虽然这种以服务器为中心的架构已经持续使用了几十年,但最近的研究表明,未来即将出现一种向分解式数据中心(Disaggregated Datacenter,DDC)转变的范式。其中,每种资源类型都作为独立的资源池进行构建,而网络结构则用于连接这些资源池[4]。 资源池化的一个关键的促进(或阻碍)因素将是网络。因为将CPU与内存、磁盘分解开来,原本需要在服务器内部进行的资源间通信,而现在必须通过网络进行。因此,为了支持良好的应用级性能,网络结构必须提供低延迟的通信以应对这种负载更大的情况。 因此,RDMA高性能网络作为一个解决方案在内存池化的场景已经有广泛的研究[5],[6]。RDMA有效地提升了内存池化数据中心的效率。尽管没有完全解决资源池化场景的网络互连问题,但其仍然是未来分布式数据中心的一个有力的网络技术方案。 3.键值存储场景 键值存储(Key-ValueStore)是一种数据存储方法,它以键值对(Key-Value Pair)的形式存储和访问数据。与传统的关系型数据库相比,键值存储通常更加简单、灵活、高效,并且可以处理更大规模的数据。键值存储不要求数据具有固定的结构和模式,因此 可以轻松地存储和检索各种类型的数据。键值存储还支持高度可扩展性和分布式部署,可以轻松地在多个节点上进行水平扩展和数据复制以提高性能和可靠性。 在常见应用中,Redis就是一种流行的键值存储系统。它支持多种数据类型,包括字符串、哈希、列表、集合和有序集合等。与关系型数据库不同,Redis不支持复杂的SQL查询语句,而是提供了一组简单的操作命令,如GET、SET、INCR、DECR、LPUSH、RPUSH、SADD、SMEMBERS等,以实现键值对的读写和操作。 然而,在键值存储中,CPU是一个显而易见的性能瓶颈。而RDMA技术通过绕过内核的方式直接访问内存,这能够保证CPU资源的高效利用。因此,RDMA