您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[开放数据中心委员会]:2023ODCC0500C 网络级DMA(NDMA)技术需求白皮书 - 发现报告

2023ODCC0500C 网络级DMA(NDMA)技术需求白皮书

AI智能总结
查看更多
2023ODCC0500C 网络级DMA(NDMA)技术需求白皮书

版权声明 ODCC(开放数据中心委员会)发布的各项成果,受《著作权法》保护,编制单位共同享有著作权。 转载、摘编或利用其它方式使用ODCC成果中的文字或者观点的,应注明来源:“开放数据中心委员会ODCC”。 对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC及有关单位将追究其法律责任,感谢各单位的配合与支持。 编写组 项目经理: 吕云屏华为技术有限公司工作组长:郭亮中国信息通信研究院贡献专家:吴美希中国信息通信研究院温小振中国信息通信研究院王瑞雪中国移动研究院秦凤伟中国移动研究院盛曦珠海星云智联科技有限公司唐毓虎珠海星云智联科技有限公司黄楚生珠海星云智联科技有限公司王军珠海星云智联科技有限公司何宗应BroadcomInc成伟苏州盛科通信股份有限公司王俊杰苏州盛科通信股份有限公司张君逸华为技术有限公司王巧灵华为技术有限公司庄艳华为技术有限公司 前言 数字化经济时代,全球算力需求急剧增加,算力系统的军备竞争也日益激烈。算力已不仅是一个技术维度的概念,更成为了一种全新的社会生产力,对整个经济社会发挥着越来越重要的作用。HPC超算系统的算力几乎按照摩尔定律在提升,从G级到现在的E级,并正在向10E级演进。AI智算系统在大模型的应用激发下,需要具备千亿甚至万亿、百万亿的参数量处理能力。单个计算机或服务器的处理能力已远远不能满足计算任务的要求,需要在数据中心中部署高性能分布式系统,突破单机算力和存储的限制,提供高并发高可用的计算服务。随着算力需求的增长,分布式系统规模同步扩张,以承载起大规模算力任务的需求。 集合通信被广泛应用于分布式计算/存储系统,应用通过调用集合通信推进计算任务,因此通信的完成效率决定了分布式系统整体的性能上限。集合通信中除了一对一的通信模式外,还包含大量的多对多通信模式,如AI中常见的AllReduce、HPC中调用的Bcast。而业界主流的实现是使用点对点传输,如RDMARC模式,来完成多对多集合通信,这必然带来系统资源浪费、通信性能下降的问题,尤其是在分布式系统通信规模日益扩大的情况下,点对点传输的可扩展性缺陷更加凸显。因此,亟需改进现有支持集合通信的传输机制,从而最优化集合通信效率,提升分布式系统性能。 本研究报告在分析了分布式系统中集合通信特征的基础上,列举了当前业界主要的技术路线以及在大规模系统中面对的关键挑战,提出了面向集合通信的原生传输框架网络级DMA(NDMA)。相对于服务器内DMA技术、本地和远程服务器间RDMA技术,NDMA着重于面向网络中的一组节点进行内存直读、直写操作,通过端网协同机制,将应用的通信逻辑下沉到网络,最优化分布式系统传输性能,在HPC/AI/存储等多种分布式系统场景都具备明确的应用价值。 目录 版权声明........................................................................................................................I编写组...........................................................................................................................II前言...........................................................................................................................III 一、高性能分布式系统承载大规模算力需求..........................................................1(一)全球算力高速增长...................................................................................1(二)分布式系统承载大规模高复杂度算力任务...........................................2(三)通信效率影响分布式系统性能...............................................................4二、分布式系统以多对多集合通信为主..................................................................4(一)什么是集合通信及其原语.......................................................................5(二)分布式系统中集合通信的调用...............................................................6三、大规模集合通信面临性能挑战..........................................................................6(一)集合通信实现现状...................................................................................7(二)高性能传输协议的发展及其挑战...........................................................8(三)在网计算的发展及其挑战......................................................................11四、NDMA应对大规模集合通信需求...................................................................14(一)NDMA概念............................................................................................14(二)NDMA的基本模式和应用价值............................................................151.网络组播及典型应用...............................................................................152.网络聚播及典型应用...............................................................................163.网络任播及典型应用...............................................................................18(三)NDMA技术架构....................................................................................201.整体框架...................................................................................................20 2.关键技术...................................................................................................22(四)NDMA原型验证....................................................................................261.OSUBenchmark验证计算场景MPI_bcast任务完成时间....................262.SPDK验证存储场景IOPS(单位时间完成请求数量)............................27 五、总结和展望........................................................................................................28 网络级DMA技术需求白皮书 一、高性能分布式系统承载大规模算力需求 (一)全球算力高速增长 全球算力的高速增长是当今数字时代的一个显著特征。从最初的单机计算到现在的云计算、分布式计算等技术,全球算力已经达到了惊人的规模。算力已不仅是一个技术维度的概念,更成为了一种全新的社会生产力,对整个经济社会发挥着越来越重要的作用。从图1中看到,人均算力水平和国家的人均GDP强相关,是衡量一个国家一个地区发达程度的重要指标。高算力国家,包括美国、新加 坡 等, 人 均 算 力都在1000GFOLP以上,我国 人 均 算 力在553GFLOPS,与发达国家仍有一定差距。 未来,随着全球智能化进程的加速,人工智能、云计算、大数据等技术持续发展和应用,对于算力的需求更会急剧增大。据统计,全球算力每年以惊人的速度增长,预计到2030年,全球算力规模达到56ZFlops,平均年增速达到65%,其中基础算力达到3.3ZFlops, 平均年增速达27%;智能算力达到52.5ZFlops,平均年增速超过80%;超算算力达到0.2ZFlops,平均年增速超多34%。(数据来源:《中国算力发展指数白皮书(2022年)》) (二)分布式系统承载大规模高复杂度算力任务 算力需求的高速增长,使得算力任务的规模越来越大,复杂度越来越高。 在年增长速度最快的人工智能领域,随着ChatGPT的诞生,AI大模型再次受到业界的关注。AI大模型是指由大量参数组成的深度学习模型,通常包含数百万到数十亿个参数。这些模型可以通过大规模的数据训练,以实现各种复杂的任务,如图像识别、语音识别、自然语言处理等。AI大模型的规模逐年快速增长,如图2所示。2018年GPT-1参数量为1.17亿,2019年GPT-2参数量为15亿,2020年GPT-3达到1750亿个参数,而OpenAI最新发布的GPT-4模型参数量大约超过100万亿个。AI大模型由于其复杂性和规模,需要大量的计算资源和存储空间来进行训练和部署。 超算算力年增长速度仅次于人工智能。超算系统通常由数以万计的处理器核心组成,能够在极短的时间内完成大规模的科学计算、数据分析和模拟等任务,广泛应用于科学研究、工程设计、天气预报、金融分析等领域。图3是世界最强超算算力TOP500给出的自1990年起超算算力的进步趋势,并进行了线性回归。图中的三条线分别是上榜超算的总算力,榜单冠军的算力以及榜单第500名超算的算力。可以看到,超算算力几乎按照摩尔定律在提升,从G级到现在的E级,未来还将向10E级演进。 不管是人工智能还是超算,其算力任务都呈现出规模扩大、复杂度提升的趋势,远超单个计算机或服务器的处理能力。因此,需要高性能分布式系统,通过网络连接提供海量计算、存储资源,从而承载大规模算力任务,突破单机算力和存储的限制,提供高并发高可用的计算服务,加快任务完成速度。 (三)通信效率影响分布式系统性能 系统的加速比体现了分布式系统的性能。根据阿姆达尔定律,可以计算出系统的加速比。阿姆达尔定律是一个计算机科学界的经验法则,它代表了处理器并行运算之后效率提升的能力,其计算公式表述如下。其中,S为系统加速比,p为并行度占比,s为并行