您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中移智库]:2023年在网计算(NACA)技术白皮书 - 发现报告
当前位置:首页/其他报告/报告详情/

2023年在网计算(NACA)技术白皮书

2023-08-15-中移智库程***
2023年在网计算(NACA)技术白皮书

在网计算(NACA)技术白皮书(2023年)1在网计算(NACA)技术白皮书(2023年)中移智库中国移动研究院2023年8月 在网计算(NACA)技术白皮书(2023年)发布单位:中移智库编制单位:中国移动研究院、华为技术有限公司、清华大学、北京大学、北京邮电大学、香港科技大学(广州)、中国科学技术大学、新华三技术有限公司、博通公司、英特尔(中国)有限公司、中兴通讯股份有限公司、苏州盛科通信股份有限公司编制人员:陆璐、孙滔、李志强、刘鹏、姚柯翰、徐世萍、牟彦、刘畅、王巧灵、厉益舟、张翠敏、吴文斐、刘斌、潘恬、徐文佺、DirkKutscher、徐宏力、王伟锋、陈艳庆、张玺、李和松、王力 在网计算(NACA)技术白皮书(2023年)人工智能和大数据等新兴科技产业正深刻影响我国经济社会发展,推动各行各业数字化转型升级。大数据处理、高性能计算以及人工智能大模型背后需要庞大的算力资源,对算力的高效稳定供给提出挑战。为推动国家新基建战略的落实和“东数西算”工程走向纵深,中国移动充分发挥中央企业“网络强国、数字中国、智慧社会”主力军作用,系统打造以5G、算力网络、智慧中台为重点的新型信息基础设施,创新构建“连接+算力+能力”新型信息服务体系。2021年,中国移动发布《算力网络白皮书》[1],制定了算力网络总体发展策略,明确了核心理念、场景展望、发展路径以及技术体系,提出了“泛在协同”、“融合统一”和“一体共生”的三个发展阶段,随后发布《算力网络技术白皮书》[2]及《算网一体网络架构及技术体系展望白皮书》[3],持续打造算力网络技术体系,推动算力网络原创技术攻关,助力我国数字经济的健康发展。在网计算是算网一体原创技术体系中的核心技术之一。面向大规模高算力需求的分布式应用,在网计算使用网络设备进行近数据计算,可以在高速转发过程完成应用数据处理,同时缩短数据传输路径,是解决分布式应用通信瓶颈问题的重要技术。在网计算是计算、网络双学科交叉融合的创新方向,赋能通用计算、智能计算以及超算等多样化业务场景,最大化提升业务计算服务能力,为用户提供高效、安全、可靠的算力增强服务,助推算力网络走向纵深,以及数字中国、东数西算等国家战略的实施。 在网计算(NACA)技术白皮书(2023年)本白皮书详细描述了在网计算产生的背景及需求以及典型应用场景,通过总结现有技术存在的问题,提出在网计算新架构,分析关键技术和挑战,并对在网计算未来发展提出倡议。本白皮书的版权归中国移动所有,未经授权,任何单位或个人不得复制或拷贝本白皮书之部分或全部内容。 在网计算(NACA)技术白皮书(2023年)1目录......................................................................................................................................................................................................................................1背景和需求........................................................................................................22应用场景............................................................................................................42.1在网计算赋能先进计算中心................................................................42.2在网计算加速边缘万物智联................................................................63在网计算(NACA)技术架构.........................................................................93.1概念与架构............................................................................................93.2NACA核心特征.....................................................................................113.3功能视图..............................................................................................154关键技术及挑战..............................................................................................184.1计算语义映射......................................................................................184.2计算正确性保障..................................................................................194.3计算程序网内编排..............................................................................194.4网内资源池化......................................................................................205推进展望..........................................................................................................23参考文献..............................................................................................................24缩略语列表..........................................................................................................25 在网计算(NACA)技术白皮书(2023年)21背景和需求高性能计算(HPC)和人工智能(AI)等技术的发展正不断推动生物医药、航空航天、地质勘探等领域取得重大突破,随之也带来了不断激增的计算量,必须通过大规模集群算力才能充分发挥优势。例如,ChatGPT模型参数总量已经达到千亿级别,高性能计算也已经迈向百亿亿级计算时代。同时,5G、工业互联网等新技术的应用正推动现代网络向万物智联不断演进,推动生产力迈向新台阶。大规模传感器、智能终端产生的海量数据需要高效、实时、便捷、稳定地进行处理,也需要大量泛在算力的支持。在这样的需求下,分布式应用的系统性能提升却面临以下两点挑战:算力能力方面,随着摩尔定律逐渐失效,单一节点算力增长速度逐渐放缓,已无法满足不同应用场景的性能诉求。多元化的算力承载和以业务为中心的融合方案是演进的必然趋势。必须以融合的视角重新审视计算体系结构和网络体系架构,对CPU/GPU/ASIC/FPGA/NPU等各种计算资源进行整合。分布式系统内部通信方面,随着系统规模的不断扩大,计算节点数量已经达到数万甚至数十万,计算节点间的通信量不断增加,且通信模式更加复杂,为分布式系统设计带来巨大挑战。高性能分布式数据处理对实时性、可靠性、安全性、一致性等提出更高要求,通信已经成为成为瓶颈问题,主要来源于以下三点。一是网络负载均衡策略无法适应智能计算、HPC等场景下差异化流量模式;二是大规模分布式系统接收端面临的incast多打一问题,造成任务完成时间过长;三是分布式应用中普遍存在的一对多、多对一、多对多的逻辑通信模式与物理网络中点到点的通信实现不匹配,网络中存在大量冗余信息,影响系统性能。在网计算使用网络设备进行近数据计算,可以在线速处理的同时完成流量压缩,同时缩短数据传输路径,很大程度上解决了上述痛点问题。目前,在网计算技术在智能计算及超算领域已有部分研究成果和产业应用。例如基于在网计算实现分布式机器学习模型训练加速[4]以及基于Infiniband技术提出的Sharp技术[5]可以加速HPC等大规模计算密集型任务。但是在网计算当前仍面临应用场景竖井式、协议实现封闭化、编程范式不友好等挑战。基于以上考量,本白皮书提出了在网计算新架构NACA(NetworkAssistedComputingAcceleration),系统化推进在网计算设计和实现。在网计算 在网计算(NACA)技术白皮书(2023年)3NACA是一种与应用深度融合,实现网络辅助计算加速的新模式,通过重塑应用处理和开发模式,实现系统加速,提升算网资源利用率。白皮书第二章全面分析了在网计算的应用场景,第三章给出在网计算NACA的概念、技术架构以及核心特征,第四章分析了NACA关键技术和挑战,最后提出倡议,希望联合产学研持续攻关,推进在网计算技术应用和发展。 在网计算(NACA)技术白皮书(2023年)42应用场景2.1在网计算赋能先进计算中心(1)高性能计算高性能计算通过发挥规模集群算力,实现复杂任务处理,广泛应用于气象、地震、生物、材料等多个领域。高性能计算网络提供了高带宽、低延迟的互联解决方案,支持各种计算密集型和数据密集型应用的运行。自2013年起,高性能计算TOP500[13]性能上升速率明显变缓,依靠硬件堆叠单个超算中心计算能力面临技术瓶颈限制,难以满足超大复杂任务的计算需求。传统聚合通信过程中的计算在服务器侧完成,网络只负责转发。当采用参数服务器的方式实现数据并行时,多个工作节点在自己的数据集上进行参数训练,然后将训练结果发送到参数服务器完成参数聚合,再将结果广播给各个工作节点。在这种通信模式下,参数服务器的输入链路往往成为整个系统的性能瓶颈。随着服务器规模和计算量的不断提升,服务器数据交互的次数会显著增加,转发时延不断增大,其对网络性能的压力也越来越大。在网计算功能采用交换设备卸载参数聚合过程,可以有效地提高聚合通信的效率,降低总的任务完成时间。以典型的MPI聚合算子AllReduce为例,其通信交互复杂度为O(logN)(N表示服务器节点规模)。如图1(a)所示,传统聚合通信方式,8个节点(N=8)进行AllReduce计算总共需要3个批次的通信,复杂度为O(logN);图1(b)为采用了在网计算加速的聚合通信方式,8个节点进行AllReduce计算,由接入leaf进行第一次汇聚,由spine交换机进行第二次汇聚,总的通信批次只与网络的层次数量有关,交互复杂度变为常量O(C),C表示网络的层级数,与服务器节点规模无关,极大地减少了服务器集群间的通信交互过程,降低了HPC小字节报文场景下的网络时延,提升了计算效率。 在网计算(NACA)技术白皮书(2023年)5图1(a)端侧实现AllReduce1(b)在网计算实现AllReduce聚合通信在分布式机器学习系统中也广泛使用,随着大模型训练的发展,在网聚合操作成为在网计算的典型基础功能,能够有效提升分布式机器学习系统的应用处理效率。(2)高性