您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[开放数据中心标准推进委员会]:基于数据处理器(DPU)的新一代存算分离存储架构:重构数据中心存储范式 - 发现报告

基于数据处理器(DPU)的新一代存算分离存储架构:重构数据中心存储范式

AI智能总结
查看更多
基于数据处理器(DPU)的新一代存算分离存储架构:重构数据中心存储范式

[编号ODCC2505006] 基于数据处理器(DPU)的新一代存算分离存储架构:重构数据中心存储范式 版权声明 ODCC(开放数据中心委员会)发布的各项成果,受《著作权法》保护,编制单位共同享有著作权。 转载、摘编或利用其它方式使用ODCC成果中的文字或者观点的,应注明来源:“开放数据中心委员会ODCC”。 对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC及有关单位将追究其法律责任,感谢各单位的配合与支持。 编写团队 项目经理:陈龙英伟达工作组长:郭亮中国信息通信研究院贡献专家:郭亮中国信息通信研究院宋庆春英伟达朱朋志英伟达谢丽娜中国信息通信研究院李佳媛中国信息通信研究院李佩维三星西安研究院李小兵三星西安研究院畅顺三星西安研究院高伟思德李波思德 前言 在当今数字化时代,数据中心面临着前所未有的挑战。随着人工智能、大数据和云计算的快速发展,传统存储架构已经难以满足日益增长的数据处理需求。特别是在AI大模型训练和推理等场景下,存储系统的性能、可扩展性和效率成为了关键瓶颈。近年来,存算分离架构作为一种创新的解决方案,正在引起业界的广泛关注。这种架构将存储资源与计算资源解耦,为数据中心带来了更高的灵活性和效率。其中,以VASTData为代表的"ShareEverything"架构已经在市场上取得了显著成功,证明了存算分离的巨大潜力。然而,随着技术的进步,一种更为先进的存算分离方案正在崭露头角——基于数据处理单元(DPU)的存算分离架构。这种新型架构不仅继承了传统存算分离的优势,还通过引入专门的硬件加速器,进一步提升了存储系统的性能和效率。本文将深入探讨基于DPU的存算分离存储架构,分析其技术原理、优势特点,并探讨其在现代数据中心中的应用前景。我们将以NVIDIABlueField-3DPU为例,详细介绍这种新型架构如何重塑数据中心的存储范式,为AI、云计算等领域带来革命性的变革。 本文将重点介绍: 当前数据中心存储面临的挑战和局限 存算分离架构的基本原理和优势 基于DPU的存算分离方案的技术创新 新型存储架构在不同应用场景中的潜力 目录 一、现有存储架构分析..............................................1二、数据处理器(DPU)技术与存算分离...............................5(一)数据处理器(DPU)技术简介................................5(二)NVIDIABlueField-3DPU关键特性..........................6(三)基于DPU的存储架构设计...................................9三、数据处理器(DPU)技术与存算分离..............................21(一)CSALQLC加速方案.......................................21(二)SRIOV加速方案..........................................31(三)分布式Raid加速方案.....................................40四、存储系统方案案例.............................................46(一)HDFS.....................................................46(二)BeeGFS...................................................55五、总结与展望...................................................63(一)技术创新总结.............................................63(二)技术方案价值.............................................64(三)产业影响与应用前景.......................................65(四)发展趋势与技术展望.......................................65(五)结语.....................................................65六、参考文档.....................................................66 一、现有存储架构分析 在深入探讨基于DPU的存算分离架构之前,我们需要分析现有分布式存储架构的局限性,以便更好地理解新型架构带来的革新。 (一)传统分布式存储架构的局限 在传统分布式存储架构中,一个突出的问题是CPU资源与存储资源(特别是NVMe SSD)之间的错配。在资源配比问题主要体现在以下三个方面: 资源配比困境:在实际部署中,传统分布式存储架构经常面临资源配比的两难困境。一方面,为了满足存储系统中的数据压缩、加密和副本同步等计算需求,往往需要配置高性能CPU。然而,当存储容量和IO需求相对较小时,这些高性能CPU的计算能力就会出现严重浪费。另一方面,当系统需要部署大量NVMe SSD以满足存储容量需求时,现有的CPU处理能力又往往跟不上这些高性能存储设备的IO处理要求,导致昂贵的NVMeSSD性能无法充分发挥。这种CPU与存储资源之间的不匹配,直接影响了系统的整体效能。 资源利用率问题:资源利用率问题在不同应用场景下表现各异。在存储密集型场景中,系统频繁进行IO操作,CPU需要处理大量的存储相关任务,很容易达到处理瓶颈。此时,即便配备了高性能的NVMe SSD,其性能也无法被充分发挥,因为CPU已经成为了限制系统整体性能的关键因素。相反,在计算密集型场景下,CPU主要用于处理业务计算任务,存储设备的容量和IO能力往往处于闲置状态,造成了存储资源的浪费,降低了硬件投资的使用效益。 成本效益影响:这种资源配比失衡对系统的成本效益产生了深远影响。在硬件成本方面,由于难以实现CPU和存储资源的最优配比,企业不得不过度配置某些资源以确保系统正常运行,这直接导致了设备采购成本的增加和能耗效率的降低。在运维成本方面,运维团队需要频繁调整资源配比以应对不同的业务需求,使得扩容规划变得异常复杂。同时,资源利用率的低下也意味着企业需要投入更多的人力和物力来维护和优化系统,进一步推高了总体运营成本。 这些问题的根源在于传统分布式存储架构将计算和存储资源绑定在同一个服务器节点上的设计理念。这种紧耦合的设计方式使得系统难以根据实际需求灵活调整资源配比,最终导致资源利用效率低下,运维成本居高不下。这也正是推动存储架构向存算分离方向演进的重要动力之一。 (二)存算分离架构 随着数据中心规模的不断扩大和应用需求的日益复杂,传统分布式存储架构的局限性日益凸显。为了突破这些限制,存算分离架构应运而生。这种新型架构的核心思想是将存储资源与计算资源解耦,使它们能够独立扩展和管理,从而实现更高的灵活性和效率。 存算分离架构的设计理念颠覆了传统的存储模式。在这种架构中,计算资源和存储资源被划分为独立的资源池。计算资源池由多个专注于数据处理和分析的计算节点组成,而存储资源池则由高性能存储设备(如NVMe SSD)构成,提供大容量、高性能的存储能力。这种分离使得每种资源都能根据实际需求独立扩展,有效解决了传统架构中资源错配的问题。当然,要实现存算分离的优势,高速网络和先进的存储协议扮演着至关重要的角色。在这个架构中,200Gbps以上的高速网络(如InfiniBand或RoCE)成为连接计算节点和存储节点的关键纽带。这种高速网络不仅能够提供低延迟、高带宽的通信能力,还能充分匹配NVMeSSD的高性能特性,确保存储设备的IO能力得到 充分 发挥 。 与 高 速 网 络 相 辅 相 成的是NVMe over Fabrics(NVMe-oF)协议。NVMe-oF的引入是存算分离架构的一大突破。这个协议允许计算节点通过网络直接访问远程NVMe存储设备,就像访问本地存储一样。NVMe-oF保留了NVMe协议的低延迟特性,同时支 持高并发和高吞吐量操作。它简化了协议栈,减少了CPU开销,尤其当网络传输采用RDMA技术时可以通过直接内存访问(DMA)进一步降低了数据传输延迟。这些特性使得远程存储访问的性能几乎可以媲美本地NVMe SSD,为存算分离架构提供了强有力的技术支撑。在存算分离架构中,计算节点被设计为无状态的。这意味着它们不存储任何持久化数据,所有的数据都保存在存储资源池中。这种设计大大提高了系统的可靠性和灵活性,使得计算资源可以根据需求动态扩展或收缩。同时,所有的存储资源共享一个全局命名空间,这不仅简化了数据管理,还提高了资源利用率。 存算分离架构带来的优势是多方面的。首先,它显著提升了资源利用率。计算和存储资源可以独立扩展,避免了资源错配,提高了整体效率。其次,这种架构具有极大的灵活性,能够轻松支持异构计算和存储设备,为引入新技术(如新型存储介质或加速器)提供了便利。在性能方面,通过NVMe-oF和高速网络的结合,存算分离架构将网络开销降到最低,实现了接近本地存储的访问性能。 从管理角度来看,存算分离架构也带来了显著改善。集中化的存储管理简化了资源调度和容量规划,大大降低了运维复杂度。此外,这种架构还能够优化成本效益,降低总体拥有成本(TCO),提高投资回报率(ROI)。尽管存算分离架构解决了许多传统架构的问题,但它仍然面临一些挑战。例如,在分布式环境下保证数据一致性变得更加复杂,数据在网络中传输也增加了安全风险。这些挑战为存储技术的进一步发展指明了方向,也为基于DPU的新型存算分离方案提 供了创新的空间。 总的来说,存算分离架构通过巧妙地结合NVMe-oF和高速网络技术,为现代数据中心提供了一种灵活、高效的存储解决方案。它不仅解决了传统架构的诸多痛点,还为未来的技术创新和应用场景扩展奠定了坚实的基础。随着技术的不断进步和应用需求的持续演进,我们有理由相信,存算分离架构将在未来的数据中心中扮演越来越重要的角色。 二、数据处理器(DPU)技术与存算分离 在探讨了现有存储架构的优势和局限性之后,我们现在将焦点转向一种革命性的技术——数据处理单元(Data Processing Unit,DPU)。DPU作为新一代的基础设施硬件加速器,为存算分离架构带来了全新的可能性。 (一)数据处理器(DPU)技术简介 数据处理单元(DPU)是一种革命性的数据中心处理器,专门设计用于现代云计算和数据中心基础设施。它在单个芯片上集成了高性能网络接口、可编程多核ARMCPU、多样化的硬件加速引擎以及高速缓存和内存系统。作为新一代数据中心的核心组件,DPU能够有效卸载、加速和隔离各类基础设施功能。在网络处理方面,最新的DPU支持400Gbps的以太网连接,并提供业界领先的RoCE v2实现,确保数据中心内部的高带宽、超低延迟通信。其内置的硬件加速引擎专门针对关键任务进行优化,包括加密/解密、压缩/解压缩等,显著提升了这些常见操作的处理效率。DPU的可编程性是其另一大 特色。通过先进的软件开发工具链和完善的编程接口,开发者可以根据特定应用场景定制功能,实现灵活的业务适配。同时,DPU提供独立的安全执行环境,通过硬件级隔离确保控制平面和数据平面的安全性,有效防范潜在的安全威胁。凭借强大的计算能力和丰富的功能集成,DPU能够有效管理和加速存储、网络、安全和虚拟化等多个关键领域的任务,为数据中心的基础设施现代化提供了强有力的技术支撑。 (二)NVIDIA BlueField-3 DPU关键特性 以NVIDIABlueField-3DPU为例,它代表