您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [格雷德科技]:守护 AI 数据:GPU 如何重塑格局 - 发现报告

守护 AI 数据:GPU 如何重塑格局

信息技术 2026-04-03 格雷德科技 金栩生
报告封面

基于SupremeRAID™Ultra与InnoGrit N3X,为大规模并行AI I/O带来突破性的奇偶校验RAID性能 2026年4月 目录 1. 4K随机读取性能............................................................................................................................................52. 4K随机写入性能.............................................................................................................................................53. 1M随机读取性能............................................................................................................................................64. 1M随机写入性能...........................................................................................................................................执行摘要........................................................................................................................................................................硬件优势:SUPREMERAID™2.0、NVIDIA RTX 2000E ADA innogrit N3X.................................................2AI............................................................................................................................3性能对比........................................................................................................................................................................4检测描述...................................................................................................................................................................4测试环境...................................................................................................................................................................47CPU效率分析(RAID5最优配置).......................................................................................................................8读取效率:..............................................................................................................................................8写入效率:..............................................................................................................................................9 结论...........................................................................................................................................................................10 附录...............................................................................................................................................................................11 执行摘要 人工智能工作负载规模庞大、高度并行且要求严苛。它们会在数千个线程、队列和数据集中产生高强度的小块数据及混合I/O模式的突发负载。在大规模部署场景下,这种压力会使得传统存储控制器成为训练、推理和数据准备过程中的主要瓶颈。 SupremeRAID™2.0AIRAID通过将24块InnoGrit N3XSLC NVMe硬盘与SupremeRAID™Ultra(搭载50W NVIDIA RTX 2000E Ada芯片)组合使用,我们消除了数据保护与性能之间的传统权衡关系。 测试结果于定义AI基础设施效率的关键指标。SupremeRAID™在奇偶校验RAID处于最佳状态时,可实现数百万级随机写入操作;即使在降级模式下,仍能维持领的吞吐性能而这些场景下,传统软件RAID往往难以维持。由此带来的效果是:数据采集速度显著提升、元数据响应更加,且在大规模硬件故障发生时,依然可保持稳定且具备性的吞吐能力。 硬件优势:SupremeRAID™2.0NVIDIA RTX 2000E Ada和InnoGrit N3X 该测试平台代表了现代AI服务器的理想架构,通过将新一代GPU卸载(GPU Offload)与超低时延存储介质相结合,有效消除系统瓶颈。 RAIDSupremeRAID™UltraNVIDIA RTX 2000E AdaGPU50WSupremeRAID™2.0I/O RAID5/6 存储介质由24块InnoGrit N3X NVMe SSD硬盘构成,基于KIOXIA XL-flash™技术。基于KIOXIAXL-FLASH™技术。该SSD通过采用SLC(单单元)架构,在DRAM与传统NAND闪存之间实现性能,具备极低时延与确定性性能表现。通过将SupremeRAID™2.0引擎与N3X的原生高速性能相结合,我们构建了一个在用奇偶校验保护的情况下,仍可满PCIe总线带的存储子系统,从而有效避免尾时延动对并行AI训练负载造成的阻。 注:InnoGrit N3X固态硬盘的官方支持计将在即将发布的SupremeRAID™2.0驱动次版本中提供。 AI工作负载对存储系统的要求 相较于传统企业级应用,AI数据平台对存储系统提出了然不同的压力模型。其工作流程通常合以下负载特: 1.2.3.模型训练与数据集洗牌的大规模并行读取负载检查点与日志写为主的突发I/O负载分布式数据服务带来的持续元数据操作负载。 奇偶校验RAID(RAID5/6)具有显著优势,因其在大规模部署下具备较高的容量利用率而具有引力。然而,其核心挑战始终在于:在高强度随机写负载下难以保持性能,以及在降级模式(Degraded,指盘发生故障、重建流程进入数据路径时)下性能难以维持。SupremeRAID™2.0即是为解决这两瓶颈而设计的。 性能对比 检测描述 以下结果对比了在相同的24盘NVMe配置下,Linux MD(mdadm)与SupremeRAID™2.0 Linux驱动程序的性能表现。每个子节呈现数据,再分析其对AI工作负载的影响。 测试环境 •硬件 ooooCPU:AMD EPYC 9755 128核处理器× 2内存:32GB DDR5-6400 RDIMM × 24GPU RAID加 速 器 :SupremeRAID™Ultra(NVIDIA RTX 2000E Ada), 单 插 槽 ,低矮型结构,功耗50WNVMe硬盘:InnoGrit N3X SLC NVMe × 24 •软件ooo▪LinuxMD(mdadm)v4.3操作系统:Ubuntu 24.04.2 LTS内核:6.8.0-62GenericRAID实现方案:▪SupremeRAID™2.0(2.0.0-uad-76-71)o基准工具:fio-3.40 •配置ooo一个包含24块物理硬盘的RAID组(支持RAID5和RAID6)最佳:所有驱动器均正常已损坏:一块驱动器故障 1.4K随机读取性能 观察分析:随机读取性能对于AI数据加载与数据混洗至关重要。Linux MD在最佳状态下表现优异,但在性能下降模式下,由于重建过程中的CPU瓶颈,其性能会骤降超过99%。SupremeRAID™2.0利用GPU处理I/O,在最优状态下可实现超大吞吐量,即在发生驱动器故障时,仍能维持高达1260万IOPS的性能输出。 2.4K随机写入性能 观察分析:该指标是衡量元数据更新与检查点写入性能的最关键参数。传统RAID受制于"空洞"问题带来的性能损耗,IOPS难以突破百万级。SupremeRAID™2.0对这一工作负载实现了革命性的突破,在最优状态下可提供超过640万IOPS,且在降级状态下仍能维持与之乎相的性能表现。 3.1M随机读取性能 观察分析:大块数据读取对应高吞吐量的数据摄入和训练数据。在最优状态下,两者性能相近(均受限于驱动器/总线带上限),但降级模式下的差距才真正体现出两者的本质: SupremeRAID™2.0200 GB/sLinux MD13 GB/sGPU 4.1M随机写入性能 观察分析:大块数据写入对于AI模型检查点保存至关重要。SupremeRAID™2.0在最优状态下可提供242 GB/s的写入吞吐量,性能超越Linux MD达16倍以上。为关键的是,即在降级状态下,其吞吐量仍可维持在200 GB/s以上,确保单块驱动器故障不会中断模型训练进程。 CPU效率分析(RAID5最优配置) 本节对存储操作的CPU开销进行评估。通过将CPU利用率与性能输出进行标准化处理,可以衡量出存储软件的真实"成本"。数值越低,表明效率越高,即可供AI计算工作负载使用的CPU算力资源越充。 公式: “标准化成本”表示为实现特定性能单位所需的系统CPU总容量百分比。其计算公式为: 标准化成本=总CPU利用率/实际达成性能(以目标单位计) ••CPU总利用率:计算公式为100% -空闲率目标单位:100万IOPS(适用于4K)或10 GB/s(适用于1M)。 读取效率:小数据块与大 观察结果:在读取操作中,SupremeRAID™消除了软件RAID固有的CPU瓶颈。在4K随机读取场景下,其每IOPS的CPU效率是Linux MD的4.7倍。