AI智能总结
构建数据库的“CUDA”,英伟达存储变革下软件重构 2025年12月07日 证券分析师王紫敬执业证书:S0600521080005021-60199781wangzj@dwzq.com.cn证券分析师王世杰 执业证书:S0600523080004wangshijie@dwzq.com.cn 增持(维持) ◼AI推理带来新的GPU存储架构:AI训练需要大数据块(10MB-1GB),少并发,总存储容量相对较低(1-10TB)。而AI推理完全不同,需要小数据块(几KB或更小),高并发(数千条),大存储容量(PB级)。传统架构以CPU为中心,CPU的串行任务特点无法满足高并发需求,导致AI推理出现瓶颈,GPU未能充分利用。GPU地位亟需提升,把控制路径和数据路径都放在GPU里,硬件方面,GPU直连SSD增加存储量和传输速率,软件方面,SCADA软件架构控制存储IO。 ◼底层硬件变革带动软件重构,GPU-Native数据库呼之欲出:架构层面发生变化。从“以CPU为中心”到“以GPU为中心”,GPU成为主计算单元。传统数据库以CPU为中心进行设计,数据库软件需要围绕GPU的数据获取和处理能力重新设计。核心组件层面升级改造。例如存储引擎的革新、数据布局优化、查询执行引擎的重构等。GPU直连SSD技术将使得数据库从一个在通用操作系统上运行的、管理磁盘文件的应用程序,演变为一个直接调度和管理GPU和存储硬件的“数据中心级操作系统内核”。GPU-Native数据库市场空间打开。 相关研究 《商业航天:奇点时刻,航天强国》2025-12-03 ◼产业进展逐步加快:硬件方面:2025年8月,闪迪与SK海力士签署谅解备忘录,共同制定HBF技术规范并推动标准化进程。双方目标在2026下半年发布HBF样品,首批搭载HBF的AI推理系统预计于2027年初面世。2025年9月2日在东京都内举行的面向AI市场的技术说明会上,铠侠表示将与英伟达合作,开发可直接连接到GPU并进行数据交换的SSD。软件方面:Hammerspace已经通过更快更可扩展的元数据读取功能以及在GPU服务器直连存储驱动器中的更优数据放置策略,加速了其数据编排平台软件的性能表现。Cloudian HyperStore:通过RDMAover S3技术,实现对象存储与GPU内存的直接数据传输,使基于S3接口的向量数据库性能提升8倍。 《十五五规划说明中,为何没有重点提及人工智能?》2025-11-12 ◼投资建议:随着AI推理的爆发,GPU地位需要进一步提升,取代CPU成为数据流的核心,在硬件架构上直连SSD,快速传输数据,充分发挥GPU的并发性能。在GPU直连SSD的创新架构下,软件生态也需要发生重大变化。核心技术软件数据库将不再以CPU为中心,转而以GPU为中心,针对GPU直连SSD新型架构做重构,满足AI推理旺盛的需求。数据库产业有望迎来新机遇。 ◼相关标的:【星环科技】,达梦数据,海量数据,MongoDB,Snowflake等。 ◼风险提示:技术发展不及预期;AI产业发展不及预期。 内容目录 1. AI推理时代来临,GPU直连SSD存储新架构出现.......................................................................42.存储架构变化带来数据库架构的变化..............................................................................................73.产业进展逐步加快..............................................................................................................................84.投资建议..............................................................................................................................................95.风险提示..............................................................................................................................................9 图表目录 图1:不同AI任务对存储的要求有很大差异....................................................................................4图2:需要新的存储层级出现...............................................................................................................5图3:软件和存储是新的瓶颈...............................................................................................................5图4:GPU地位提升..............................................................................................................................6图5:GPU直连多个SSD.....................................................................................................................7图6:GPU成为核心,CPU被跳过.....................................................................................................7 1.AI推理时代来临,GPU直连SSD存储新架构出现 颠覆CPU主导时代,GPU全面接管存储IO。 AI推理与训练的IO需求差距很大。AI训练依赖海量数据的批量传输,单轮数据块尺寸通常在MB级以上,控制路径的延迟占比极低;而AI推理完全不同,LLM推理的KV缓存访问粒度仅8KB-4MB,向量数据库检索、推荐系统的特征读取更是低至64B-8KB,但需要支持数千条并行线程的并发请求。LLM推理的存储需求已突破10TB级,向量数据库和推荐系统的存储规模更是达到1TB-1PB,这种“小块高频”的访问模式,让传统存储架构不堪重负。 AI工作负载正在根据其I/O模式(访问粒度和强度)分化为两大类,这正在推动存储评估指标从传统的“每TB成本”(TB/TCO)转向新兴的“每IOPS成本”(IOPS/TCO)。 工作负载分化: 第一类:训练(Training)。以LLM预训练为代表,其特点是大块顺序I/O(10MB-1GB)。这类应用更关注存储的吞吐量和总容量,因此传统的TB/TCO(每TB成本)指标依然适用。 第二类:推理(Inference)和预测式AI (Predictive AI)。包括LLM推理、RAG、向量数据库、推荐系统和图计算。这类应用的共同特点是极小的随机I/O(访问粒度低至8B、64B、512B)和极大的数据集(高达1PB或数百TB)。 IOPS成为存储新的挑战。对于推理和预测式AI,性能瓶颈不再是存储容量或顺序吞吐量,而是系统处理海量、高并发、小I/O请求的能力,即IOPS(每秒读写操作次数)。例如,RAG检索、图谱遍历、推荐系统都需要极低延迟地从庞大的数据集中随机读取微小的数据块。 数据来源:英伟达,东吴证券研究所 传统架构中,CPU同时掌控存储IO的控制路径(发起请求、调度资源)和数据路径(传输数据),GPU仅作为“辅助加速器”被动接收数据。 当前以CPU为中心的数据加载架构(将GPU视为“卸载设备”)已成为GenAI工作负载的瓶颈。 AI工作负载的极端并行需求:根据利特尔定律,为了充分利用现代硬件(如PCIeGen6)来处理AI(如RAG)的512B小I/O,系统必须维持一个高达20,000+的队列深度(Qd)。 GPU并非瓶颈:GPU的并行架构(如上一张PPT所提)有能力发出如此海量的并发I/O请求。 真正的瓶颈是CPU软件栈:问题的根源在于传统的、由CPU驱动的软件栈。这个软件栈(即上一张图的"Current Approach")习惯于"串行化" (serialize)或"批处理"(batch) I/O,这会人为地压低系统实际的队列深度(Qd)。 图3:软件和存储是新的瓶颈 GPU地位提升,实现控制权的反转。GPU成为“编排器”,取代CPU成为数据访问的控制中心。CPU被“降级”,仅负责辅助性的“内务管理”(house keeping)。 数据访问模式从CPU“推送”(push)数据块,转变为GPU“拉取”(pull)数据。GPU只在计算需要时才“按需”(on-demand)从一个统一的分层存储池中抓取它需要的数据。 通过硬件GPU直连SSD和SCADA软件架构实现GPU地位的提升。 GPU直连SSD允许GPU绕过CPU和系统内存,直接、高效地从固态硬盘读取和写入数据,是通过NVMe-of、RDMA、GPUDirect Storage等技术协议实现的一条优化的直接数据通路。 SCADA是一个用于解决AI I/O瓶颈的、可扩展的、生产级的软件架构。 SCADA通过两个关键技术解决了“CPU软件栈”瓶颈:服务器端:使用uNVMe(用户态驱动)绕过内核,实现极致的IOPS。客户端:GPU应用线程成为数据请求的发起者。传输中:“数据路径"协议(可能基于RDMA和GPUDirect)允许数据从服务器存储直接流向GPU显存,最小化CPU负载和延迟。 GPU地位的提升。这个架构实现了“GPU作为I/O编排器”的愿景。GPU应用线程(通过SCADA Client)发起请求,数据(通过Data Path)直接流入GPU,CPU在数据流中被彻底旁路。 数据来源:OCP,东吴证券研究所 数据来源:英伟达,东吴证券研究所 2.存储架构变化带来数据库架构的变化 架构层面发生变化。从“以CPU为中心”到“以GPU为中心”,GPU成为主计算单元。传统数据库以CPU为中心进行设计,数据库软件需要围绕GPU的数据获取和处理能力重新设计。CPU的角色退化为任务调度器、事务协调器和元数据管理器。存储层级的虚拟化与重构。 核心组件层面升级改造。 存储引擎的革新。传统的、基于系统内存(DRAM)的缓冲池(Buffer Pool)管理机制效率降低。新的缓存管理器需要直接管理GPU显存和直连SSD之间的数据流动。 数据布局优化:为匹配GPU的SIMD(单指令多数据)架构,数据在SSD上可能更倾向采用纯列式或混合式存储格式,并原生支持Apache Arrow等零拷贝内存格式,方便GPU直接消费。 查询执行引擎的重构。算子的GPU原生实现:扫描(Scan)、连接(Join)、聚合(Aggregation)、排序(Sort)等核心算子需要深度重写为GPU内核,并能直接从SSD流式消费数据。异步、流水线执行:查询计划被组织成高效的GPU内核流水线,当前步骤在GPU计算时,下一步所需的数据已通过直连路径在后台从SSD预取,实现计算与/O的 完全重叠 查询优化器的挑战。成本模型剧变:传统的基于