行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

Grider - HPC - for - Science - based - Motivations - for - CS

信息技术 2022-06-24 SNIA持久内存+计算存储2022峰会SNIA Persistent Memory + Computational Storage Summit 爱吃胡萝卜的猫 

HPC 科学仿真系统现状与挑战
- HPC 科学仿真系统规模庞大，例如 LANL 的系统拥有 10 PB 闪存、2 PB DRAM、60 PB 并行磁带存档，但 DRAM 容量相对数据总量仍显不足（10 PB DRAM 对比 100 PB 闪存）。
- 科学数据具有记录导向特性（每个单元包含 5-50 个浮点数），但传统文件存储方式效率低下，且难以利用数据内在结构进行压缩或索引。
- 当 10 PB DRAM 不足以处理海量数据时，现有技术面临瓶颈，常规的数据分析任务受限于磁盘 I/O 速度。
近存储计算的动机与优势
- 动机：通过将计算或处理功能部署在数据存储近旁，提升数据访问和处理效率，降低对传统磁盘存储的依赖。
- 优势：
  - 提升数据管理效率：通过卸载文件系统服务、利用计算存储功能（如 ZFS 卸载）、实现更高压缩比等方式，提高内存带宽密集型数据管理任务（如文件系统服务、数据压缩）的效率。
  - 提升数据分析效率：通过近设备索引和分析（如 DeltaFS），从根本上改变数据分析方式，显著加速事后分析，减少对大型计算层的需求。
计算存储的关键技术与机会
- 记录导向 vs. 文件导向：利用数据的记录特性而非文件结构进行管理和分析，可大幅提升效率。VPIC 粒子模拟案例展示了通过记录导向索引实现 1000 倍分析加速。
- 索引技术挑战与方向：
  - 低维、结构化网格易于索引，但高维、非结构化、动态网格的索引是挑战。
  - 需要发展新的索引方法，如多维数据结构（动态树、嵌套列表），以适应复杂数据模式。
  - 基于键值存储（KVS）的并行框架（如 Hxhim）提供了一种可能性，但需解决分布式密钥分片和数据分布不均的问题。
- 利用网络信息：网络层可以观察到数据流动和分布模式，为预测和优化数据分布、索引构建提供信息支持。
- 技术实现途径：
  - 软件卸载：利用现有文件系统（如 ZFS）的卸载功能，或通过中间件（如 Hxhim）实现计算密集型数据管理任务。
  - 硬件加速：利用 NVMe 计算存储（如 ABOF、NoLoad™、Bluefield 2）将计算功能集成到存储设备或网卡中。
  - 新兴标准与范式：关注 NVME 计算存储、S 系统、Netsketch 等新兴标准，借鉴流编程范式，探索超越传统块存储的新模式。
研究结论与展望
- 近存储计算是应对 HPC 科学仿真中数据爆炸性增长和内存带宽瓶颈的关键技术。
- 通过计算存储、功能卸载、新型索引方法等技术，可以显著提升数据管理和分析效率。
- 需要在软件（中间件、编程模型）和硬件（专用加速器、新标准）层面进行持续研究与发展，以充分发挥近存储计算的优势。