数据是 21 世纪的关键资源,其中超过 80% 的数据挖掘机会存在于非结构化数据(“暗数据”)中。这些数据包括日志文件、旧文件、电子邮件、客户电话记录、地理位置数据、CCTV 镜头原始数据等。传统计算架构面临 DRAM 吞吐量和容量挑战,以及大规模数据移动问题。
计算存储体系结构通过将计算引擎集成到存储设备中,解决了这些问题。其核心优势包括:
- 减少数据移动:在存储设备内部执行计算任务,降低网络延迟和功耗。
- 提高效率:并行化计算,优化 DRAM 吞吐量和利用率,卸载主机 CPU 资源。
- 扩展性:通过容量扩展计算,支持大规模数据处理。
计算存储的值分析分为三个层次:
- 分析:在存储设备内部执行无监督属性分析,将数据转化为知识图像,生成元数据。
- 结构:预处理存储中的数据,过滤并选择相关数据,准备 ML 应用程序所需的数据格式。
- 计算:在存储设备上处理数据,应用神经网络推断模型、评估数据、离线视频转码等。
大数据分析示例展示了计算存储如何通过 AI 推理在存储边缘生成元数据,理解数据内容和关系。在存储边缘进行计算的优势包括:
- 减少网络流量:显著降低数据传输需求。
- 卸载主机:将计算任务从主机转移到存储设备。
- 扩展性:利用存储设备进行计算扩展。
无处不在的 AI 推理为计算存储带来了许多机会,包括:
- 使用元数据分析和标记数据。
- 预处理数据以进行主机处理。
- 处理数据并生成与主机上下文相关的元数据。
- 离线处理存储设备上的数据。