Kiran Matty 作为 Aerospike 产品管理总监,在 Pulsar 虚拟峰会北美 2021 上分享了关于 AI/ML 需求与 Aerospike 及 Pulsar 解决方案的应用。
AI/ML 的存储需求
AI/ML 应用需要混合存储解决方案,以应对数据/模型漂移问题,传统 HDD 系统不适用。AI/ML 需要低延迟、PB 级的类似内存访问,以降低 TCO(总拥有成本)。
其他数据库的局限性
其他数据库在高频交易、IIoT、预测性维护、欺诈检测、AdTech 等用例中存在失败案例,而 Aerospike 驱动数据驱动的决策。
AI/ML 蓝图
Aerospike 与 Pulsar 结合提供 AI/ML 解决方案,包括 Notebook & ML 包装、Python 客户端、计算存储、Spark 连接、容器平台及云/本地部署。
为什么选择 Pulsar?
Pulsar 具备多租户可扩展性、地理复制、耐久性及统一消息模型。
数据模型映射
Aerospike 与 Pulsar 的数据模型通过 YAML 文件映射,包括 RDBMS、命名空间、主题、记录等。
架构连接
通过“脉冲星的 Aerospike 连接微服务”实现事件驱动架构,包括流处理器、IOT/边缘设备、订阅者、发布者等。
加速培训管道
概念视图显示,通过探索性数据分析、参数调谐、模型训练与验证,结合 Aerospike 与 Spark 系统,可加速 AI/ML 管道。
实时推理
概念视图展示边缘系统与跨数据中心部署,通过 Pulsar 与 Spark 连接,实现实时推理与预测。
案例研究
全球顶级广告技术公司通过 Aerospike 与 Spark 实现大规模并行化,减少 80% 的 Spark 作业执行时间,降低训练时间,增加再训练频率。
就地数据探索
Aerospike 数据平台连接 Spark 与 Pulsar,减少数据复制需求,提高 ROI,增加重新训练频率。
专家观点
HPE AI 驱动大数据解决方案首席架构师特蕾莎·梅尔文表示,Aerospike 允许近乎瞬时的机器学习,处理数百万每秒事件。