行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

卢冕- OpenMLDB：开源实时特征计算全栈解决方案

信息技术 2022-05-19 DataFunSummit2022：大数据计算架构峰会 HEE

AI 工程化挑战
- 95%的AI项目因数据和特征供给问题受阻，需解决DataOps、FeatureOps、ModelOps及ProductionOps全生命周期挑战。
- 决策类场景（如时序特征工程）和实时推荐系统（延迟<20ms）对特征计算平台提出高要求，但传统方案存在线上线下不一致问题，导致高昂的工程化成本（如双套系统开发、多技能栈投入）。
OpenMLDB解决方案
- OpenMLDB作为开源机器学习数据库，提供线上线下一致的特征计算平台，支持离线开发与实时服务无缝衔接。
- 核心特性：
  - 线上线下一致性执行引擎：确保计算逻辑一致。
  - 高性能在线特征计算引擎：采用双层跳表和预聚合技术，优化延迟。
  - 离线计算优化：比Spark快10倍以上。
  - SQL扩展：支持LAST JOIN、WINDOW等特征工程SQL语法。
  - 企业级支持：高可用、可伸缩、云原生、多租户。
  - SQL核心开发体验：CLI/SQL统一管理。
- 硬件创新：基于持久内存（PMem）优化，降低恢复时间99.7%、尾延迟20%、TCO 58.4%。
应用场景与案例
- 覆盖金融（反欺诈、精准营销）、零售（流量预测、客户流失预警）、风控等100+场景，支持超300节点分布式部署。
- 典型案例：某银行反欺诈系统通过OpenMLDB实现<20ms响应，准召率优于传统方案。
发展历程与生态
- 2017年开源前已服务金融客户，2021年6月正式开源（Apache 2.0许可），贡献者55人，代码30万行。
- 上下游生态包括DataOps工具（如DolphinScheduler）、FeatureOps平台及云原生部署方案。
未来规划
- v0.5.0将支持RocksDB、UDF及CSV/LIBSVM导入。
- 后续将推出云原生版本，并持续扩展SQL功能与分布式能力。
社区参与
- 欢迎开发者加入GitHub社区（https://github.com/4paradigm/OpenMLDB）。