开源机器学习数据库OpenMLDB:线上线下一致的生产级特征计算平台
1. 背景与挑战
- 数据和特征挑战:正确、高效的AI数据和特征供给成为新的挑战。
- MLOps生命周期:包括DataOps、FeatureOps、ModelOps、ProductionOps等多个阶段。
2. OpenMLDB概述
- 定义:一个开源机器学习数据库,提供线上线下一致的特征计算平台。
- 应用场景:适用于决策类场景和开发场景,满足生产级上线需求的实时推荐系统。
3. 产品特性
- 线上线下一致性执行引擎
- 高性能在线特征计算引擎:采用双层跳跃列表和预聚合技术。
- 面向特征计算的优化的离线计算引擎:相比Spark,性能提升显著。
- SQL扩展:支持Last Join、Window Union等操作。
- 企业级特性:支持高可用、可扩展、监控、多租户等功能。
- 开发和管理体验:以SQL为核心,提供CLI和REST API访问。
4. 使用流程
- 离线开发到线上服务:包括离线数据导入、特征提取、SQL部署、实时数据流处理等步骤。
5. 典型案例
- 某银行事中反欺诈交易:通过SDK实时推送数据,实现毫秒级响应。
6. 发展历程
- 2021年:正式宣布开源,首个零售客户落地。
- 2022年:多个版本发布,支持Rest API访问,优化代码风格和注释。
- 未来计划:云原生OpenMLDB,更多连接器支持。
7. 社区与贡献
- 贡献者:55位贡献者,30万+代码行。
- 开源许可:Apache Licence 2.0。
- GitHub地址:https://github.com/4paradigm/OpenMLDB。
8. 后续计划
- 云原生:增强平台的云原生支持。
- 连接器:提供更多连接器支持。
9. 结语
欢迎加入OpenMLDB开源社区,共同推动AI工程化的发展。