Apache Doris(Incubating)极速1.0版本解析与未来规划
Apache Doris特性一览
Apache Doris 是一款极速OLAP数据库,具备以下核心特性:
- 极简架构:简化系统设计,提高运维效率。
- 高效自运维:自动化运维,降低管理成本。
- 高并发场景支持:单机支持1000qps,可横向扩展。
- MPP执行引擎:多节点并行处理,提升查询性能。
- 明细与聚合数据:支持明细+聚合统一存储,保证数据一致性。
- 便捷数据接入:支持一键订阅Kafka、Flink/SparkConnector、ODBCConnector等,便于批量及流式数据导入。
- 弹性扩展:支持分区裁剪、数据自动均衡,实现弹性伸缩。
- 多副本容灾与修复:提高系统可靠性。
- 无第三方依赖:独立运行,降低依赖风险。
- MySQL协议:兼容MySQL协议,方便迁移。
- 标准SQL语法:支持标准SQL,降低学习成本。
Apache Doris1.0版本解析
Apache Doris 1.0版本以“极速、稳定、多源”为核心,主要优化包括:
- 极速:采用向量化引擎、列式内存布局、向量化计算框架、Cache亲和度、虚函数调用、SIMD指令等技术,显著提升查询性能。
- 稳定:通过内存可控设计、可观测局部内存占用、严格监控内存申请等措施,避免OutOfMemory问题。
- 多源:支持访问Hive外表、自动同步Iceberg外表,逐步形成完善的湖仓一体生态。
核心技术细节
- 向量化引擎:通过向量化计算框架提升计算效率。
- 内存可控:基于全内存执行框架,优化内存使用,防止内存超限。
- 多源支持:逐步支持Hive和Iceberg,构建湖仓一体生态。
Apache Doris未来规划
Apache Doris的未来发展方向包括:
- 湖仓一体:整合数据湖与数据仓库功能。
- 存算分离:采用S3存储和无状态计算,实现低成本弹性扩展。
- 实时写入:支持高并发写入场景,如IoT数据。
- 稳定性与可观测性:提升系统稳定性,引入Tracing技术提高可观测性。
- 引入Multi-Catalog:支持多目录管理。
- 支持Apache Hudi:集成Hudi,增强数据湖功能。
- 支持MergeonRead:优化数据读取性能。
Apache Doris开源社区
Apache Doris是一个活跃的开源社区:
- 贡献者:共294名贡献者,月活贡献者50+。
- 社区理念:CommunityOverCode。
- 资源链接:GitHub仓库、Roadmap2022文档。
- 新手任务:提供多种新手任务,欢迎联系dev@doris.apache.org参与。
更多新特性详情,请参考doris.apache.org。