您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[DataFunSummit2023:数据湖架构峰会]:Datafun-数据湖联邦分析特性揭秘 - 发现报告

Datafun-数据湖联邦分析特性揭秘

AI智能总结
查看更多
Datafun-数据湖联邦分析特性揭秘

陈明雨ApacheDorisPMCMember 01Apache Doris数仓一体的思考 02ApacheDoris数据湖特性揭秘 03案例分享 04社区规划 Apache Doris数仓一体的思考 湖仓一体的思考 数据库、数据仓库和数据湖 •数据库:事务处理•数据仓库:数据分析、清洗后的高价值数据•数据湖:低成本海量数据存储、数据管理的一体化解决方案 湖仓一体 •湖、仓数据的无缝集成•湖、仓数据的自由流转 湖仓一体的思考 湖仓查询加速 •提供高效的湖上数据查询加速 统一数据分析网关 •提供各类异构数据源的查询和写入能力 统一数据集成 •多数据源的增量数据同步、加工处理、数据导出 更加开放的数据生态 •开放的数据格式和数据管理 特性一览 ·支持Externaltable、ManagedTable·兼容Hive1.x,2.x,3.x·支持元数据手动、自动同步 ·自动映射全量Index信息·SQL支持·扩展的ES查询语法 ·lcebergV1、V2·TimeTraval·HMSCatalog、RestCatalog、AwsGlue ·Copy-On-Write·Merge-On-Read:·SnapshotQuery/ReadOptimizedQuery ·SQL分析:Parquet/ORC/Text·Schema的自动推导 特性一览-元数据连接 统一的元数据结构 •屏蔽不同数据源的元数据差异。 可扩展的元数据连接框架 •低成本、快速地接入数据源。 高效的元数据访问能力 •提供可靠、高效的元数据访问性能,并支持实时同步元数据变更。 自定义鉴权服务 •能够灵活对接外部的权限管理系统,降低业务迁移成本。 特性一览-元数据连接 特性一览-元数据连接 跨数据源访问 可扩展的元数据连接框架 •Hive、AWSGlue、AliyunDLF… 特性一览-元数据连接 高效的元数据访问 •元数据缓存•元数据实时同步 Listen 特性一览-元数据连接 统一鉴权服务 •ApacheRanger、自定义鉴权插件•授权、审计、数据加密 特性一览-数据访问 特性一览-数据访问 Arrow Parquet Reader Native Parquet Reader z•直接转换为内部内存格式•PageIndex更精确过滤无用数据•利用BloomFilter过滤数据•支持字典编码•支持延迟物化 z•多一层内存格式转换•无法利用PageIndex•不支持BloomFilter•不支持字典编码 特性一览-数据访问 •LocalFileCache•一致性哈希 特性一览-数据访问 z•Scan节点仅需关注数据源自身的访问•无需关系上层复杂的调度和执行逻辑•接入新数据源:1人周•完备的极速向量化引擎•基于代价的查询优化器•算子优化 •PredicatePushdown•JoinRuntimeFilter•StreamingAggregation •通用查询能力的分层•Scan算子的通用框架•统计信息和代价模型 特性一览-性能表现 负载管理与弹性计算 •弹性计算节点•支持K8S部署 RemoteStorage •无状态的BE节点,快速承接外部数据访问的计算负载•弹性伸缩 案例分享 案例分享 社区规划 社区规划 更丰富的数据源支持 •HudiMerge-on-Read•Multi-ModelIndexonIceberg/Hudi•DeltaLake•Paimon(FlinkTableStore) 数据集成 •CDC、增量物化视图•GitLike数据管理与访问•数据写回 资源隔离与调度 •批处理、Ad-hoc混合负载 关于ApacheDoris doris.apache.org github.com/apache/doris 最活跃的开源社区之一 •月活跃开发者100+;累计开发者400+ 丰富的社区支持 •开发者邮件组:dev@doris.apache.org•微信用户群、Slack 基于ApacheDoris的商业化支持 •阿里云EMR、百度云Palo、腾讯云CDW•SelectDBCloud 加入我们 订阅开发者邮件组 •发送任意邮件至:dev-subscribe@doris.apache.org Slack: •https://apachedoriscommunity.slack.com/ssb/redirect 微信用户群: •扫码即可加入 感谢您的观看 欢迎关注Apache Doris GitHub !