您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[DataFunSummit2023:数据湖架构峰会]:天穹SuperSQL如何应对数据湖场景中的复杂多维分析 - 发现报告

天穹SuperSQL如何应对数据湖场景中的复杂多维分析

AI智能总结
查看更多
天穹SuperSQL如何应对数据湖场景中的复杂多维分析

演讲人:程广旭-腾讯TEG数据平台部 未来展望 自适应计算引擎 实时湖仓融合 SuperSQL技术架构介绍 SuperSQL整体架构 架构 SuperSQL目标 目标 l依托腾讯大数据生态,持续完善自适应计算能力,打造完整的大数据极速查询解决方案l实现三网合一的云原生化,减少大型复杂查询的等待痛点l持续探索技术先进性,构建高性能的融合分布式计算框架,实现引擎层的闭环统一管理 计算解耦 计算融合 l快速构建:不重复“造轮子”,复用开源计算引擎l轻量级解耦:不强依赖特定引擎,少做侵入性修改l场景自适应:根据SQL特征,智能挑选主流执行引擎 l跨源:支持访问不同类型/版本的数据源l跨引擎:支持外接多类分布式计算引擎l跨DC:支持跨集群/地域的SQL编排 SuperSQL技术沙盘 SuperSQL自适应计算引擎 SQL兼容:插件式解析模块,支持多引擎 背景:大数据引擎/数据源异构多样,存在SQL语法的差异,业务任务进行迁移或引擎切换时,无法使用同一查询语句,给业务带来不便 Ø部分语法与业务强耦合,定制化严重 Ø语法强行融合到单一规范,导致冲突和歧义 问题 l语法种类,将其分为通用型和独特型 lSQL语法模板化,分类管理,灵活切换 Ø执行引擎多样,需要做到业务SQL脚本的无感切换 l找到实现业务SQL的等价引擎表达式,生成映射关系 l基于映射关系重写语法树,基于引擎方言生成合规SQL 计算引擎自适应:人工到智能的实践 引擎选择规则 •RBO:SQL类型、引擎是否支持等•CBO:SQL复杂度、算力感知等•HBO:历史SQL执行情况等•AI预测:提取SQL特征,选择合适引擎 Failover:SuperSQL为某条用户SQL智能计算提效,但后续提交所选引擎执行失败,需要failover其它引擎执行 新一代实时湖仓融合平台 传统实时湖仓一体架构 优点: •增量读取,实时性好•相较MQ更加稳定性 •查询借助外部引擎,查询性能一般 实时湖仓融合架构 优点: 缺点: •数据实时性更高,接入简单•查询性能更优 •相较于iceberg等湖格式,支持的能力欠缺 实时/离线数据入仓 离线数据入仓 实时数据入仓及降冷 自适应融合查询 自适应冷热查询:自适应冷热导流分层,利用分析型存储的datalocality能力对实时热数据进行快速查询处理。 元数据关联 •在数据湖表属性中,映射热数据相关信息 融合查询 •完全命中热数据:直接下推到底层系统•部分命中热查询:通过spark/presto引擎联邦查询,或者下推到底层系统•没有命中热数据:按正常流程处理 查询优化:SR访问Iceberg性能优化 FE侧优化 •Collect CBO STATS•JoinReOrder•PartitionPrune•PredicatePushDown•Limit下推•MetadataFileIOcache BE侧优化 •BE调度Fragment执行•Fragment MPP pipelineIcebergScanNode向量化实现 查询优化:引入alluxio缓存metadata 在manifest文件较多或者宽表场景,读取manifest文件本身可能会成为瓶颈,为了缓解跨集群访问HDFS带来的io开销,读取时将metadata cache到alluxio 首次读metadata会做文件级别cache到alluxio,后面query都可以利用cache 性能测试报告 本节主要是基于TPC-H标准数据集(100GB),对比了SR内表、使用SR和presto查询iceberg的查询性能,经过对比结论如下: •SR内表查询性能分别是Presto查询iceberg的4-65倍,是SR直接查iceberg表的1-25倍•通过SuperSQL融合查询可以给业务带来明显的性能提升,预计可提升3倍左右 未来展望 未来计划 •完善SuperSQL自适应能力,向更智能迈进•完善湖仓融合平台能力,支持更多数据湖能力•优化计算平台查询数据湖的性能•优化数据湖格式等 感谢您的观看 演讲人:程广旭-腾讯TEG数据平台部