行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

天穹SuperSQL如何应对数据湖场景中的复杂多维分析

信息技术 2023-07-12 DataFunSummit2023：数据湖架构峰会李艺华🌸

SuperSQL技术架构及未来展望

SuperSQL技术架构介绍

SuperSQL整体架构

SuperSQL依托腾讯大数据生态，旨在打造完整的大数据极速查询解决方案。其核心目标是：

持续完善自适应计算能力
实现三网合一的云原生化，减少大型复杂查询的等待痛点
构建高性能的融合分布式计算框架，实现引擎层的闭环统一管理

架构设计

SuperSQL采用计算解耦与计算融合的设计理念：

计算解耦：快速构建，复用开源计算引擎；轻量级解耦，减少侵入性修改；场景自适应，智能挑选主流执行引擎。
计算融合：支持跨源（不同类型/版本数据源）、跨引擎（多类分布式计算引擎）、跨DC（跨集群/地域的SQL编排）。

SuperSQL技术沙盘

SuperSQL自适应计算引擎

SQL兼容：通过插件式解析模块支持多引擎，将SQL语法分为通用型和独特型，模板化管理，灵活切换。
计算引擎自适应：从人工到智能的实践，包括RBO、CBO、HBO和AI预测等引擎选择规则，并支持Failover机制。

新一代实时湖仓融合平台

传统实时湖仓一体架构：优点是增量读取，实时性好，稳定性高，但查询性能一般。
实时湖仓融合架构：数据实时性更高，接入简单，查询性能更优，但相较于Iceberg等湖格式，支持的能力欠缺。
实时/离线数据入仓：包括离线数据入仓和实时数据入仓及降冷。
自适应融合查询：通过自适应冷热导流分层，利用分析型存储的datalocality能力对实时热数据进行快速查询处理。
- 完全命中热数据：直接下推到底层系统。
- 部分命中热查询：通过Spark/Presto引擎联邦查询或下推到底层系统。
- 没有命中热数据：按正常流程处理。
查询优化：
- SR访问Iceberg性能优化：FE侧优化包括Collect CBO STATS、Join ReOrder、Partition Prune等；BE侧优化包括调度Fragment执行、Fragment MPP pipeline IcebergScanNode向量化实现。
- 引入alluxio缓存metadata：缓解跨集群访问HDFS带来的io开销，将metadata cache到alluxio。

性能测试报告

基于TPC-H标准数据集(100GB)的测试对比：

SR内表查询性能分别是Presto查询Iceberg的4-65倍，是SR直接查Iceberg表的1-25倍。
SuperSQL融合查询可提升业务性能约3倍。

未来展望

未来计划

完善SuperSQL自适应能力，向更智能迈进。
完善湖仓融合平台能力，支持更多数据湖能力。
优化计算平台查询数据湖的性能。
优化数据湖格式等。

演讲人：程广旭-腾讯TEG数据平台部未来展望自适应计算引擎实时湖仓融合 SuperSQL技术架构介绍 SuperSQL整体架构架构 SuperSQL目标目标 l依托腾讯大数据生态，持续完善自适应计算能力，打造完整的大数据极速查询解决方案l实现三网合一的云原生化，减少大型复杂查询的等待痛点l持续探索技术先进性，构建高性能的融合分布式计算框架，实现引擎层的闭环统一管理计算解耦计算融合 l快速构建：不重复“造轮子”，复用开源计算引擎l轻量级解耦：不强依赖特定引擎，少做侵入性修改l场景自适应：根据SQL特征，智能挑选主流执行引擎 l跨源：支持访问不同类型/版本的数据源l跨引擎：支持外接多类分布式计算引擎l跨DC：支持跨集群/地域的SQL编排 SuperSQL技术沙盘 SuperSQL自适应计算引擎 SQL兼容：插件式解析模块，支持多引擎背景：大数据引擎/数据源异构多样，存在SQL语法的差异，业务任务进行迁移或引擎切换时，无法使用同一查询语句，给业务带来不便 Ø部分语法与业务强耦合，定制化严重 Ø语法强行融合到单一规范，导致冲突和歧义问题 l语法种类，将其分为通用型和独特型 lSQL语法模板化，分类管理，灵活切换 Ø执行引擎多样，需要做到业务SQL脚本的无感切换 l找到实现业务SQL的等价引擎表达式，生成映射关系 l基于映射关系重写语法树，基于引擎方言生成合规SQL 计算引擎自适应：人工到智能的实践引擎选择规则 •RBO：SQL类型、引擎是否支持等•CBO：SQL复杂度、算力感知等•HBO：历史SQL执行情况等•AI预测：提取SQL特征，选择合适引擎 Failover：SuperSQL为某条用户SQL智能计算提效，但后续提交所选引擎执行失败，需要failover其它引擎执行新一代实时湖仓融合平台传统实时湖仓一体架构优点： •增量读取，实时性好•相较MQ更加稳定性 •查询借助外部引擎，查询性能一般实时湖仓融合架构优点：缺点： •数据实时性更高，接入简单•查询性能更优 •相较于iceberg等湖格式，支持的能力欠缺实时/离线数据入仓离线数据入仓实时数据入仓及降冷自适应融合查询自适应冷热查询：自适应冷热导流分层，利用分析型存储的datalocality能力对实时热数据进行快速查询处理。元数据关联 •在数据湖表属性中，映射热数据相关信息融合查询 •完全命中热数据：直接下推到底层系统•部分命中热查询：通过spark/presto引擎联邦查询，或者下推到底层系统•没有命中热数据：按正常流程处理查询优化:SR访问Iceberg性能优化 FE侧优化 •Collect CBO STATS•JoinReOrder•PartitionPrune•PredicatePushDown•Limit下推•MetadataFileIOcache BE侧优化 •BE调度Fragment执行•Fragment MPP pipelineIcebergScanNode向量化实现查询优化:引入alluxio缓存metadata 在manifest文件较多或者宽表场景，读取manifest文件本身可能会成为瓶颈，为了缓解跨集群访问HDFS带来的io开销，读取时将metadata cache到alluxio 首次读metadata会做文件级别cache到alluxio，后面query都可以利用cache 性能测试报告本节主要是基于TPC-H标准数据集(100GB)，对比了SR内表、使用SR和presto查询iceberg的查询性能，经过对比结论如下： •SR内表查询性能分别是Presto查询iceberg的4-65倍，是SR直接查iceberg表的1-25倍•通过SuperSQL融合查询可以给业务带来明显的性能提升，预计可提升3倍左右未来展望未来计划 •完善SuperSQL自适应能力，向更智能迈进•完善湖仓融合平台能力，支持更多数据湖能力•优化计算平台查询数据湖的性能•优化数据湖格式等感谢您的观看演讲人：程广旭-腾讯TEG数据平台部

点击免费查看完整报告

天穹SuperSQL如何应对数据湖场景中的复杂多维分析

SuperSQL技术架构及未来展望

SuperSQL技术架构介绍

SuperSQL整体架构

架构设计

SuperSQL技术沙盘

SuperSQL自适应计算引擎

新一代实时湖仓融合平台

性能测试报告

未来展望

未来计划

你可能感兴趣

7-1 多维分析在云产品计量计费场景中的应用

伙伴关系的力量：赠款资助的多利益相关者平台如何播种解决方案以应对复杂挑战

应对冲突危机中的复杂挑战：来自尼日利亚东北部的证据

如何应对系统文献综述中用于数据提取的人工智能的挑战

8-3 StarRocks 在游族的多维分析场景与落地实践

量化投资需要使用大量数据和复杂算法来寻找市场中的投资机会，策略的成功与数数齐升

6-4 基于数据湖技术的近实时场景实践

点评中央经济工作会议：如何应对经济运行中的“变中有忧”？

日本出口如何应对国际生产网络中的两次危机？：全球金融危机和东日本地震

全球研究生态系统中研究安全与学术自由的碰撞: 各国如何应对?

天穹SuperSQL如何应对数据湖场景中的复杂多维分析

你可能感兴趣

7-1 多维分析在云产品计量计费场景中的应用

伙伴关系的力量：赠款资助的多利益相关者平台如何播种解决方案以应对复杂挑战

应对冲突危机中的复杂挑战：来自尼日利亚东北部的证据

如何应对系统文献综述中用于数据提取的人工智能的挑战

8-3 StarRocks 在游族的多维分析场景与落地实践

量化投资需要使用大量数据和复杂算法来寻找市场中的投资机会，策略的成功与数数齐升

6-4 基于数据湖技术的近实时场景实践

点评中央经济工作会议：如何应对经济运行中的“变中有忧”？

日本出口如何应对国际生产网络中的两次危机 ？ ： 全球金融危机和东日本地震

全球研究生态系统中研究安全与学术自由的碰撞: 各国如何应对?

日本出口如何应对国际生产网络中的两次危机？：全球金融危机和东日本地震