01 AdaptiveQueryExecution(AQE)概述
- AQE概念发展历程:从Spark2.x引入AQE概念,到Intel社区提出新框架,再到Spark社区基于Intel思路重构并默认开启AQE
- AQE核心优化方向:
- Shuffle优化:
- SmallReducePartition:采用CoalesceShufflePartition进行优化
- SkewedReducePartition:通过OptimizeSkewedJoin和OptimizeSkewInRebalancePartition解决倾斜问题
- Plan优化:实现DynamicJoinSelection动态选择最优连接计划
02 Kyuubi+Spark数仓类任务优化实践
- 架构层面:
- 支持Thrift/JDBC/Rest多种接入方式
- 具备多租户能力
- 具备云原生特性
- 安全层面:
- 支持Kerberos认证
- 支持Kerberos-Proxy代理
- 集成Ranger权限管理
- 方案实践:
- 推荐使用Rebalance+Z-Order优化Shuffle分区,避免DistributeBy+LocalSort
- 数据优化效果: