AI智能总结
Blaze : SparkSQL 本机算子化在快手的设置与实践 王 | 快 ØØØ体系结构和实施细节当前进展和未来工作什么是 Blaze WhatisBlaze 发动机路线图 Relation作品 什么是 Blaze l The Blaze 是 Apache Spark 的加速器 l Blaze 利用本机向量执行加速查询处理。它结合了 Apache Arrow-DataFusion 库的强大功能和 Spark 分布式计算框架的规模优势。 &Relationship ofBlazeDataFusion 体系结构和实施细节 体系结构溢出 一个简单的演示 高级组件 l Blaze 会话扩展 : 将整个加速器挂钩到 Spark 执行生命周期中 l Plan SerDe : 使用 protobuf 对 DataFusion 计划进行序列化和反序列化 l JNI 网关 : 通过 JNI 边界传递数据和控制 l Native Operators : 定义每个 SparkPlan 如何映射到本地执行副本 ExecutionFlow详细信息 物理计划转换 生成并提交原生计划 lNative 执行 物理计划转换 生成并提交原生计划 本机执行 更多实施细节 与 UDF 兼容 lMemory 管理 lmore efficient operator implementation 兼容 内存管理 更高效的运营商实现 :lSort 操作sort _ 在生锈时不稳定:lHashMaphashbrown (SwissTable hashmap):比较操作箭头行:lColumnarized Shuffle按自定义格式按列组织的 shuffle 数据文件 ContributiontoDataFusion lMemory 管理 lRemote Storage API lSortExec 与溢出 lSortMergeJoinExec lSortPrevservingMergeExec 通过 TournamentTree 优化 运营商覆盖范围 Beachmark • 传递所有 tpc - ds 查询 • 单个查询 q82 的性能提升高达 10 倍 • 所有查询的平均性能提升 2 倍 灰色发布和在线收入 • 在线 CPU 绑定作业 • 单个查询的性能提升高达 4.3 倍 • 平均 2 倍性能提升 未来工作 Ø 大规模在线使用Ø 提高数据类型和运营商覆盖率Ø 抽象界面和支持更多引擎Ø 为开源社区做出贡献 感谢您的观看