行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

Blaze ： SparkSQL 本机算子化在快手的设置与实践

信息技术 2023-07-12 DataFunSummit2023：数据湖架构峰会「若久」

Blaze：SparkSQL本机算子化在快手的设置与实践

什么是Blaze

Blaze是Apache Spark的加速器，利用本机向量执行加速查询处理，结合Apache Arrow-DataFusion库的功能和Spark分布式计算框架的规模优势。

发动机路线图

Blaze的路线图包括Relation作品等。

体系结构和实施细节

体系结构溢出

Blaze的体系结构包括会话扩展、Plan SerDe、JNI网关和Native Operators等组件。

高级组件

Blaze会话扩展：将整个加速器挂钩到Spark执行生命周期中。
Plan SerDe：使用protobuf对DataFusion计划进行序列化和反序列化。
JNI网关：通过JNI边界传递数据和控制。
Native Operators：定义每个SparkPlan如何映射到本地执行副本。

Execution Flow详细信息

物理计划转换：生成并提交原生计划。
本机执行：进行本机执行。

Contribution to DataFusion

内存管理。
Remote Storage API。
SortExec与溢出。
SortMergeJoinExec。
SortPrevservingMergeExec通过TournamentTree优化。

运营商覆盖范围

涵盖多种运算符。

Beachmark

传递所有tpc-ds查询。
单个查询q82的性能提升高达10倍。
所有查询的平均性能提升2倍。

灰色发布和在线收入

在线CPU绑定作业。
单个查询的性能提升高达4.3倍。
平均2倍性能提升。

未来工作

大规模在线使用。
提高数据类型和运营商覆盖率。
抽象界面和支持更多引擎。
为开源社区做出贡献。

Blaze ： SparkSQL 本机算子化在快手的设置与实践王 | 快 ØØØ体系结构和实施细节当前进展和未来工作什么是 Blaze WhatisBlaze 发动机路线图 Relation作品什么是 Blaze l The Blaze 是 Apache Spark 的加速器 l Blaze 利用本机向量执行加速查询处理。它结合了 Apache Arrow-DataFusion 库的强大功能和 Spark 分布式计算框架的规模优势。 &Relationship ofBlazeDataFusion 体系结构和实施细节体系结构溢出一个简单的演示高级组件 l Blaze 会话扩展：将整个加速器挂钩到 Spark 执行生命周期中 l Plan SerDe ：使用 protobuf 对 DataFusion 计划进行序列化和反序列化 l JNI 网关：通过 JNI 边界传递数据和控制 l Native Operators ：定义每个 SparkPlan 如何映射到本地执行副本 ExecutionFlow详细信息物理计划转换生成并提交原生计划 lNative 执行物理计划转换生成并提交原生计划本机执行更多实施细节与 UDF 兼容 lMemory 管理 lmore efficient operator implementation 兼容内存管理更高效的运营商实现：lSort 操作sort _ 在生锈时不稳定：lHashMaphashbrown (SwissTable hashmap)：比较操作箭头行：lColumnarized Shuffle按自定义格式按列组织的 shuffle 数据文件 ContributiontoDataFusion lMemory 管理 lRemote Storage API lSortExec 与溢出 lSortMergeJoinExec lSortPrevservingMergeExec 通过 TournamentTree 优化运营商覆盖范围 Beachmark • 传递所有 tpc - ds 查询 • 单个查询 q82 的性能提升高达 10 倍 • 所有查询的平均性能提升 2 倍灰色发布和在线收入 • 在线 CPU 绑定作业 • 单个查询的性能提升高达 4.3 倍 • 平均 2 倍性能提升未来工作 Ø 大规模在线使用Ø 提高数据类型和运营商覆盖率Ø 抽象界面和支持更多引擎Ø 为开源社区做出贡献感谢您的观看

点击免费查看完整报告

Blaze ： SparkSQL 本机算子化在快手的设置与实践