登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
路项浩- 美团 Spark Shuffle 架构演进
信息技术
2022-05-19
DataFunSummit2022:大数据计算架构峰会
小酒窝大门牙
美团Spark Shuffle架构演进总结
美团Spark概况
每天Spark作业数:60万+
SparkETL数:20万+
ETL中使用Spark比例:97%+
Spark作业占离线集群资源比例:70%
单日shuffle量:70PB+
单作业最大shuffle量:500TB
Spark基本原理
Spark shuffle过程涉及数据从Mapper端到Reducer端的传输与存储。
Spark1.x 2.x Shuffle问题
热点读(时间&空间的负载均衡)
Stage调度机制问题
Container复用效率低
资源调度不灵活
缺乏流控机制
随机读性能问题
Block数过多且小
数据无备份机制
业内优化方案
升级存储:LocalDisk改为ExternalStorage(如SPARK-25299、MemVerge)
重新组织数据:利用独立Shuffle集群,面向Reducer重新组织数据(如FaceBook、阿里、百度、京东、腾讯、美团等)
美团RSS
建设思路
目标:
提高Shuffle稳定性,新模式下成功率100%
大Shuffle效率不低于原生Shuffle
能力:
负载均衡
ShuffleRead/Write
流控
降低磁盘IO
数据备份
Shuffle问题解决
热点读:通过Reducer请求RSS节点merge数据降低请求数
负载不均衡:Shuffle Write一致性Hash、ShuffleRead HDFS负载均衡
无流控:反压机制
随机读:顺序读面向Reducer组织数据
数据无备份:HDFS三副本机制
设计要点
数据一致性:
Mapper端AtLeastOnceSend
CRC32校验
元数据校验
Reducer幂等处理
稳定性:
超时未ACK重新发送
自动剔除问题RSS节点
流控:
指标监控
Ketama一致性Hash
AQE支持
SkewJoin读放大,数据一致性
SMJ转BHJ读放大
测试上线
测试验证:
TPC-DS验证
上线作业验证
回退策略:
参数化配置shuffle策略
初期双跑
线上作业失败自动回退原生Shuffle
上线策略:
初期作业粒度灰度
后续SLA作业默认使用
白名单控制
上线收益
0%因Shuffle慢/失败导致SLA打破
70%+作业ShuffleFetch平均等待时间下降
10%+作业平均执行时间节省
Push-based Shuffle (SPARK-3060206)
架构
复用离线集群资源,硬件无隔离
Push小Block解决随机读,但非所有数据Push(大Block不Push,超时未Push)
关键点考虑
不能全局协调资源,负载均衡效果受限
效果受多种因素影响:作业获取资源、Reduce并发数、磁盘IOUtil变化、数据存储量
Shuffle问题解决
热点读:部分解决
无流控:未解决
随机读:部分解决
数据无备份:部分解决
负载不均衡:未解决
测试验证
磁盘IOUtil变化、HDFSRead、ShuffleRead/Write、磁盘存储量变化
ShuffleRead时间变化:15%-->8%
方案对比
美团RSS vs Push-based Shuffle:
RSS:解决热点读、流控、部分随机读,有数据备份,负载均衡效果较好
Push-based:部分解决热点读和随机读,无流控和全局协调,效果受多因素影响
后续计划
美团RSS:
解决读放大问题
更精细的负载均衡
提高Shuffle独立集群资源利用率
Push-based Shuffle:
线上调优验证&落地
Shuffle资源的全局调配
Shuffle服务化
Shuffle模式的自动选择
代码融合,引擎统一
你可能感兴趣
架构师特刊:互联网企业实时计算架构演进
商贸零售
InfoQ 中文站
2020-08-20
小红书云原生架构的演进 - 贺晋如
商贸零售
2022 杭州·云栖大会
2022-11-08
深度学习模型架构的演进和趋势_单瀛_opt(1)
商贸零售
ArchSummit深圳2022|全球架构师峰会
2022-07-19
众安金融架构演进实战 - 韩冬振
商贸零售
ArchSummit杭州2022|全球架构师峰会
2022-11-02
智能电动汽车EE架构的演进路线
商贸零售
长安汽车
2023-11-01