登录
注册
回到首页
AI
搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
稳定币
低空经济
DeepSeek
AIGC
智能驾驶
大模型
当前位置:首页
/
行业研究
/
报告详情
陈涛 -喜马拉雅大数据弹性云的方案演进
信息技术
2022-05-18
DataFunSummit2022:大数据计算架构峰会
L***
AI智能总结
查看更多
集群现状、问题与优化
集群现状
:主存储集群单机房,750+ Hadoop机器(存算一体),存储Hadoop 3.2.1,总容量71PB(使用率68%,日净增量200TB);主计算集群Hadoop 2.9.2,26000核140T内存(日作业10w+,资源使用呈潮汐现象)。
典型问题
:Datanode和NodeManager相互影响(CPU、I/O负载,任务写入热点,Streaming任务落盘HDFS导致局部热点)。
优化措施
:
Cgroup限制Yarn资源使用
:提升响应速度和稳定性。
计算、存储磁盘隔离
:通过HDD/SSD隔离优化读写性能(HDFS/YARN读写延迟从12ms/50ms降至4ms/10ms)。
客户端支持HDFS忽略本地写
:适用于流任务,提升效率。
存储治理
挑战
:采购交付周期长(季度),业务增量难预估(日增200TB),冷数据无法删除(审计、财务),机房扩容受限。
存储分析
:FSImage解析调优、LevelDB缓存Path、多线程解析,5.7亿文件3小时解析写入Clickhouse,支持任意path秒级查询。
冷数据上云
:
方案
:业务设置表分区IDC保留时间,过期分区通过Spark上传至云上低频对象存储(Cos),Hive Metastore修改分区Location至Cos,计算平台透明读取。
效果
:业务透明,成本低于机房扩容。
计算弹性
挑战
:采购交付周期长,计算资源潮汐现象明显,业务难预估增量,机房扩容受限。
计算引擎XQL语法
:公共服务日任务8w+,15000core/40T内存,常驻Spark实例40+,P50/P75/P90延迟分别为20s/80s/250s。
弹性方案
:
云上EMR集群
:最小化维护,定时扩缩容,分钟级交付资源,存算分离提升CPU利用率。
流量重放
:支持Spark大版本升级、XQL新功能上线、上云迁移。
问题解决
:通过EMR前置脚本自动更新DNS/Hosts,CLB代理Knox实现业务透明日志查看,自行编译YARN去掉timestamp检查,EMR脚本分发jar。
计算加速
核心问题
:专线带宽限制。
多云调度
:多公有云EMR集群,XQL集群控制面统一管理。
计算透明缓存
:未来计划包括Spark K8S探索、Remote Shuffle Service生产落地、存算分离提升CPU利用率、APP大数据机器混合部署、HDFS透明加速(Alluxio/JindoFS)。
查看更多
你可能感兴趣
云原生大数据平台架构演进——弹性、融合、开放-蔡适择
信息技术
ArchSummit上海2023|全球架构师峰会
2023-06-06
云化与大数据并重,关注5G对公司业务的弹性
信息技术
安信证券
2019-08-30
京东科技-孟祥涛-实时风险洞察的架构演进与思考(1)
信息技术
DataFunSummit2023:智能风控峰会
2023-08-09
基金优选系列之四十五:中庚基金陈涛:把握中长期反弹的逆向掘金者
西南证券
2023-09-06
喜马拉雅-吴阕-Gene:喜马拉雅AI智能编程助手探索与演进
信息技术
2023第十二届全球TOP100软件案例研究峰会
2024-08-21