登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
陈涛 -喜马拉雅大数据弹性云的方案演进
信息技术
2022-05-19
DataFunSummit2022:大数据计算架构峰会
LIHUYUN
集群现状、问题与优化
集群现状
:主存储集群单机房,750+ Hadoop机器(存算一体),存储Hadoop 3.2.1,总容量71PB(使用率68%,日净增量200TB);主计算集群Hadoop 2.9.2,26000核140T内存(日作业10w+,资源使用呈潮汐现象)。
典型问题
:Datanode和NodeManager相互影响(CPU、I/O负载,任务写入热点,Streaming任务落盘HDFS导致局部热点)。
优化措施
:
Cgroup限制Yarn资源使用
:提升响应速度和稳定性。
计算、存储磁盘隔离
:通过HDD/SSD隔离优化读写性能(HDFS/YARN读写延迟从12ms/50ms降至4ms/10ms)。
客户端支持HDFS忽略本地写
:适用于流任务,提升效率。
存储治理
挑战
:采购交付周期长(季度),业务增量难预估(日增200TB),冷数据无法删除(审计、财务),机房扩容受限。
存储分析
:FSImage解析调优、LevelDB缓存Path、多线程解析,5.7亿文件3小时解析写入Clickhouse,支持任意path秒级查询。
冷数据上云
:
方案
:业务设置表分区IDC保留时间,过期分区通过Spark上传至云上低频对象存储(Cos),Hive Metastore修改分区Location至Cos,计算平台透明读取。
效果
:业务透明,成本低于机房扩容。
计算弹性
挑战
:采购交付周期长,计算资源潮汐现象明显,业务难预估增量,机房扩容受限。
计算引擎XQL语法
:公共服务日任务8w+,15000core/40T内存,常驻Spark实例40+,P50/P75/P90延迟分别为20s/80s/250s。
弹性方案
:
云上EMR集群
:最小化维护,定时扩缩容,分钟级交付资源,存算分离提升CPU利用率。
流量重放
:支持Spark大版本升级、XQL新功能上线、上云迁移。
问题解决
:通过EMR前置脚本自动更新DNS/Hosts,CLB代理Knox实现业务透明日志查看,自行编译YARN去掉timestamp检查,EMR脚本分发jar。
计算加速
核心问题
:专线带宽限制。
多云调度
:多公有云EMR集群,XQL集群控制面统一管理。
计算透明缓存
:未来计划包括Spark K8S探索、Remote Shuffle Service生产落地、存算分离提升CPU利用率、APP大数据机器混合部署、HDFS透明加速(Alluxio/JindoFS)。
你可能感兴趣
云原生大数据平台架构演进——弹性、融合、开放-蔡适择
商贸零售
ArchSummit上海2023|全球架构师峰会
2023-06-06
云化与大数据并重,关注5G对公司业务的弹性
商贸零售
安信证券
2019-08-30
京东科技-孟祥涛-实时风险洞察的架构演进与思考(1)
商贸零售
DataFunSummit2023:智能风控峰会
2023-08-09
喜马拉雅-吴阕-Gene:喜马拉雅AI智能编程助手探索与演进
商贸零售
2023第十二届全球TOP100软件案例研究峰会
2024-08-21
基金优选系列之四十五:中庚基金陈涛:把握中长期反弹的逆向掘金者
商贸零售
西南证券
2023-09-06