登录
注册
回到首页
AI
搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
稀土
低空经济
DeepSeek
AIGC
智能驾驶
大模型
当前位置:首页
/
行业研究
/
报告详情
微信云原生大数据平台构建及落地实践-涂小刚
信息技术
2023-06-06
ArchSummit上海2023|全球架构师峰会
付***
AI智能总结
查看更多
微信云原生大数据平台构建及落地实践总结
一、大数据上云概述
1. 为什么大数据要上云
基础设施变迁
:从物理机到云主机/盘/网络,存算分离,多集群环境(专用、混部、GPU)。
业务需求
:支持业务灵活定制计算框架(自研/TensorFlow/mpi等),支持多种计算模式(CPU/GPU/混合)。
业界演进
:从IDC时代自研平台到云时代Kubernetes平台。
2. 微信大数据平台架构演进
早期架构
:自研资源调度和存储,组件耦合度高,运维成本大。
云原生架构
:基于Kubernetes,适配多种存储,支持主流计算框架,自研通用Job框架,集成丰富功能组件。
核心优势
:资源编排灵活、适配主流框架、高效任务调度、资源管理与智能运维。
二、大数据上云基础建设
1. 统一编排
接入方案
:Native vs Operator,推荐使用统一接入的BigData Operator简化提交端逻辑。
统一接入优势
:屏蔽框架差异,只需对接BigData Operator,支持跨集群部署。
关键功能
:提交超时控制、资源回收加强、hostNetwork网络适配优化。
2. Pod设计及大数据配套能力
Pod设计
:业务与agents多容器运行,最小化公共组件成本,最大化资源利用。
initContainer解耦
:平台提供运行环境,用户只需提供业务Jar,提高灵活性与稳定性。
运行日志持久化
:采用轻量级方案,通过COS存储日志,成本低且资源占用少。
Application UI访问
:基于NGINX动态路由,解决动态生成作业和静态资源加载问题。
3. 计算组件云环境适配
Spark外置Shuffle服务
:采用External Shuffle Service上云方案,提高稳定性和弹性。
Hadoop工具组件上云
:使用Spark替代Hadoop工具,实现功能平替。
Flink弹性伸缩
:使用Flink adaptive调度器实现TaskManager和JobManager的弹性伸缩。
三、稳定性及效率提升
1. K8S集群稳定性与弹性配额
稳定性优化
:Etcd核心数据分离、任务调度流水线提交、Operator限流。
弹性配额
:将quota限制从admission control迁移到scheduler,实现资源强制回收。
2. 可观测性与智能运维
可观测性建设
:接入内部告警系统,持久化event指标同步,全方位指标收集及监控。
智能运维
:多维监控系统异常通知,数据拉取及归因,移动端处理操作调整。
你可能感兴趣
火山引擎-张起彤-基于云原生范式构建开发者平台实践
信息技术
2023第十二届全球TOP100软件案例研究峰会
2024-08-21
03-云原生跨域大数据架构落地实践-吴维伟
信息技术
ArchSummit北京2023|全球架构师峰会
2023-06-06
04-美团大数据及机器学习基础设施云原生改造实践-吴通
信息技术
ArchSummit北京2023|全球架构师峰会
2023-06-06
云原生时代背景下一体化智能可观测性平台落地实践
信息技术
GOPS 全球运维大会 2023
2025-04-27
新能源数智平台及云原生实践
浙江移动舟山分公司
2023-04-29