登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
微信云原生大数据平台构建及落地实践-涂小刚
信息技术
2023-06-06
ArchSummit上海2023|全球架构师峰会
付瑶瑶瑶瑶瑶瑶瑶瑶瑶瑶瑶瑶瑶
微信云原生大数据平台构建及落地实践总结
一、大数据上云概述
1. 为什么大数据要上云
基础设施变迁
:从物理机到云主机/盘/网络,存算分离,多集群环境(专用、混部、GPU)。
业务需求
:支持业务灵活定制计算框架(自研/TensorFlow/mpi等),支持多种计算模式(CPU/GPU/混合)。
业界演进
:从IDC时代自研平台到云时代Kubernetes平台。
2. 微信大数据平台架构演进
早期架构
:自研资源调度和存储,组件耦合度高,运维成本大。
云原生架构
:基于Kubernetes,适配多种存储,支持主流计算框架,自研通用Job框架,集成丰富功能组件。
核心优势
:资源编排灵活、适配主流框架、高效任务调度、资源管理与智能运维。
二、大数据上云基础建设
1. 统一编排
接入方案
:Native vs Operator,推荐使用统一接入的BigData Operator简化提交端逻辑。
统一接入优势
:屏蔽框架差异,只需对接BigData Operator,支持跨集群部署。
关键功能
:提交超时控制、资源回收加强、hostNetwork网络适配优化。
2. Pod设计及大数据配套能力
Pod设计
:业务与agents多容器运行,最小化公共组件成本,最大化资源利用。
initContainer解耦
:平台提供运行环境,用户只需提供业务Jar,提高灵活性与稳定性。
运行日志持久化
:采用轻量级方案,通过COS存储日志,成本低且资源占用少。
Application UI访问
:基于NGINX动态路由,解决动态生成作业和静态资源加载问题。
3. 计算组件云环境适配
Spark外置Shuffle服务
:采用External Shuffle Service上云方案,提高稳定性和弹性。
Hadoop工具组件上云
:使用Spark替代Hadoop工具,实现功能平替。
Flink弹性伸缩
:使用Flink adaptive调度器实现TaskManager和JobManager的弹性伸缩。
三、稳定性及效率提升
1. K8S集群稳定性与弹性配额
稳定性优化
:Etcd核心数据分离、任务调度流水线提交、Operator限流。
弹性配额
:将quota限制从admission control迁移到scheduler,实现资源强制回收。
2. 可观测性与智能运维
可观测性建设
:接入内部告警系统,持久化event指标同步,全方位指标收集及监控。
智能运维
:多维监控系统异常通知,数据拉取及归因,移动端处理操作调整。
你可能感兴趣
火山引擎-张起彤-基于云原生范式构建开发者平台实践
商贸零售
2023第十二届全球TOP100软件案例研究峰会
2024-08-21
03-云原生跨域大数据架构落地实践-吴维伟
商贸零售
ArchSummit北京2023|全球架构师峰会
2023-06-06
04-美团大数据及机器学习基础设施云原生改造实践-吴通
商贸零售
ArchSummit北京2023|全球架构师峰会
2023-06-06
云原生时代背景下一体化智能可观测性平台落地实践
商贸零售
GOPS 全球运维大会 2023
2025-04-27
新能源数智平台及云原生实践
商贸零售
浙江移动舟山分公司
2023-04-29