vivo互联网 大数据架构师/ 易龙
目录
•vivo数据集成平台架构及功能•vivo数据集成稳定性保障实践•vivo数据集成链路数据质量保障实践•vivo数据集成可观测实践
vivo数据集成平台架构及功能
产品能力地图
Bees,是vivo的一站式数据集成平台,它支持将多场景下多样化、分散的数据源,统一汇聚到大数据存储,是数据流入大数据体系的一座桥梁。
分层架构图
核心组件架构图
Bees监控模块监控、指标展示与告警Bees-Manager工单接入管理任务管理采集配置管理中心用户平台服务【极重要】Bees-SDK数据接入 SDK 工具包Bees-Agent源端日志接入组件部署在业务机器影响CPU、内存、文件句柄、IOBees-Bus数据传输管道服务【极重要】Bees-X:实时数据同步服务支持binlog日志采集mongdb oplog实时采集支持其他异构数据源数据同步
核心功能介绍
实时日志接入
核心问题及挑战
痛点问题
核心挑战
核心问题维度
被动接收告警,问题定位恢复慢散点式救火,运维成本高数据产出时效性波动大告警多而杂,处理成本高
如何从根本上长效的保障稳定性如何从全链路视角保障数据时效性如何有效准确的告警并快速恢复
链路稳定性链路数据质量链路可观测性
vivo数据集成稳定性保障实践
稳定性保障整体方案
MTBF:(Mean Time Between Failures),平均故障间隔时间MTTF:(Mean Time To Failure),平均无故障时间MTTR:(Mean Time To Repair),平均修复时间
架构组件:核心服务&存储 多活高可用
核心服务多活高可用服务拆分多节点部署跨机房容灾
存储多活高可用跨机房容灾Proxy,无中心集群,支持高可用Agent,基于Raft选主,支持高可用节点均支持动态扩缩容Proxy配置基于Zookeeper进行同步,保障一致性
架构组件:核心组件支持健康检查
链路核心组件心跳上报异常及时发现,追数补数
架构组件:物理标签隔离机制
标签统一通过bees-manger管理不同业务任务分配不同标签按标签和bees-bus建立连接bees-bus使用大内存物理机器同一台bus机器负责一个业务bees-bus备机池,及时扩容
架构组件-实时链路容灾: SDK落盘重发机制
平台化配置管控配置动态感知支持落多目录多文件
架构组件-实时链路容灾:数据反压缓存动态落盘重发
上下游联动,及时感知异常全链路流量波动监控及时数据反压告警引入Fqueue落盘支持顺序写落盘支持落单盘和多盘独立FqueueSink隔离发送
架构组件:离线链路写HDFS主备切换 & 双链路容灾快速切换
离线HDFS集群容灾能力上下游联动分钟级切换耗时
核心SLA业务容灾触发切换分钟级切换耗时
稳定性保障:规范变更发布流程
vivo数据集成链路数据质量保障实践
链路数据质量-数据完整性
支持双链路数据对账、链路关键卡点校验、发现异常并追数补数,保障SLA业务数据完整性要求
支持核心SLA业务离线实时双接入支持多种数据对账方式离线全链路对账
实时全链路对账核心业务双链路对账SLA动态保障全链路数据完整性卡点校验备份重接、追数补数
链路数据质量-数据时效性:整体思路
优先级:P0>P1>P2SLA时间:T0