您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [ArchSummit深圳2023|全球架构师峰会]:vivo数据集成稳定性与数据质量保障及可观测实践_易龙 - 发现报告

vivo数据集成稳定性与数据质量保障及可观测实践_易龙

报告封面

vivo互联网 大数据架构师/ 易龙 目录 •vivo数据集成平台架构及功能•vivo数据集成稳定性保障实践•vivo数据集成链路数据质量保障实践•vivo数据集成可观测实践 vivo数据集成平台架构及功能 产品能力地图 Bees,是vivo的一站式数据集成平台,它支持将多场景下多样化、分散的数据源,统一汇聚到大数据存储,是数据流入大数据体系的一座桥梁。 分层架构图 核心组件架构图 Bees监控模块监控、指标展示与告警Bees-Manager工单接入管理任务管理采集配置管理中心用户平台服务【极重要】Bees-SDK数据接入 SDK 工具包Bees-Agent源端日志接入组件部署在业务机器影响CPU、内存、文件句柄、IOBees-Bus数据传输管道服务【极重要】Bees-X:实时数据同步服务支持binlog日志采集mongdb oplog实时采集支持其他异构数据源数据同步 核心功能介绍 实时日志接入 核心问题及挑战 痛点问题 核心挑战 核心问题维度 被动接收告警,问题定位恢复慢散点式救火,运维成本高数据产出时效性波动大告警多而杂,处理成本高 如何从根本上长效的保障稳定性如何从全链路视角保障数据时效性如何有效准确的告警并快速恢复 链路稳定性链路数据质量链路可观测性 vivo数据集成稳定性保障实践 稳定性保障整体方案 MTBF:(Mean Time Between Failures),平均故障间隔时间MTTF:(Mean Time To Failure),平均无故障时间MTTR:(Mean Time To Repair),平均修复时间 架构组件:核心服务&存储 多活高可用 核心服务多活高可用服务拆分多节点部署跨机房容灾 存储多活高可用跨机房容灾Proxy,无中心集群,支持高可用Agent,基于Raft选主,支持高可用节点均支持动态扩缩容Proxy配置基于Zookeeper进行同步,保障一致性 架构组件:核心组件支持健康检查 链路核心组件心跳上报异常及时发现,追数补数 架构组件:物理标签隔离机制 标签统一通过bees-manger管理不同业务任务分配不同标签按标签和bees-bus建立连接bees-bus使用大内存物理机器同一台bus机器负责一个业务bees-bus备机池,及时扩容 架构组件-实时链路容灾: SDK落盘重发机制 平台化配置管控配置动态感知支持落多目录多文件 架构组件-实时链路容灾:数据反压缓存动态落盘重发 上下游联动,及时感知异常全链路流量波动监控及时数据反压告警引入Fqueue落盘支持顺序写落盘支持落单盘和多盘独立FqueueSink隔离发送 架构组件:离线链路写HDFS主备切换 & 双链路容灾快速切换 离线HDFS集群容灾能力上下游联动分钟级切换耗时 核心SLA业务容灾触发切换分钟级切换耗时 稳定性保障:规范变更发布流程 vivo数据集成链路数据质量保障实践 链路数据质量-数据完整性 支持双链路数据对账、链路关键卡点校验、发现异常并追数补数,保障SLA业务数据完整性要求 支持核心SLA业务离线实时双接入支持多种数据对账方式离线全链路对账 实时全链路对账核心业务双链路对账SLA动态保障全链路数据完整性卡点校验备份重接、追数补数 链路数据质量-数据时效性:整体思路 优先级:P0>P1>P2SLA时间:T0 智能模型)增强 可观测 对接 自动恢复 的能力