2022 Zabbix中国峰会:如何基于开源构建全域一体化运维监控平台
核心观点与内容概述
本次峰会围绕如何基于开源技术(特别是Zabbix)构建全域一体化运维监控平台展开,主要介绍了观纵科技的前端监控产品Webfunny、全链路应用性能监控产品Walkingfunny以及基础设施监控产品Argus IT V3.4。
01 Webfunny前端监控
- 项目总览:Webfunny专注于前端监控,通过埋点监控实现流量分析、用户画像、性能分析、错误分析和用户细查,帮助实时掌握项目活跃状态和健康情况。
- 流量分析:抓取关键流量数据,统计用户活跃度趋势、新用户次日存留率等指标。
- 用户画像:提取用户特征画像,包括基础信息、设备分辨率、访问浏览器、所在城市、应用版本等,分析用户访问喜好和地域分布。
- 性能分析:监控首字节、DOM Ready、页面完全加载、采样PV、2s快开比等性能指标,精准定位性能问题。
- 错误分析:分析代码错误、接口错误、静态资源错误的发生设备数量、影响人数和报错趋势。
- 用户细查:根据User-ID检索用户行为记录,包括浏览记录、点击行为、接口请求(参数和返回值)、报错记录等。
- 埋点监控:数据驱动业务,通过业务埋点高效统计用户行为,支持高度自由的字段和点位设计,满足多种业务场景需求,并提供多种图表展示方式(柱状图、多折线图、柱线图、堆叠图、漏斗图)。
02 Walkingfunny全链路应用性能监控
- 完全兼容Skywalking生态:保留所有Skywalking原生支持的探针和数据上报结构,确保生态兼容性。
- 指标增强:新增近百项指标,包括RUM探针,进行更全面的性能监控。
- 前端重构:重新开发前端展现逻辑和交互体验,提升用户体验。
- 列式存储:基于Clickhouse完全重构存储模型,采用单表多列的存储方式,提高Batch写入速率,降低查询延迟,降低存储成本,节省机器规模。
- 指标下沉:数据分析可以精准定位到具体特定用户,真正做到用户体验分析。
- 探针优化:JS探针侧优化了上报逻辑,更节省用户端资源;通过构建本地数据缓存,数据实时压缩的策略,大大降低数据上报的频率与大小;开放多项探针相关自定义配置参数,实现自定义配置。
- 埋点分析:支持自定义埋点数据上报,汇聚业务特定指标数据,通过活动业务流的埋点观测,分析特定时段内的成交转化率。
- 探针自定义开发:支持RUM探针开发,通过扩展Skywalking已有探针的采集解析能力,可以抓取到特定业务流的字段,进行业务实时聚合分析和统计。
- 业务流示例:以手机银行业务为例,展示了如何通过探针自定义开发,分析用户在各个步骤的转化情况。
03 ArgusIT基础设施监控 V3.4 亮点
- 基于Zabbix底层:Argus IT V3.4是基于Zabbix底层构建的基础监控平台。
- 自定义拖拽详情页:针对基础监控场景,支持自定义拖拽详情页,包括Zabbix LLD数据模型、基础监控设施特征、自定义开发、灵活组件、折线图、柱状图、饼状图、水滴图、进度条、单值资源信息列表、健康度告警、拖拽组合数据面板等。
- 自动网络拓扑:实时展现生成树、CDP、LLD、OSPF、ISIS等网络拓扑信息,包括流量趋势、端口状态、关联告警、内存负载、CPU负载、ARP等。
- 事件中心:实时降噪发生的告警事件,支持自定义告警聚合事件规则。
Zabbix开源社区支持体系
- 社区活跃:每天社群交流,每周每月每年都有技术交流会、中文使用手册、中文图书、小额众筹等活动。
- 支持体系:提供从入门到精通的支持体系,包括在线课程、认证培训、方案咨询、实施和订阅等,满足不同用户的需求。
研究结论
通过基于开源技术(特别是Zabbix)构建全域一体化运维监控平台,可以有效提升监控效率和用户体验,实现更精准的性能分析和故障定位,从而更好地保障业务连续性。观纵科技的前端监控产品Webfunny、全链路应用性能监控产品Walkingfunny以及基础设施监控产品Argus IT V3.4,为构建全域一体化运维监控平台提供了强大的技术支持。