您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[博睿数据]:开源工具和商业产品完美融合:一体化智能高级可观测平台 - 发现报告

开源工具和商业产品完美融合:一体化智能高级可观测平台

2023-01-01博睿数据风***
AI智能总结
查看更多
开源工具和商业产品完美融合:一体化智能高级可观测平台

贺安辉博睿数据AIOps首席专家 个人介绍 贺安辉博睿数据AIOps首席专家 担任博睿数据产品管理部负责人,AIOps首席专家,14年智能运维领域从业经历,曾供职于中国工商银行、蚂蚁集团等企业,对运维体系、技术、产品形态和方法论有丰富的经验。 运 维 标 准 化 的 困 境 1 目录 一 体 化 可 观 测 性 数 据 模 型 2 CONTENTS 智 能 高 级 可 观 测 平 台 3 01运维标准化的困境 数据膨胀和生成速度已经超出人脑的分析能力边界 为什么需要标准化? 65%的企业拥有10+监控工具1 识别问题占据70%以上时间,大部分问题查找依赖人力 弹性化架构是压倒传统运维的最后一根稻草 开源工具的标准化实践-Zabbix 灵活性、扩展性极好但不支持打标签 开源工具的标准化实践-Prometheus 开源工具的标准化实践-OpenTelemetry 可观测性3要素集齐、关联性极好但只定义了协议,数据分析交给其他工具 开源工具的努力和客户期待之间的Gap 02一体化可观测性数据模型 数据体系治理 G O P S全 球 运 维 大 会2 0 2 3 ·上 海 站 一 体 化 可 观 测 性 数 据 模 型 , 化 混 乱 为 有 序 资源体系≠CMDB,动态生成才更准确 指标体系规范化 归一 实体归一 Host AZabbix:文件是否存在SmartAgent: buffers内存大小 Prometheus:100-node_filesystem_files_free{instance=~"$hostname"}/node_filesystem_files{instance=~"$hostname"} * 100 指标体系:磁盘空间/inode使用率,%, gauge O n e D a t a Zeus能力优势:•多租控制 •数据实时插入(Protobuf)•多源联查•查询加速(物化)•优化执行计划,支持大量算子漂移计算•consumer和connector无状态,可扩展•读写客户端可开放,下挂DB可按需配•引擎依赖第三方组件较少(除DB) O n e To p o 统一服务中台能力-One Service 1,提供了统一对外数据服务能力2,提供了数据湖能力:跨地,跨源,跨库,跨模型,联邦计算3,支持云原生弹性伸缩 第三方数据融入一体化数据模型中 G O P S全 球 运 维 大 会2 0 2 3 ·上 海 站 03智能高级可观测平台 A I进 阶 之 路 人工/专家规则 1.基于指标和链路动态生成知识图谱2.事件实时生成故障森林,根因、收敛同步完成 1.基于历史数据训练模型2.在线数据和离线模型匹配判定根因 1.基于专家经验指定指标关联性2.依赖CMDB的数据准确性 特点 指标关联关系难以维护不具备可复制性 强依赖人工打标和调参可复制性较弱 无需人工介入可复制性强、可解释性强 2.0 1.0 3.0 两阶段自适应根因分析概览 自 适 应A I-核 心 流 程 G O P S全 球 运 维 大 会2 0 2 3 ·上 海 站 自 适 应A I-启 发 式 学 习 可观测场景之一:独家两阶段自适应的根因分析 初因判断根因的服务和指标 深度分析到具体的方法,SQL,日志、错误等根本原因一步到位 可观测场景之二:根因分析回放-观测问题发生整个过程 可观测场景之三:数据驱动的业务大盘 可观测场景之五:前端体验->后端Skywalking->天旦BPC 1、transaction_id与traceid关联单笔交易;2、stream_id标识天旦侧经过的系统及节点;3、将状态码、处理耗时等字段接入,实现故障区分(用户侧故障-skywalking监控部分故障-天旦监控部分故障)4、对接统一权限,实现多平台联动查询跳转,定位故障后可基于transaction_id直接跳转至天旦系统; 开放运维联盟高效运维社区DevOps时代 荣誉出品