您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[2023 DOIS DevOps 国际峰会 · 北京站暨 BizDevOps 企业峰会]:黄豁-国泰君安数智化运维服务平台可观测体系建设之路 - 发现报告

黄豁-国泰君安数智化运维服务平台可观测体系建设之路

AI智能总结
查看更多
黄豁-国泰君安数智化运维服务平台可观测体系建设之路

黄豁资深工程师 负责基础运维工具平台建设,基于典型运维场景,以运维数据治理为基础、以人工智能算法为辅助,致力于建设有国泰君安特色的数智化智能运维服务平台,多次带领团队通过信通院DevOps技术运营2+级评估 01 02 03 04 什么是可观测 什么是可观测 可观测与监控的关系 监控 可观测 关注业务 关注系统 在此基础上更加关注与业务问题形成的具体上下文关联 主要关注系统是否有问题 面向结果 面向过程 面对的是一条条具体的基础设施或应用程序相关的故障告警,核心目的是在于及时发现故障 面对的是与业务密切相关的指标,能实时跟踪业务当前状态、快速诊断和解决问题 主动分析 被动响应 驱动运维人员主动基于多种数据的关联分析,为业务优化提供数据支持 基于告警的触发去被动响应 2023 DevOps国际峰会暨BizDevOps企业峰会·北京站 可观测建设背景 遇到的问题 精准快速的排障要求 日益复杂的系统架构 分布式、微服务、云计算等技术的发展,运维对象的数量急剧增长,运维对象之间的关系日益复杂,使得运维人员要处理的问题更加复杂 为确保良好的用户体验,对运维人员在系统发生故障时的排查速度和解决速度提出了更高的要求,尽管系统的复杂性导致故障排查难度随之增加 质量不高的指标数据 无法感知的单点算法 在复杂系统中,仅仅关注单点日志或者单个维度的指标,并不足以帮助我们掌握系统的整体运行状况。 指标数据存在数据源多、离散性高、数据结构不一致以及数据获取困难等问题,难以支撑智能运维算法的全面落地 2023 DevOps国际峰会暨BizDevOps企业峰会·北京站 可观测落地实践 可观测体系设计思路 算法 平台 推进数智化运维服务平台建设,完善数据集成、数据开发和数据服务等功能,为数据高速流动、实时共享和场景应用提供平台支持 持续研究优化智能算法,赋能运维一线人员,提早发现风险隐患,快速定位故障根因 数据 以用户体验和业务为中心,落地建设多维度、多层次运维指标体系,同时针对指标数据进行专项治理,提升数据质量 运维指标体系构建 建立横纵结合、多层次、多维度的运维指标体系,涵盖基础环境、存储、网络、容器云、服务器硬件、操作系统、数据库、中间件九大主题域,共计626个标准监控项,并对指标进行标准化定义、分类和属性划分。 具有证券行业特性,可准确量化展现系统运行状态及业务价值,为数据分析、智能运维场景等提供数据基础。 运维指标体系与指标治理的关系 2023 DevOps国际峰会暨BizDevOps企业峰会·北京站 运维数智化运维服务平台建设 实现多源数据集成与算子化、可编排的数据实时计算,提供各类算子30余个,日均分析日志数据15T以上,覆盖100+重点系统。 纳管多样化运维数据,包含指标、日志、调用链、告警、CMDB、统一架构等共计6大类数据资产。 提供丰富的数据服务,目前已应用于智能运维算法、RPA、容量等多类数据分析场景。 2023 DevOps国际峰会暨BizDevOps企业峰会·北京站 多维异常定位算法简介 2023 DevOps国际峰会暨BizDevOps企业峰会·北京站 多维异常定位算法优化提升 数据过载时算法性能瓶颈如何克服 降维导致的错误维度缺失如何避免 总量变化不大时如何定位异常根因 将原始数据按照N:1抽样,再接入多维算法。 根据业务逻辑对全量数据进行拆分,按业务类型进行异常检测及根因定位。 利用基于Flink实时流处理技术,可自定义维度属性,完成前端错误明细数据的降维聚合。 *通过少量样本可以把握住整体特征; *高峰时期的数据量能减少2/3,极大提高计算效率。 *形成可复用的多维指标数据,可供更多下游场景使用。 多维异常定位算法效果 提升故障根因排查效率 直观展示故障影响范围 充分利用前端错误明细数据,快速、准确地定位异常根因维度,相比传统人工逐个维度进行分析的方式,有效提升根因维度的分析效率和定位结果准确性。 当业务指标异常时,在大规模错误明细数据中明确故障事件的影响范围,为管理员提供关键排障线索,有效缩小故障排查范围。 打通前后端监控壁垒,实现全面可观测 可观测成为开发与运维的桥梁,系统前端业务报错和后台系统的联动,使得原本在后台系统无法感知的异常也能被运维人员及时捕捉,对于系统的安全稳定运行有积极的意义。 2023 DevOps国际峰会暨BizDevOps企业峰会·北京站 基于知识图谱的根因定位算法简介 基于CMDB和历史告警数据构建软硬件知识图谱及告警知识图谱,给出故障发生时的疑似根因路径,缩短运维人员的排障时间。在拓扑结构准确、组件关键告警未缺失的前提下,根因定位节点在TOP3的命中率可达70%以上。 2023 DevOps国际峰会暨BizDevOps企业峰会·北京站 基于知识图谱的根因定位算法效果 在拓扑结构准确、组件关键告警未缺失的前提下,根因定位节点在TOP3的命中率可达70%以上。 可解释 通用性强 自适应 复杂系统数字孪生模型的探索实践 采用数字孪生方法论将复杂IT系统抽象为灰盒模型,引入指标相关性分析,构建数字孪生外层,融合多种观测数据,构建数字孪生内核,基于模糊测度和马尔科夫链理论建立系统运行态模型,评估系统健康度、发现系统隐性故障、辅助故障根因定位。 复杂系统数字孪生模型的探索实践 小尺度测量:采用的是非线性相互作用建模算法,基于节点的输入和输出特征集构建节点的非线性影响权重量化模型,可准确量化不同输入特征对输出特征的非线性叠加影响。 01 大尺度建模:基于小尺度模型的基础上对小尺度测量模型进行量化、离散化,以离散马尔可夫链模型刻画节点在不同小尺度测量模型上的动态迁移过程,从而在较长时间尺度上构建节点的运动规律。 健康度打分:通过记录节点在状态迁移过程中的性能指标,则基于统计出节点的正常、异常状态比例,从而根据特定标准给节点健康度进行统计打分。 03 2023 DevOps国际峰会暨BizDevOps企业峰会·北京站 复杂系统数字孪生模型的探索实践 实时观测 2023 DevOps国际峰会暨BizDevOps企业峰会·北京站 未来展望 2023 DevOps国际峰会暨BizDevOps企业峰会·北京站 Thanks DevOps时代社区荣誉出品