AI智能总结
张鹤资深运维平台专家 11年研发经验,长期从事运维平台建设工作,目前负责一体化智能运维体系建设工作,擅长应用CMDB、AIOps等领域的平台能力建设,及一体化智能运维场景的建设。 01核心交易系统特点分析 目录Content AIOps落地与实践 02 AIOps建设问题探讨 03 核心交易系统特点分析运行特点与运维痛点分析 核心交易系统运行特点 每周进行一次常态化版本升级,每月进行一次大版本升级变更频繁 与核心交易系统存在上下游交互的系统共70+个影响面广 日均订单量:1500万+交易日峰值TPS:11万+访问量大 部署复杂:共部署700+台服务器业务复杂:1000+类交易场景,10000+个服务复杂度高 交易、结算等核心业务,实时性要求高属于关键信息基础设施,要求安全等保三级重要性高 核心交易系统运维痛点 版本质量 •核心交易系统的外购模块,出现偶发的版本质量问题•变更频繁加之版本质量不高,导致版本升级后容易出现生产问题 可观测性 •由于缺少traceId,核心交易系统难以实现业务的全链路故障分析•日志量巨大,平均每天产生3000万+日志,导致难以发现问题 运维专业性 •核心交易系统对运维人员的专业水平、业务知识的能力要求较高•发生故障时,需要以最短时间进行应急,并控制操作风险 AIOps落地与实践核心交易系统AIOps场景 AIOps体系架构 场景一:毛刺风险分析 场景背景 Ø核心功能号实时性要求高,整体耗时要求在10ms左右,且不能出现频繁波动Ø固定/动态阈值告警,无法感知耗时指标的瞬时突变,而瞬时突变可能是系统异常导致 场景意义 Ø提升核心功能号的监控保障能力Ø帮助SRE发现系统的潜在风险 场景一:毛刺风险分析 360毛刺巡检大屏 通过毛刺风险工单,跟踪SRE对于毛刺风险的分析与反馈情况,推动SRE进行毛刺风险分析 核心接口保障大屏 支撑早开盘期间,核心接口服务状况的跟踪 场景二:内存清算耗时异常检测 场景背景 Ø内存清算过程出现问题的概率虽小,但影响巨大,属于核心业务,需要重点保障,出现异常时,需要第一时间介入处理Ø清算步骤执行结果监控未全面覆盖,部分步骤的执行结果无法自动感知Ø业务原因可能导致部分清算步骤的执行时长日渐增长,进而触发超时异常 场景意义 Ø提升内存清算过程的异常感知能力Ø提早发现清算步骤执行时长的突变与渐变,节省SRE的处置时间 场景二:内存清算耗时异常检测 清算全过程集中管理 目 前 已 纳 管 内 存 清 算 的 所 有 步 骤 节 点,可 展 示 清 算步 骤 的 执 行 过 程 与 顺 序。 清算过程实时展现 结 合 清 算 节 点 本 身 的 业 务 监 控 能 力、清 算 节 点 耗 时A I O p s异 常 检 测 能 力,实 时 呈 现 清 算 全 过 程 的 成 功、失 败、异 常 情 况。 场景三:集中交易日志异常检测 场景三:集中交易日志异常检测 场景四:磁盘占用率预警 场景背景 Ø市中交易期间与重保期间,磁盘占用率触发告警时,清理文件操作属于应急操作Ø磁盘占用率低级别告警线为85%,高级别告警线为95%,一旦触发高级别告警,一线运维介入处理,影响较大 场景意义 Ø将告警升级为预警,提早发现风险Ø减少市中因磁盘打满而必须执行的应急操作,推动SRE配置自动清理日志任务 场景四:磁盘占用率预警 纳管生产环境2万+机器,平均每月发现24次磁盘占用率预警。 场景五:全业务运行画像 场景背景 Ø前期只关注应用层、计算资源层告警,对业务的运行情况感知不足 Ø对业务的异常感知,主要关注高频、新上等业务的首单时间、废单情况 场景意义 Ø自动生成全量业务,可有针对性地进行业务监控能力提升及业务场景测试 Ø提升业务监控感知能力 场景五:全业务运行画像 03 AIOps建设问题探讨如何提升AIOps建设成效 AIOps建设达不到预期 AIOps建设的关键点 加强联合运营 业务场景定制 夯实数据底座 各系统的业务关注点、日志格式、监控告警等均有差异,很难实现通用的AIO ps业务场景,只有结合系统的业务场景实际,进行定制化分析,才能保证分析效果 AIO ps平台依赖于日志监控、指标监控、C M D B拓扑等底层数据,只有充分完善系统的监控成熟度及C M DB数据,才能确保模型训练的结果更为准确 AIO ps分析是基于历史数据训练,并结合实时数据匹配的结果,必然存在匹配错的情况,必须通过运营人员,组织SRE与开发人员,不断进行结果的反馈与修正,不断提升结果的准确性 AIOps运营体系 Thanks DevOps时代社区荣誉出品




