您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[北京农商银行]:基于海量应用日志交易故障的快速定位实践报告 - 发现报告

基于海量应用日志交易故障的快速定位实践报告

AI智能总结
查看更多
基于海量应用日志交易故障的快速定位实践报告

AIops智能运维 智能运维发展趋势及政策导向 •2021年以来,我国对智能运维及其相关领域保持着高度重视,在《2021年政府工作报告》与《2022年政府工作报告》中指出各企业需推动产业数字化智能化改造,促进数字经济发展。 •同时,各行业也紧跟国家政策出台了相关的指导政策。在金融领域,陆续出台了《“十四五”数字经济发展规划》、《金融科技发展规划(2022-2025)》、《关于银行业保险业数字化转型的指导意见》等一系列文件政策,表明在未来一段时间内,数智化转型将是金融行业高质量发展的重要基础和重点方向。 数据来源:中国IT智能运维行业发展趋势分析与投资前景研究报告(2023-2030年) 运维大数据平台建设 运维大数据平台于2021年正式上线运行至今,“上”有应用场景为业务赋能的目标逐层实现;“中”对于算法进行了全面的优化与适配,通过智能时序算法判断运维指标异常故障,提升告警效率;“下”以海量运维数据做支撑,规范日志标准,交易流水等基础数据,以全局视角观测核心IT业务系统的健康状态,以业务形态对象生成链路拓扑,对业务指标实时监控,动态展现,快速定位链路中故障,辅助汇总链路错误信息,定位根因业务系统告警。 先进技术 hadoop大数据技术 FLINK流处理 平台场景支撑 业务日志串联分析 业务日志数据治理 场景化事件监控 可视化数据分析 运维提效目标 缩减运维人力投入 提高数据准确性 提高事件处理时效 提高人工产效 项目创新思路 场景1-故障的主动发现 指 标 性 能 监 控 面 临 的6大 突 破 场景1-故障的主动发现 •多种异常检测算法•根据节假日自动调整检测模式 •实现百万级指标实例的检测•实时更新算法模型及参数 •动态阈值结合固定阈值红线•多种窗口检测模式 场景2-全链路交易串联 日 志 交 易 串 联 的 三 大 难 题 人 工 维 护 难 交 易 太 复 杂 格 式 不 规 范 在 日 志 串 联 使 用 初 期 ,只 有 网 联 等 链 路 简 单 、交 易 重 要 的 链 路 在 应用 , 随 着 系 统 推 广 ,对 链 路 的 维 护 愈 发 困难 我 行 存 在 着2 - 3万 余种 交 易 链 路 , 且 例 如手 机 银 行 转 账 这 种 热点 交 易 存 在 着 十 多 种系 统 反 复 互 联 , 梳 理难 度 大 2 0 0余 套 业 务 系 统 ,大 部 分 存 在 着 日 志 格式 不 规 范 的 问 题 : 无交 易 唯 一 标 识 , 全 局流 水 号 不 唯 一 等 场景2-全链路交易串联 全 链 路 交 易 串 联 的 初 步 建 设 场景2-全链路交易串联 全 链 路 交 易 串 联 的 落 地 方 案 主动发现业务交易指标异常 实现各类业务运行指标监控:交易量、失败率、交易耗时等,协助生产运维事前发现风险隐患 **网 银 交 易 异 常 报 错 发 现 了 在 夜 间 低 峰 时 段 ,**网 银“查 询 明 细”类 交 易 码 失 败 率 增 高, 交 易 量 增 长 , 反 馈 业务 人 员 ,定 位 用 户 风 险 操 作 **网 银 交 易 异 常 增 长 在1 - 2月 内 ,**网 银转 账 类 交 易 码 交 易 量翻 至 之 前 的3倍, 异 常 捕 获 后 , 通 过 排 查 ,发 现 有 部 分 客 户 进 行洗 钱 操 作 基于应用日志的故障定位 以全局视角观测业务系统的健康状态,以业务对象生成链路拓扑,对业务指标实时监控,动态展现。对发现异常的业务系统,通过对交易日志分析,下钻调用链路,查询故障日志,快速定位链路中故障。通过查询故障日志快速完成问题的分析及处理。实现了应用交易全链路自动生成,解决了运维人员难以梳理、维护交易链路的问题,在快速配置后,可在平台快速查看单笔交易在我行系统的走向、交易日志及各系统指标状态。 统一监控告警平台之前每月有千余条运维大数据产生交易告警,在某个系统发生故障时,会同时触发10余受影响系统的连锁告警,这些告警同时出现时,一线值班人员在处理排障需花费大量时间进行分析。在链路自动生成的基础上,通过自研算法,生成业务系统的推荐跟因告警,系统根据已经生成的上万条链路,自动查询检、判断每条告警的原始告警,快速定位到具体系统,对故障系统单独生成推荐告警,同时将已经生成的多条告警进行归类,为一线排查人员排除干扰项,加快了事件的快速定位、分析及解决的进度,提升了运维效率。 交易串联智能运维场景赋能 可 视 化 联 动 串 联 查 询 报 表 输 出 一 键 搜 索 查 询 单 笔交 易 在 多 个 系 统 的交 易 日 志 事 件 发 生 后 , 可 大屏 快 速 展 示 交 易 联动 , 专 家 快 速 决 策 提 供 链 路 数 据 、 交易 指 标 一 键 导 出 ,供 二 线 分 析 告 警 联 动 根 因 推 荐 查 询 交 易 链 路 , 快速 概 览 节 点 相 关 系统 告 警 指 标 告 警 风 暴 时 生 成 推荐 告 警 , 协 助 快 速定 位 问 题 系 统 愿景:智能运维体系化建设 传统运维事件处理流程 打造智能运维体系最佳实践 根据推荐告警,通过日志平台快速分析 定位到密管系统3台服务器无服务自动触发应急场景,F5隔离故障设备 故障的根因定位 自动化平台操作 故障自愈 故障隔离 限流熔断 流量切换 应用交易故障 混沌工程和演练 为其他系统提供能力 故障的根因定位 告 警 数 据 结 合C M D B数 据 , 根 据应 用 系 统 内 部 南 北 向 技 术 栈 调 用关 系 , 可 定 位 发 生 问 题 的I T组 件 。 总结与展望 提 高 运 维 建 设 效 率 运 维 从 被 动 到 主 动 l通 过 智 能 预 警 , 运 维 人 员 对 生 产 系 统 的 运 维 模 式 由 被动 式 故 障 抢 修 转 变 为 主 动 式 故 障 预 判 。 对 通 过 运 维 大数 据 平 台 发 现 的 生 产 异 常 预 警 指 标 或 者 系 统 , 相 关 运维 人 员 可 以 提 前 介 入 进 行 重 点 监 控 、 问 题 定 位 和 故 障排 查 , 主 动 应 对 可 能 发 生 的 生 产 事 件 , 提 高 可 生 产 系统 的 可 用 性 。 l各运维场景自动化及智能化的建设与实施,使得操作执行效率大大提升,操作完成时间得到保证。一键升级发布,大幅减少操作时间,降低手工升级误操作风险;灾备切换场景探索有效提高应用系统RTO和RPO水平;应急处置场景探索提高了应急效率,管控操作风险。 运 维 的 场 景 化 体 系 化 运 维 多 领 域 深 化 赋 能 l将 运 维 人 力 从 低 水 平 、 重 复 性 劳 动 中 释 放 出 来 , 将 其 知识 和 技 能 应 用 于 更 有 价 值 的 工 作 和 任 务 上 , 沉 淀 运 维 经验 , 形 成 知 识 库 , 提 升 系 统 可 靠 性 , 提 高 运 维 人 员 工 作价 值 , 打 造 智 慧 型 运 维 专 家 团 队 ;除 了 传 统 的 质 量 、 效率 类 场 景 , 为 运 维 管 理 、 安 全 管 控 等 领 域 进 行 赋 能 也 同样 是 智 能 化 运 维 发 展 的 重 要 方 向 ; l建设统一的运维入口,避免工具割裂化的竖井管理,形成面向各位运维群体的标准化、可视化、服务化的操作平台,实现运维工具的流转和共享,让运维工作持续的模板化、服务化,将长期积累的经验和知识落地,形成运维生态化的发展体系,从而利于智能化场景的进一步扩大,提升数据中心服务质量和服务效率。