您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[农信银资金清算中心]:2024年智能算法的统一运维监控管理平台报告 - 发现报告

2024年智能算法的统一运维监控管理平台报告

AI智能总结
查看更多
2024年智能算法的统一运维监控管理平台报告

基于智能算法的统一运维监控管理平台 ——助力湖北农信高效、智能、全面运维管理 01项目概述 ·项目背景·项目目标 02建设内容 ·平台架构·创新特点·智能运维场景 03项目成效·项目价值·总体收益 项目背景 业务系统复杂性与多样性 数据量与处理难度剧增 监管要求与风险防控压力 运维效率与成本平衡难题 日常运营产生海量的运维数据,包括交易日志、系统日志、网络流量数据、用户行为数据等,数据格式多样且增长迅速。传统的数据处理方式难以满足实时分析和深度挖掘的需求,导致潜在问题难以及时发现。 银行核心业务系统包括账务核心、手机银行/网银、支付、信贷管理系统等,它们采用不同的技术架构(包括传统架构与云计算、微服务架构)和多种操作系统、数据库及中间件,相互关联且交互频繁,运维管理难度极大。 为保障业务正常运行,银行投入大量人力、物力进行运维,但传统运维模式主要依赖人工操作,随着业务竞争加剧,银行需要在保障服务质量的前提下,优化运维流程,降低运维成本。 监管机构对银行强监管,对系统稳定性、数据安全性等方面有极高要求。任何系统故障或安全漏洞都可能引发严重后果,如客户信息泄露、交易中断等,因此运维管理需确保系统始终符合监管标准,有效防控风险。 现状与挑战 项目目标 快速发现:发现的快-从单一告警到立体化故障发现;发现的全-单源发现到联动发现 精准定位:定位的准-从多平台切换到统一发现;定位的全-排障路径全覆盖 高效恢复:恢复的效-自动处置和分派 建设目标 资源全面监控 实现对云上云下所有硬件设备、软件系统和网络环境的实时监控。 统一日志管理 对全行日志进行统一采集、处理、存储与查询分析,结合日志模式识别与日志异常检测等算法实现日志智能化管理。 全面应用调用链分析 通过应用调用链分析,深入了解各个服务和组件间的交互,及时发现问题。 集中告警管理 统一接入与处理多源告警消息,利用算法实现告警事件收敛、降噪、异常检测和根因分析,实现事件全生命周期全局管控。 智能数据分析 利用智能算法自动分析海量监控数据,快速准确地识别故障和异常,减少人工监控带来的疏漏与误判,提高监控的准确性和效率。 快速故障定位 通过日志串联分析,实现对故障点的上下游关系的快速识别,缩短故障排查时间 01项目概述 ·项目背景·项目目标 02建设内容 ·平台架构·创新特点·智能运维场景 03项目成效·项目价值·总体收益 创新特点:一个门户、千人千面 统一运维门户:整合基础设施监控、日志分析管理、应用链路分析、事件中心、算法中心等功能,实现跨系统、跨平台的全面可视化,提供统一的视角来审视整个IT环境和业务流程。千人千面:业务人员、一线、二线运维人员根据不同角色,分配不同运维权限。 创新特点:基础资源监控全覆盖 覆盖云上、云下基础资源资产监控,提高IT设施的管控能力,为资源集中化监控和业务系统可观测能力提供强力支撑。 指标阈值监控 网络拓扑建设 资源对象监控 全面覆盖各类设备的监控指标,支持对指标阈值进行自定义设置。 全面监控服务器、操作系统、数据库、中间件、网络设备、存储设备等基础资源。 全面拓扑管理,自动发现网络链路,在监控系统中展示自动搜索生成的物理连接拓扑图。 创新特点:日志集中管理 接入行内重要业务系统全量日志,日增2T日志量,进行日志串联分析,结合日志异常检测及日志模式识别智能算法,实现日志的智能化管理。采用简洁、轻量、高效、稳定、可扩展的技术架构,可以兼容ES、双引擎;采用基于列式存储数据库Clickhouse,在数据写入、响应时间、部署规模、高可用等各方面具有良好的表现,能够满足各种业务场景下日志存储的需求 创新特点:重要业务系统链路全覆盖 创新特点:立体化监控管理 集成已有监控工具(基础监控、NPM、BPC、云平台监控等),构建统一监控能力,提供系统健康度评估和展示。通过指标、告警、日志、业务调用关系、资源依赖关系等进行多维度监控分析,丰富监控和故障分析路径,保障业务持续稳定运行。 创新特点:统一配置管理 CMDB配置管理:将传统线下资产和云上资产进行统一管理。为运维可视化、业务可视化、数据分析等场景,提供数据支撑。①云上、云下资产资产覆盖率100%;②共建设近百个模型,主要包含业务资源、软件资源、硬件资源3大类8子类模型分类。 创新特点:生产事件闭环管理 运维流程管理:以ITIL4、ISO20000为基础,适应湖北农信数字化转型中新的业务发展与IT架构的特点,打造规范化、流程化的IT运维流程管理体系;完善事件、问题等标准管理流程,建立事件到工单的闭环管理过程。 告警集中管理:统一接入基础监控、NPM、BPC、互联网金融云、楚天农商云、系 统告警脚本等平台的告警。 一键生成事件工单 形成完整处置记录 规范处置流程体系实现告警事件闭环 创新特点:核心业务数据可视化展示 建设从顶层到各区域业务数据大屏,关注行内五类核心业务数据,提升行内数据价值和市场敏感度,实现了业务数据的全面可视化和精准管理。 智能运维场景-算法中台 强大算法能力为运维平台智能化场景赋能,助力智能运维场景落地,减少问题发现和故障排查的时长(MTTR),提升检测准确率和运维效率。 算法中台提供了丰富的算法,开箱即用,支撑丰富的运维场景。 智能运维场景-数据中台 以运维数据为基础。通过集中数据采集、数据处理、数据存储、规则模型、顶层场景设计,形成运维场景各层级应用系统的调用关联,做到端到端覆盖,利用智能算法平台,形成业务场景全链路业务追踪、健康度、多维分析IT指标、业务层级拓扑的立体化监控。 全链路多视角分析能力,快速定界、定位 •围 绕 业 务 构 建横向调用链路和纵向资源依 赖 关 系拓 扑 , 联 动 指 标 、 日 志 、 告 警 、 变 更 等 多 维 数据 ,辅助故障定位,实现精准告警,丰 富 监 控 和 故障 根 因 分 析 路 径 , 快 速 定 界 定 位 。 智能运维场景-基于日志算法的故障发现 在多类型的日志模式中,无需设置,自动发现新增的日志模式,监控日志模式趋势,如遇到异常,系统及时给出告警提示,辅助客户快速发现问题根因。 模型训练 异常检测 智能运维场景-告警降噪 智能运维场景-单指标异常检测 依托智能化算法可以提高告警准确性,降低冗余告警,配合传统静态阈值/同环比阈值,提高一线运维人员故障发现准确率。 01项目概述 ·项目背景·项目目标 02建设内容 ·平台架构·创新特点·智能运维场景 03项目成效·项目价值·总体收益 项目价值 提 高 系 统 可 用性和服务质量,确 保 用 户 顺 利进行金融交易,提 升 用 户 满 意度和忠诚度。 通 过 智 能 化 运维 平 台 , 更 快适 应 市 场 变 化和 技 术 进 步 ,支 持 新 业 务 和产品快速上线,推动业务创新。 通 过 优 化 资 源配 置 和 减 少 故障 停 机 时 间 ,降低运营成本,提 高 投 资 回 报率 , 确 保 技 术投资经济效益。 全 方 位 监 控 与智 能 分 析 大 幅降低人工干预,提 高 故 障 响 应速 度 , 优 化 运维 流 程 , 提 升运营效率。 数 据 分 析 和 报告 功 能 为 管 理层 提 供 有 效 决策 支 持 , 制 定更 加 科 学 的 运维和发展战略。 通 过 实 时 监 控和 智 能 预 警 ,及 时 识 别 和 处理 潜 在 风 险 ,降 低 系 统 故 障率。 总体收益 运维层面 管理层面 •通过智能运维平台,覆盖云上云下资源,实现统一管理;•通过数据分析和机器学习算法,预测潜在故障以便提前采取措施,平均提前10-15分钟发现问题,90%的问题能够得到有效预防及快速发现;•通过实时、全面的监控手段,快速定位和解决问题,实现问题5分钟内快速定位,缩短故障处理时间到最小范围值,问题解决效率提高30%以上;•通过智能化运维工具,实现故障预防、故障发现、故障定位、故障恢复闭环管理,故障检测缩短至1分钟以内,处理耗时减少至15分钟以内,平均故障修复时间(MTTR)小于2小时。•告警准确率提升至95%以上,有效降低误报率。 •以智能化的运维管理方式取代大量重复性和常规的运维任务,减少人工干预,误操作率降低98%以上;•通过智能化运维工具,运维人员从重复、日常的运维工作中解脱出来,可以集中精力处理复杂问题,运维工作效率提升30%以上;•实时的运维数据和报表帮助管理层通过可视化大屏快速了解全局运行状况,以便及时和准确进行决策,提升决策效率;•更高效的运维管理和更可靠的系统性能,增强用户满意度和信任度。 谢谢观看