您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [XOps 风向标!GOPS 全球运维大会暨研运数智化技术峰会 2024 · 上海站]:中国联通IT系统故障管理的道法术器 - 王子岩 - 发现报告

中国联通IT系统故障管理的道法术器 - 王子岩

报告封面

个人简介 王 子 岩 中 国 联 通 软 件 研 究 院副 总 架 构 师 联通数字化线10年工作经验,负责中国联通BMD域IT系统安全生产体系、尤其是故障的管理及运营,负责中国联通数字化监控平台故障管理系统的建设及运营 现场调研及听众收获 听众收获 现场调研 所属行业?通信、金融、互联网工作角色?架构、研发、测试、运维、安全 背景与挑战 故障管理体系实践 目录 成果介绍 背景与挑战 IT系统安全生产面临的挑战 业务复杂-业务场景多链路长 数字中国、数字化转型发展下,IT系统 由于中台建设能力复用,存在业务场景横跨多个系统 10.9亿中国互联网用户 经济、政务、文化、社会、生态文明 系统复杂-大型分布式系统 五位一体深度融合 云化架构下,建设和维护大型分布式系统 因此IT系统出现故障时,有造成较大影响的风险(舆情、民生)例如2024年7月19日微软蓝屏故障,影响国外航空、银行、医院、酒店、等多个行业 组织复杂-大型组织 由于业务及系统复杂,需要大型组织各司其职,涉及不同部门、项目、角色 中国联通软件研究院情况 故障管理体系实践 在摸爬滚打中,逐步形成了大型组织、大规模系统的故障管理体系 2故障管理的道法术器 术 2.1故障事前组织架构搭建(1/2) 面向客户感知的业务链路,端到端、全层级、各角色无遗漏的全部覆盖 道 两级组织架构:第一级为单位维度的实体组织;第二级为系统维度的虚拟组织四级安全生产团队,系统内各层级纵向到底,系统间调用关系端到端横向到边;明确不同级别、角色、层级在故障前中后各环节的详细职责分工; 法 可根据实际场景提前配置人员套餐,例如针对事件配置第三、四级,针对核心业务配置一二三四级 术 2.1故障事前组织架构搭建(2/2) 联通数字化监控平台-故障管理系统-安全生产通讯录/责任矩阵/人员套餐 器 2.2故障事前业务分类分级(1/2) 遵循二八原则,将80%资源投入至20%的核心业务保障上,并对业务及系统级别达成共识 根据业务场景、业务服务对象、业务量级(如出现问题造成的影响大小)将业务分为核心、重要、一般三个级别,并据此确定承载业务的系统级别 需提前梳理确定标准化的规则及标签,下拉选择代提手填,业务需以用户视角描述 术 2.2故障事前信息分类分级(2/2) 联通数字化监控平台-故障管理系-系统全景图 G O P S全 球 运 维 大 会 暨研 运 数 智 化 技 术峰 会2 0 2 4·上 海站 2.3故障事中发现调度处置(1/2) 先抢通、后抢修,在总调度人指挥下四级团队各司其职、并行处置 道 三线一屏:业务线向上进行业务影响评估,技术线向下进行故障初因分析,通告线向内向外进行信息通报,看板屏对关键信息实时记录投屏 法 五类角色:总体调度人、业务负责人、技术负责人、信息通报人、信息记录人六项动作:一键拉会①,影响判断②,原因初判③,应急处置④,信息通报⑤,投屏记录⑥ 总体调度人由故障系统应用侧项目经理负责,需对系统架构图、上下游,关键干系人了然于心 注意会议开麦情况,有序调度发言,善用会议讨论组 2.3故障事中发现调度处置(2/2) 联通数字化监控平台-故障管理系统-事中指挥室 2.4故障事后复盘分析改进(1/2) 举措>问题,现在>过去,以思考后续如何避免发生和快速恢复为目标,追的是整改的责,不是故障的责 道 制定复盘标准动作灵魂拷问,涵盖6大类18小类共性及个性问题,对处理过程中的五个环节,及各层级原因进行回答后,即完成了标准化复盘 法 根据业务监控、指挥室、灵魂拷问、稽核点自动化提升报告效率及质量;主持人需控制会议主题、时长、观察人员情绪;举措需组织严格验收,避免复盘成效功亏一篑 术 2.4故障事后复盘分析改进(2/2) 2.5故障事后四不放过闭环(1/2) 以客户实际感知进行定级;定责是为了后续不定责,起到明示和预防作用 道 故障定级 通用定级标准升级至系统级定级标准,根据业务场景、时长、程度各系统单独制定 《故障定责标准》聚焦原因、职责、规则,并涵盖研发、测试、运维角色、应用、平台、基础设施层级,形成7大类,23个小类标准,并持续迭代优化 法 故障定责 当未有规则对应时可请求领导指示,确定后形成标准,例如全链路超时不适配故障 术 2.5故障事后四不放过闭环(2/2) 利用XXXXX联通数字化监控平台-故障管理系统-故障定级标准/故障处罚 2.6故障运营定期总结通报(1/2) 积累故障数据标准化分析,以点带面、举一反三、抓住主要矛盾进行督办闭环 道 建立统一的分析维度及指标标准,包括7大类23小类原因分类(对应不再发生)、4大类21小类发生层级(对应快速恢复) 法 按时间积累一定数量,并通过纵向与自己比(同比、环比),横向与其他方比,可得出分析结论 术 2.6故障运营定期总结通报(2/2) 联通数字化监控平台-故障管理系统-故障看板/故障统计/隐患全面排查 安全生产左移实践 背景:故障管理做的再好就保证安全生产么? 安全生产为什么要左移 安全生产左移全景图 安全生产运营 左移1:早期干预,治初病,事件管理 早期干预,以较小的成本达到沉淀总结避免较大的影响出现,同时体现团队价值 相对故障适度缩减内容和流程,关注典型性、提升点,正向激励引导 法 权限可由项目组自行控制;监控告警日清日结 术 左移1:早期干预,治初病 联通数字化监控平台-故障管理系统-事件管理/oncall告警管理 左移2:预防为主:治未病,安全生产七道关 预防为主,根据故障事件经验教训,以最小成本、最大精力提升安全生产水平 3.3上线关 安全生产七道关:共7个环节,见右侧 法 1、将经验固化为规范标准,形成安全生产七道关;2、将标准转化为工具能力,自动化检查拦截,保证落地 术 3.5监控关 3.6应急关 中国联通数字化监控平台提供端到端、全层级、全流程工具支撑保障 3.1安全生产七道关-设计关 设计关 3.2/3.3安全生产七道关-验证关、上线关 验证关 3.4/3.5安全生产七道关-变更关、监控关 变更关 3.6/3.7安全生产七道关-应急关、优化关 应急关 3.8安全生产七道关-工具支撑 3.8数字化监控平台功能架构 基于云原生下的生产运营支撑平台,以全局运营视角解读IT运维,提供端到端、全层级的运维工具支撑,依托大数据与人工智能技术,助力企业数字化业务高效、稳定运行,从传统运维向自动化生产、智慧化运营转变 3.9案例1:稳定性扫描实践 创新点 Ø规范规约:通过研维协同、专家评审等机制,制定《联通JAVA开发手册》、《联通稳定性规约分册》、《服务部署配置隐患标准》等涵盖代码质量、安全隐患、编写规范和配置隐患等多维度的稳定性制度规范。 Ø容量管理:基于12项微服务指标形成容量健康模型,自研实现容量隐患扫描能力,自动化识别微服务容量潜在风险,并提供优化建议。通过闭环整改,降低微服务GC影响,优化内存利用率,为微服务容量的可靠性和性能提供全新保障。 Ø健康扫描:基于开源扫描组件SonarQube,通过全自研增强sonar-scanner扫描器能力,实现针对基础代码、熔断配置、组件配置、部署配置等相关标准落地,定期输出明细清单,推动隐患问题整改,有效提升系统稳定性。 成果实效 3.9案例2:Redis-sdk强化生产拦截能力 创新点 Ø攻克开源的Redis-sdk(客户端代码开发依赖包)源码,有目的性的改良优化,开发轻量组件包,适配生产系统。依据《Redis使用建议白皮书》、《联通云Redis使用规约》内35项明令禁止的操作和使用方式,确定12项研发拦截能力,sdk接入可预防6大类故障。 Ø安全有效拦截:实现4类高危方法的代码编译禁用,2类安全空密码、弱口令发布拦截策略。 Ø降低故障风险:13项连接池默认值修正,真正意义上实现Redis闪断波动后服务的快速恢复。 成果实效 全年故障/事件20230起Redis类故障110min->0min 慢sql压降97.73%↓2.23万条/月->527条/月 安全拦截59次近3月生产发布拦截 成果介绍 主要成果介绍 沉淀经验教训数据 安全生产成效显著 建立安全生产体系 闭环1000+起故障事件信息、交付2000+项整改举措,形成数据资产在中国联通内部共享,同时为大模型巡检提供数据基础 整个体系内部覆盖联通31省数字化线,外部总结形成数智化产品、能力、服务的“三清单”,完成包括政府、制造、教育、通信等多个领域15个项目的对外输出 2022年、2023、2024年(序时)连续三年故障数量和时长均环比下降70%以上,安全生产成效显著提升 下降70% 1000+ 15 行业赋能 基于产品特性及行业内经验,总结出四种输出推广模式:数字化底座模式、生产运营体系模式、服务咨询模式、全栈信创输出模式 数字化底座模式数字化底座联合推广模式 生产运营体系模式数字化生产运营体系独立输出 服务咨询模式为客户运营生态建设提供咨询服务 全栈信创输出模式瀚高、东方通+麒麟、海光 后续欢迎多多交流 T h a n k s 荣誉出品