您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[XOps 风向标!GOPS 全球运维大会暨研运数智化技术峰会 2024 · 上海站]:浅谈中国移动IT条线SRE运维转型 - 张晓培 - 发现报告

浅谈中国移动IT条线SRE运维转型 - 张晓培

AI智能总结
查看更多
浅谈中国移动IT条线SRE运维转型 - 张晓培

张晓培中移信息技术有限公司 个人简介 张 晓 培 中 移 信 息 技 术 有 限 公 司资 深 专 家 中国移动十百千专家,十余年深耕运维质量管理领域,致力于研究解决在用户规模、业务种类成倍增长的环境下和系统规模、系统复杂度呈指数级跃升的背景下的运维质量优化提升方案,并推动中国移动IT条线SRE全面应用提升。 中国移动IT条线SRE运维体系 目录 SRE评测助推运维转型见实效 中国移动IT条线SRE运维体系 在数字化转型的浪潮中,中国移动信息技术中心创新构建SRE运维体系,深度融合SRE思想,全新定义中国移动SRE运维,加快形成运维领域新质生产力。该体系通过创建中国移动SRE能力矩阵,创新运维组织,对架构、部署、测试、应急、安全等整体进行管控;提升主动运维意识,将运维“左移”,筑牢业务连续性防线;建立SRE评测机制,以评促优,指导SRE运维体系落地;打造集约化运维能力,建立贯通前后端的天目可观测平台,为数智化转型注智赋能。 背景:健全SRE运维体系,增强数字经济运维保障能力,加速数字化转型 响应国家规划:增强数字经济运维保障能力 稳步构建智能高效的融合基础设施,提升基础设施网络化、智能化、服务化、协同化水平。——《“十四五”数字经济发展规划》 夯实数字基础设施和数据资源体系“两大基础”,推进数字技术与经济、政治、文化、社会、生态文明建设“五位一体”深度融合,强化数字技术创新体系和数字安全屏障“两大能力”。——《数字中国建设整体布局规划》 落实公司战略:持续优化全网运维管理体系 强化质量提升及运营管理,推动商业模式创新,持续深化基于规模的价值经营,实现产品服务对信息服务市场全面覆盖、价值创造能力全面提升。——《中国移动2023-2025年战略滚动规划暨2023年战略实施重点》 提升全网运维管理和运营指挥调度能力,进一步加强组织保障,健全ITGOC管理体系和SRE运维体系;完善运维流程机制,调优统一运维管理框架。——2024年信息技术工作会议 对标行业标准:创新管理和技术提速数智化转型 XOps产业创新发展论坛发布报告,指出智能运维AIOps、业务可观测性和SRE可靠性实践是当前重点关注方向。——《中国AlOps现状调查报告(2024)》 G O P S全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会2 0 2 4·上 海 站 现状:业务、技术和人员发展均对运维管理带来挑战 在IT领域工作中,传统运维模式面临着运维研发内耗、维护分散影响业务融合发展的困境,云化微服务化的技术变革给IT运维带来了巨大挑战,琐碎重复的工作使得运维人员缺乏获得感。SRE运维研发化转型是必由之路。 技术演进给IT运维带来的挑战 业务发展亟需传统运维模式转型 运维人员在工作中缺乏获得感 n运维研发内耗严重,影响业务快速发展 n运维琐事多且重复,没有获得感 n云化微服务变革,故障定界复杂 大型组织的IT部门内,运维团队仅关注系统稳定,厌恶上线变更、项目割接等工作并进行严控,经常影响项目进度;研发团队仅关心新业务或新项目的快速上线入网,而忽略了架构设计和高可用部署的合理性,导致入网后故障频发。 日常运维工作中充斥着大量的琐碎重复任务,运维人员的大部分精力被这些琐碎重复工作占据,难以集中精力投入更深层次的系统优化和故障预防等技术性工作,整体运维效率和系统稳定性较差,运维人员缺乏工作成就感。 云化微服务架构的网状调用依赖错综复杂,资源环境也从静态虚机转变为动态容器,相比于传统架构,故障定界变得异常困难。 维护边界快速增长,技术掌控困难 云化微服务化的变革导致应用系统、技术组件和进程实例等数量快速增加,运维人员的维护边界也随之增长,并需要掌握越来越多的新技术知识,给运维工作带来了巨大挑战。 n维护分散成本高,难以支撑CHBN融合 传统运维模式下,故障应急极为依赖少量几个运维“大侠”(专家),IT行业人员流动频繁,运维人力资源断层的风险极大。 传统运维团队常按系统或业务类型等维度进行竖井式分工,往往需要耗费大量运维人力,且无法统一运维支撑CHBN融合。 实践落地 文化转型 G O P S全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会2 0 2 4·上 海 站 创新:锚定业务连续性保障目标,融合SRE理念,重构全网运维管理体系 以“保障业务连续性,加速构建新型信息服务体系”为目标,基于SRE核心理念及全生命周期运维实践,遵循管理规范化、能力标准化、支撑数智化3项原则,创新构建以组织保障、制度保障、能力保障、评测保障四轮驱动的SRE运维管理体系,实现IT运维管理的系统化、规范化、流程化,保障全网IT系统的稳定运营,全面提升IT领域数智化治理水平。 组织保障,全局调度,打造一体化高效运维保障组织 在运维组织体系改革的基础上,进一步打破传统运维组织局限,组建跨单位跨不同技术栈SRE联合保障团队,横纵向拉通业务层/SaaS/PaaS/IaaS层运维工作,实现高效协同。同时,汇聚集省专优秀人才,打造SRE评测团队,提供SRE专业解决方案。最终,形成一个高效、灵活且响应迅速的组织架构,实现运维转型升级,为业务连续性保障提供全方位运维服务。 制度保障,明确流程,健全全面规范的运维标准 全面加强SRE运维工作管理,一方面聚焦日常运维、应急重保等工作,明确规范标准,并理清SaaS/PaaS/IaaS三层运维协同流程,确保运维工作规范开展。另一方面,提炼全网SRE运维经验,打造SRE最佳实践,面向全网IT领域提供服务,指导SRE转型。 运维管理制度框架 SRE运维最佳实践 强化SRE运维工作规范化管理,打造两精四维统一运维管理制度框架。以精益运维、精细管控为主线,制定云原生模式下跨三层运维协同工作规范,为SRE人员提供规范化的工作流程指引,确保生产运维工作高效有序开展。 梳理整合全网优秀单位SRE实践经验,从管理和运维两个方面,形成SRE最佳实践,用于指导和帮助运维人员快速实现SRE应用落地,加快完成SRE转型升级。 SRE管理最佳实践 故障管理规范 混沌演练管理 SRE运维最佳实践 灰度设计 调用链设计 能力保障,丰富手段,锻造集约化SRE数智产品 为切实做好SRE运维管理工作,全面打造ITGOC一体化运维管理平台,实现覆盖CHBN核心业务的集省专系统全面质量纳管,端到端全链路监控系统运维质量情况,以横纵向立体化监控保障系统稳定运行,全面护航业务高质量发展。同时,进一步打造天枢、天目、天元三大类运维管理能力,并实现能力上台,为全网提供数智化运维能力,促进降本增效。 构建一点看全的可视化运营调度看板,贯通集省专运维工单协同和应急管理流程,实现全网IT条线一体化运维管理和作战协同。1 ITGOC一体化运维管理平台 实现长流程业务全链路一点看全,提供客户感知回放、调用链监控等功能,赋能异常快速发现和精确定位。2 打造具有超强沉浸感的一站式协作平台,打破物理与现实界限,注智赋能,提升多跨协作效率。3 评测保障,以评促管,牵引全网运维数智化转型 构建SRE评测保障体系,研究制定SRE能力矩阵和能力评估模型,组建全网SRE评测专家团队,沉淀积累全网SRE运维最佳实践,一方面通过评测量化掌握能力短板,一方面通过最佳实践指导帮助运维能力的快速落地提升。在以评促改、以评促管、以评促建的PDCA闭环支撑过程中,高质高效推动SRE工作开展,拉齐全网IT条线SRE能力建设,赋能全网数智化转型。 组织全网SRE专家,参考业界理论以及行业最佳实践,全面构建SRE评测体系 SRE转型落地破局思路 通过广泛试点验证,持续迭代完善,构建中国移动SRE评测体系,助力IT条线各运维单位SRE转型、SRE能力和运维成效全面提升。 问题挑战 能力缺乏标准转型效果无从评估 SRE能力矩阵:对架构设计、入网控制以及运行治理三个主要阶段的能力进行识别、拆解、归类和映射,提炼出SRE八大能力域。 以SRE评测为手段,推动SRE落地 Ø指导破局:提供具体可落地的SRE转型方向指导Ø明确职责定位:量身定制明确SRE组织规划ØSRE能力标准化:构建能力图谱,统一定义实践场景Ø最佳实践:具体能力落经验及工具产品参考指导。Ø衡量运维能力:构建统一的运维能力评估模型并全网推广 破局思路 SRE评估模型:基于SRE能力矩阵,构建SRE能力成熟度和场景成熟度评估模型。能力成熟度评估模型用来识别SRE整体能力,场景成熟度评估模型用来识别场景领域下的跨能力域融合应用,聚焦于运维场景和成效。 4、故障处置快速 3、运维协作高效 2、研发运维一体化 5、IT持续治理抓手 6、SRE能力标准化 1、架构前置 评测收益 明确转型发力点提供指导方向和演进让工作有标可循SRE能力持续有效提升 架构稳健:4高3可共7类架构管控标准(高可用、高性能、高容错、高安全、可维护、可观测、可恢复);51条能力子项,降低架构设计导致业务连续性风险。 恢复第一:逃生、自愈故障领域,共4大场景,涉及58项能力子项;分钟级故障管理领域,共4类场景,涉及43项能力子项。 交付敏捷:3项不停服发布要求;4项业务功能测试要求;11项测试管理能力;7项发布变更能力。 治理有规::29个IT治理要求和标准;1个风险预测领域,7大场景检查;1个故障预防领域,5大场景检查。 工具提效:64项最优运维工具;1项协同运维能力;11项集成能力。 G O P S全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会2 0 2 4·上 海 站 SRE评测助推运维转型见实效 中国移动SRE评测体系以”保障业务连续性”为目标,遵循SRE管理规范化、SRE能力标准化、SRE支撑数智化3项原则,打磨4类能力支撑,通过1套推广服务进行落地,持续支撑ITGOC统一运维管理体系高效运转。 以SRE评测为手段,推动SRE落地 SRE转型落地困难重重,主要表现五个方面:转型没有方法论、能力缺乏标准、转型过程缺少指南、转型效果无从评估。为了帮助全网顺利高效的完成SRE运维转型,从容应对运维工作面临的各项挑战,在快速变化的技术环境中保持竞争力,中国移动信息技术中心组织构建SRE评测体系,以SRE评测体系为抓手,推动SRE落地。 SRE落地主要挑战 以SRE评测体系为抓手 SRE转型具体从哪些方面着手?1 •为参评单位提供具体可落地的SRE转型方向指导。•明确具体能力方向下需要建设的子能力和工作标准。 缺乏明确的SRE发展演进计划和安排;团队不清楚如何开始或推进SRE实践,团队难以找到SRE工作的发力点。 指导破局 如何建立SRE工作机制? •调研参评单位具体情况,量身定制,协助明确SRE组织的定位和责任。•根据最佳实践,协助参评单位完成SRE组织变革规划建议 明确职责定位 SRE团队职责、边界不清晰,缺乏对应机制用于指导SRE组织变革;难以适应数智化时代的快速变化和持续改进。 SRE需要具备哪些能力提供支撑? •对SRE工作构建能力图谱,原子化SRE能力,统一定义实践场景,为参评单位打造SRE实施基础。•通过制度流程完善,保障SRE能力可持续性发展。 SRE能力标准化 SRE个人、SRE团队及SRE数智化运维工具需要具备哪些能力,缺乏明确的标准,导致SRE能力难以可持续演进。 4如何客观整体评价SRE运维能力水平? •从管理流程和运维实战维度提供具体能力落地的经验参考指导。•提供具体能力工具产品选择,助力能力快速提升。 缺乏全面的能力成熟度评估,团队难以准确评估和提高系统运维水平,无法为SRE工作提供方向和管理改进依据。 最佳实践 面对系统短板无指南可用 衡量运维能力 •构建统一的运维能力评估模型并全网推广,通过评测来量化运维能力。 短板的识别和改进无从下手,缺乏最佳实践参考和指引,导致系统短板成为尾大不掉问题。 广泛验证,持续迭代,构建SRE评测体系 中