您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[2024 第22届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 深圳站]:张立科-市场与服务支撑中心:打造卓越标杆 SRE 运维体系实践 - 发现报告

张立科-市场与服务支撑中心:打造卓越标杆 SRE 运维体系实践

AI智能总结
查看更多
张立科-市场与服务支撑中心:打造卓越标杆 SRE 运维体系实践

打造卓越标杆SRE运维体系实践 张立科市场与服务支撑中心资深专家 张立科 中移信息技术有限公司资深专家 深耕运维17年,曾在央视新闻中心担任运维和演播室直播保障核心角色;从事竞猜型体育彩票系统运维建设和管理工作10年,参与三代系统迭代和两地三中心运维架构和模式演进;曾任职某头部消费金融公司,负责SRE体系建设,主导完成统一监控、告警治理、自动化巡检平台建设以及问题闭环等核心任务,确保运维工作的高效和稳定。现负责中移信息技术有限公司市场与服务支撑中心SRE运维体系建设工作。 01前 沿 探 索 :S R E的 核 心 理 念 02建 设S R E运 维 体 系 关 键 路 径 和 实 践 成 效 03技 术 革 新 : 元 宇 宙 、 大 模 型 等 新 技 术 在运 维 领 域 的 应 用 实 践 04挑 战 与 机 遇 : 新 技 术 革 命 下 的 运 维 领 域展 望 PART 01 •前沿探索:SRE核心理念 SRE在国内蓬勃发展,实践成效显著 SRE的由来 SRE理念起源于Google,由Site Reliability Engineering演变而来,强调通过软件工程的方法和技术来保证系统的高可用性。SRE理念的提出,不仅引领了IT运维的新潮流,也对其他行业产生了深远影响,推动了整个IT行业的技术革新和服务升级。 SRE已发展为以组织、管理、流程、技术、工具和文化理念等要素的体系化融合,提升系统的稳定性、可靠性、高效性和安全性的最佳实践。 国内SRE的发展 SRE被认为是近十年来,互联网和云计算学科中最好实践创新和理念突破,经历了近20年的发展和演进,已成为多学科多技术融合发展的独立领域,即SRE领域。 2016年,孙宇聪翻译出版《SRE:Google运维揭秘》在国内引起巨大的反响,许多企业开始学习并成立自己的SRE团队。2016年,蚂蚁集团在国内成立了第一支SRE团队,主要攻坚容灾架构。2017年,浙江移动组建应用SRE团队,负责IT系统的集成部署、应急保障等工作职责。2018年,赵成建立“聊聊SRE”微信群,国内SRE社区初步成型。2021年,阿里CTO线第一支横向SRE团队成立,负责全局稳定性保障、资源成本等方面的工作。2022年,腾讯内部SRE体系正式成立,负责集团全局稳定性保障、资源成本等方面的工作。2022年,阿里云原生大数据运维平台SREWorks正式开源,是SRE领域的一次重要的工程化实践。 SRE的核心理念-基于实践的理念扩展 常规理念 可靠性 效率 质量 持续学习 确保系统的稳定运行,减少故障和中断,为用户提供持续可靠的服务。 通过自动化和智能化工具,提高运维效率,减少人工干预,降低成本。 追求高质量的产品和服务,确保系统的稳定性和性能。 不断学习和适应新技术和新方法,保持与时俱进的能力。 创新 安全 发展 价值 理念扩展 确保系统的安全性,预防数据泄露、服务中断等安全事件。通过持续的监控,及时发现潜在的安全风险,并构建预警机制。培养全员的安全意识,定期进行安全培训和演练。 探索和实践新理念、新技术、新工具,新模式,打造运维新质生产力。优化运维流程,减少冗余步骤。利用数据分析和机器学习技术,为决策提供科学、准确的依据。 重视人才培养和团队建设,提供持续的学习和发展支撑。关注技术发展趋势,预测未来问题和挑战,拥抱变化。加强与业务价值实现各环节协作和沟通,推动业务发展。 围绕业务价值实现,确保运维工作为业务带来增值。SRE工作成果量化评估,确保价值可视化。基于价值评估,不断优化运维流程和技术选型。 PART 02 建设SRE运维体系关键路径和实践成效 卓越标杆SRE运维体系的主要特征 创新发展 标准规范 安全合规 价值实现 围绕实现业务核心价值,提升系统可靠性,优化运维效率,以数据支撑业务发展。 ISO20000、ITIL和《SRE能力成熟度模型》等标准和规范指导。 云原生、AI+、元宇宙等技术和理念的深度融合与创新发展,为运维提智赋能。 高安全、强合规的安全与合规管理体系支撑。 SRE运维体系-云原生技术框架下的稳定性保障能力 云原生技术框架下,深化云平台能力应用,在运维运营和安全管控体系下,构建稳定性保障能力,实现研发过程的持续集成和交付、资源弹性伸缩、精细化微服务管理、故障自愈、跨地域多集群调度和智能监控和维护能力,支持应用服务的横向扩展、灰度发布以及多集群的容灾切换。 需求 能力中台 SRE运维体系-系统保障的运营管理体系 标准指标考核 全面落地AIOPS体系(数智化能力) 全面落地SRE联合团队(保障协同) •故障全域感知:实现全域故障感知快速定位、异常检测以及系统告警;•智能根因诊断:基于运维大数据+AI技术,实现故障根因诊断,辅助运维人员决策;•故障自愈处置:构建运维故障自愈模型,实现各类运维故障场景的无人化操作。 •深化IT-GOC运营保障体系,实现一线集中化生产监控、二线集中化专业运维、三线集中化专家支持;•依托IT-GOC全网运营指挥调度中心,统筹一、二、三线做好运维保障工作,跨部门构建SRE联合作战团队,真正实现“一点调度、全网协同”。 应用层运维 •集中化生产监控•集中化专业运维•集中化专家支撑 •故障全域感知•智能根因诊断•故障自愈处置 SRE联合团队 中间层运维 基础设施层运维 SRE运维体系-纵深防御、全面覆盖、主动预防的安全管理体系 配合安全管理组构建安全运营能力、安全防护能力,依托公司安全管理办法和上级安全指南,进一步推进部门“安全运营、安全合规、安全监测、4A接入、数据安全、安全审计”等关键安全能力的标准化、规范化和自动化转型。 研运一体、能力支撑、创新赋能的SRE稳定性保障体系 持续完善研运一体化稳定性保障体系,全生命周期风险管控,全域闭环管理,沉淀标杆能力,持续完善工程化验收机制;量化提升SRE能力,发挥SRE应用效能,保障系统稳定性持续提升;构建组件化统一技术底座,打造低代码开发应用新范式,降低开发成本;智能化创新应用实践提升运维治理水平,提质增效。 开展SRE实践前的系统概况 系统支撑的渠道多,支撑的单位多 部门支撑100+业务渠道,16家承建单位 业务系统使用资源多 物理机约8000+台、虚拟机约10000+台、共享存储约1000+T; 开展SRE实践前存在的问题 线上业务的迅速发展促使系统不断迭代,系统架构全面向云原生架构升级后,在提升运行质量的同时,系统复杂性急剧增大,维护边界快 速增长,故障界定更加复杂,使得原有的组织架构和技术手段不再适配,传统运维模式和手段都面临着智能化、敏捷化的巨大挑战。 问题驱动 运维协同 故障处理 人才培养 技术驱动 安全管理 架构转型 •DevOPS•AIOPS•微服务化•容器化•云原生•灰度发布•APM•全链路监控等 •质量差•效率慢•定位复杂•发现和处置脱节•达不到KPI•10分钟 •日志采集拉通•数据格式统一化•端到端监控拉通•多级跨部门处置 •自有人员•技能全面•复用•自动化工具•智能化工具•运维开发能力 •漏洞扫描•代码审计•管控制度 •微服务化•云化容器化•部署自动化•Devops•双平面 SRE体系建设整体规划 借鉴浙江移动先进的SRE实践经验,结合市服中心实际,开展SRE体系建设。建设规划从以下方面开展:组织架构建设、流程规范建设、 稳定性架构改造、SRE能力提升、平台工具建设等,整体规划SRE运维体系建设推进落地。 浙江SRE实践经验 配套相对完善的SRE管理规范并持续更新 SRE运维体系建设关键实施路径 市服中心2021年首批参与探索试点SRE,经历2022年推广SRE应用,2023年深化SRE应用效能提升,全面推进数智化运维能力建设,2024年融合AI+运维场景持续推进SRE应用效能提升实践。 SRE应用效能提升整体成效-可量化指标评估 市场与服务支撑中心通过推进组织管理、架构设计、入网管控、运行治理、发布变更、测试管理、混沌演练、数智化运维建设等方面的20项应用举措全面提升SRE能力,实施SRE人才培养计划,实现SRE成熟度等级提升至L3(稳健级)目标。 •SRE成熟度整体能力,分别由五类构成:L1起始级、L2发展级、L3稳健级、L4优秀级、L5卓越级。SRE成熟度基准分满分100分,2023年SRE成熟度评79.82分,对应达到“L3稳健级”,即总分数大于等于70分、小于80分。 •在系统运行质量方面,以故障预防常态化、故障感知泛在化、故障通报自动化、故障认知智能化、故障处置无人化为目标,积极应用大数据、人工智能等先进技术,制定优化举措,全方位推进系统运维质量优化提升。 •市场与服务支撑中心2023年共发生异常事件11起,较去年同比减少71.79%;异常总时长681分钟,同比减少74.10%;异常平均处理时长61.9分钟,同比减少8.17%。 组织革新-自上而下、跨域协同、研运一体的SRE组织架构 联合基础平台部、平台能力运行中心、广州业务支撑中心、政企、计费清结算等部门成立自上而下、跨域协同、研运一体的SRE团队,为保障业务系统高可用、高可靠、高安全和业务可连续提供了组织基础,为持续提升系统云环境下运维质量与智能化水平创造了条件。 流程规范-标准规范、持续完善的流程管理体系 贯彻公司制度规范的同时,结合部门实际,细化、优化管理细则:《测试管理细则》、《系统作业计划管理细则》、《系统事件管理细则》、《系统监控管理细则》、《系统交维管理办法》、《应急保障管理办法》、《账号口令管理办法》、《重大活动保障细则》等多个运维管理细则,其中《测试管理细则》优化效果显著。流程自动化方面全面实现了流程的线上化,依托RPA技术实现部分流程的自动化,后续结合大模型实现标准能力沉淀下的流程自动化和流程的自动优化和体系融合。测试面临的问题 随着应用迭代速度加快,业务场景愈发复杂,测试面临严峻的挑战:能否覆盖核心业务场景,快速实施测试获得系统真实的质量,是决定割接变更成功率的关键因素。•测试环境结果可信度低:测试环境搭建标准不统一,与生产架构完全不匹配。 •测试场景不够真实全面:随着业务版图不断开拓,业务场景愈加复杂,操作入口百花齐放,测试场景未全面覆盖真实业务模型。•测试标准不统一:职责和分工不明确、没有统一的测试流程和要求、没有统一的测试验收标准,验收依赖个人经验,无法把控验证测试质量。 测试管理细则优化 管理:统一测试管理 流程:标准化测试流程 组织:明确职责分工 明确包含开发内部测试、系统测试、安全测试和上线验证测试,测试管理流程对应的标准动作、负责人和输入输出。 对性能测试和安全测试等非功能性测试、功能测试、测试用例管理、缺陷管理等做了统一管理,明确功能测试和非功能测试验收指标,把控测试执行质量。 确定工程项目验证测试、新业务验证测试、自主研发项目验证测试对应的责任组,安全管理组和运维组配合相关测试和对验收材料二次确认。 应用成效 优化前:22年市服内部故障35起,验证测试不充分引发故障7起,占比20%。优化后:23年市服内部故障20起,验证测试不充分引发故障2起,部门测试管理细则发布后验证测试不充分引发故障0起,有效保障割接变更成功率。 应急容灾-“先抢通,后抢修”的应急管理体系和容灾建设 为解决内部系统故障多发,故障时间长等问题,采用智能DNS、软硬件负载机制、数据同步等行业先进技术,重点完善核心/重要系统的应急灾备建设、打造“一键处置/切换”界面、优化应急处置机制,提升系统健壮性,实现复杂故障2-8-15(2分钟发现,8分钟定位,15分钟处置)处置目标,使应急处置能力达到全网先进行列。 1、完成部门内20个核心/重要系统应急、灾备能力改造,使应急处置能力达到全网先进行列; 1、全网首批引入互联网/内网上层智能DNS、软硬负载机制、数据同步等技术,对核心/