AI智能总结
——暨北京移动IT运维转型实践分享 王霖信息系统部中台能力运营室经理IT系统架构委员会负责人 个人介绍 王霖 中国移动通信集团北京有限公司信息系统部中台能力运营室经理、IT系统架构委员会负责人 20余年运维老兵,见证中国移动从成立之初为用户提供优质通信服务,到奋力打造信息服务科技创新公司的今天,在用户规模、业务种类成倍增长的环境下,系统规模、系统复杂度的指数级跃升。在这期间,亲历小型机到云原生的系统升级,学习ITIL、ITSM、DEVOPS、DEVSECOPS、SRE、AIOPS的理念与标准、方法和工具,深耕IT生产运维从手工、到标准化、工具化、平台化、智能化的迭代升级。今天,愿将我20余年的运维经验积累的成果与大家分享。 背 景 与 挑 战 1 目录 转 型 顶 层 设 计 2 转 型 分 享 : 技 术 保 障 与 容 灾 应 急 CONTENTS 3 转 型 分 享 : 数 智 化 运 维 平 台 4 S R E未 来 思 考 5 01背景与挑战 运维保障已经成为企业IT治理的核心 秉承公司“世界一流信息服务科技创新公司”发展定位,明确IT成为“世界一流的信息服务提供商”的核心战略目标,IT治理是重要的战略举措,需要企业从组织、技术、协同等方面进行IT治理优化,其中运维保障是业务目标实现的基础,也是IT治理的核心。 •聚焦于价值、体系、组织和流程等方面,持续优化IT治理完善资源管理和制度流程,从提升管理到聚焦治理。 •TOGAF架构设计的关键在于业务架构、信息架构(数据架构、应用架构)、技术架构三个方面的规划设计,并结合实现闭环治理; G O P S全 球 运 维 大 会2 0 2 3 ·上 海 站 云原生技术背景下,北京移动IT系统面临的挑战 经过二十多年的升级迭代,北京移动BSS系统已完成云化、微服务化、容器化等技术架构升级,享受云原生技术红利的同时,IT生产系统的组件规模和复杂性呈几何级增长,软件交付和IT运维面临巨大挑战,迫切需要引入有效的IT运维方法体系。 •微服务:高内聚、低耦合,提升系统可靠性•秒级:极致弹性能力,提高资源利用率•分钟级:灵活部署,提高需求支撑效率 技术红利 VS 北京移动IT系统运营转型的六大驱动力 02转型顶层设计 北京移动“四位一体”SRE工作思路 明确北京移动实施SRE九大原则 确立IT运维九大原则,并在部门协同流程、岗位协同流程、部门考核要求、部门工作文化等方面进行落地执行。 以组织、流程和文化变革为牵引 •724运维日,运维突破活动,领头羊计划,打造SRE文化•IT运维团队意识转型,“产品+开发+运维”综合能力 与中移集团、浙江移动合作制定的SRE能力模型标准 SRE运维体系,采取SRE目标驱动SRE管理、SRE管理驱动运维的设计思路,由1+3+8+1构成,以”保障业务连续性”为目标,遵循SRE管理规范化、SRE能力标准化、SRE支撑平台化原则,基于SRE生命周期的运维实践,沉淀出8大能力,将管理和运维下沉到各能力中,统一由数智化运维平台提供支撑,覆盖全生命周期,持续提升SRE能力建设。 SRE深度参与IT工程“全生命周期”,而非仅仅“上线前交维” SRE团队转变意识,跨IT组织所有部门建设“IT工程全生命周期参与”机制和工作流程,主动出击方为正道。 03转型分享:技术保障与容灾应急 技术支撑保障:以制定IT生产系统架构技术标准为出发点 要实施IT生产系统的可靠性架构演进,第一步是制定相应的架构技术标准,为可靠性演进建立度量衡标准,否则很难开展。 技术支撑保障:持续评估SRE可靠性风险,并迭代演进 SRE往往是组织内唯一具备“IT生产系统全局视角”的团队,从系统高可用出发,结合云原生等技术实践,采用循环迭代、渐进深入方式进行持续反复的可靠性评估,发现IT生产的架构性问题并推进改进,对SRE能否成功实施是“重中之重”。 技术支撑保障:下定决心,偿还IT系统架构性技术债务 采用“滚动迭代、持续演进”的策略,而非“一步到位”的策略,对已存在10年以上的老旧系统,下定决心进行技术迭代,消除“技术债务”,是SRE工程能够实施成功的又一决定性因素。 新架构建设时,满足JDK17、IPv6、操作系统、芯片架构、营业终端、数据库国产化的要求。 第一阶段(2023):整合/试点、基础建设 •老旧整合:NGCRMNG客服、OCRM•新架构提升:政企智慧中台、应急中心 第二阶段(2024):相对独立、部分核心 •结合CHBN:考虑规则中心INTERUIP、预受理中心•新基线中心:考虑客户中心、产商品中心•相对独立应用:考虑零库、客户交互中心 第三阶段(2025):核心业务、较为复杂 •以订单为基础规整5个订单中心能力、及架构升级 第四阶段(2026):下游工程、完整迁移•CRM下游中心:账管、对账、资料同步中心 容灾和应急:优先实施,作为SRE工程信心之源 在SRE工程实施之初,为了快速提升系统高可用水平,优先建设灾备和应急系统,推行系统故障时“先恢复再修复”响应策略,将会是IT组织能够将SRE工程实施下去的信心之源。 极少情况下(如:数据被破坏)双中心失效,启用应急系统恢复 04转型分享:数智化运维平台 SRE数智化运维平台框架 从打造运维基础、防患故障未然、故障快速响应、保障流程效率4方面打造SRE体系化运维平台。 SRE运维平台分享1:自动化闭环的Devops流程作为SRE前提 SRE本质上是DevOps理念的一种实践方法,在DevOps流程自动化闭环的基础上推进SRE运维能力提升是应有之义。 SRE运维平台分享2:工具开发从项目制到敏捷迭代变革 SRE理念要求快速迭代IT运维工具,传统“瀑布模型”项目很难胜任SRE快速开发工具需求,敏捷迭代是唯一王道。 SRE运维平台分享3:将SLO作为运维能力提升的核心点 在原有指标监控的基础上,增加SLO监控,并配套可观测能力,将会大大提升监控查准率、查全率的同时,驱动可观测性平台建设,进而最终实现IT运维能力在整体上质的跨越。 SRE运维平台分享4:跨IaaS/PaaS/SaaS统一告警等级和响应 统一定义告警等级和响应升级机制,对于跨IaaS/PaaS/SaaS各部门之间的故障响应协同一致性来说至关重要。 SRE运维平台分享5:常态化演练故障应急响应预案 光有应急预案管理平台、以及各种应急预案在数量上的积累,并不能真正保障故障时有序高效响应,从应急预案故障模拟度、运维团队熟练度两个角度,必须实施常态化应急演练。 SRE运维平台分享6:基于DevOps驱动跨部门变更管理 将工程项目、业务需求、基础设施等多角度的变更统一进行在线管理,与变更发起部门合力降低变更风险。 变更管控整体思路 长期 近期 中期 运维前置,加强重点业务需求和工程项目的变更评审。 依赖CMDB、AIOPS建设,实现变更影响的量化自动分析。 通过灰度发布环境生产指标测试等方式完善风险评估。 主要变化: l统一变更风险等级标准:重大、严重、中等、一般;l变更发起:明确割接方案、影响评估、风险等级评估等内容;l变更评审:经评审管理小组与相关人员评审同意后上线;l变更实施:增加实施后检查内容:渠道全量指标、开门测;l持续保障:持续更新保障日历;l每日通报:1)十日变更内容/进展;2)当晚变更内容;3)次日变更结果通报。 G O P S全 球 运 维 大 会2 0 2 3 ·上 海 站 SRE运维平台分享7:建立高效故障复盘流程和无责文化 好的复盘,满足这6个要求 1描述清晰•词汇表、量化指标 3对事不对人•没有任何人或团队被指出;•只描述故障相关技术细节、原因分析; 4深度剖析•找到根本原因和触发因素;•事实和数据驱动;•适当图表表达; 5迅速复盘•最迟一周内完成; 6简明扼要•只给出总结和结论;•原始记录和日志提供链接或附件; SRE运维平台分享7:建立高效故障复盘流程和无责文化 04SRE未来思考 IT运维响应中移动集团战略定位 落实国家关于加快转型的需求,顺应数字化、网络化、智能化趋势,在夯实网络优势基础上,打造数字化、智能化的业务、能力和组织体系,实现全方位、系统性变革。 加快推进数智化转型 信息服务 创世界一流 科技公司 发展方向 初心使命 发展方式 发展方式从资源要素驱动向创新驱动转变,实现从运营商向科技公司的历史性跨越: 贯彻落实国家创世界一流示范企业要求,以强烈的责任感、使命感,当好“创一流”排头兵,实现: 把握新一代信息技术深度融入经济社会民生大势,拓宽主业边界,积极拓展信息服务蓝海: ü科技投入显著提升,建成高水平专家队伍;ü引领产业技术和商业模式变革;ü形成技术、数据要素驱动的持续创新动力。 ü一流的规模增长;ü一流的产品服务;ü一流的效率效益。 ü基础电信业ü互联网产业ü软件及信息技术服务业 G O P S全 球 运 维 大 会2 0 2 3 ·上 海 站 发挥央企优势,基于自身SRE实践,推出IT运维产品体系和服务 从产品服务体系、央企信任背书、自身超大规模IT运维实践三方面,北京移动具备进入大型政企运维市场的特有优势。 央企信任背书 完备的SRE能力规划和运维产品体系 一方面,不但能提供产品和服务,还能帮助客户从SRE能力体系角度进行梳理,打造完备的运维体系。另一方面,已经具备BOMC/APM/日志/可观测平台/AIOPS/自动化应急等完备产品系统 运维涉及到IT系统的核心机密,政府和大型国企的大型IT系统运维,央企背书具备更高的可信任度 自身超大规模云原生IT系统(120+套数据库、470+套中间件、40+应用节点、5.07万容器实例)下打磨的支持99.9%高可用性目标的运维软件和操作体系 G O P S全 球 运 维 大 会2 0 2 3 ·上 海 站 北京移动推出“京萤”系列产品,助力大型政企客户IT运维 智能运维开放 OneObservability 关键举措4步走 能力储备阶段(22-23年)01 产品完善阶段(23~24年)02 能力覆盖BOM三域系统 沉淀23个智能报障能力,形成3个企业级智能报障中台能力 体系搭建(23~24年)03 规模拓展(24~25年)04 OneAIOps 北京移动为“京萤”配套提供“2+2”SRE与产品交付服务 开放运维联盟高效运维社区DevOps时代 荣誉出品




