AI智能总结
张雁丽 北京移动SRE执行小组产品经理、系统运维 姓名:张雁丽 公司职位SRE执行小组产品经理、系统运维 主要负责SLO、可观测、运维保障及故障调度产品的设计与研发。 实 施 背 景 整 体 框 架 与 机 制 目录 运 维 保 障 事 件 调 度 工 具 支 撑 经 验 分 享 与 探 索 运维保障及故障调度工作现状 存在问题 运维保障、故障调度现状 p保障覆盖程度低p保障未分类分级管理p无统一的保障标准p缺少好用的保障工具运维保障故障调度p无整体故障调度p无标准响应流程p缺少好用的故障调度工具p管理缺失 p仅具备变更保障p保障要求不明确p保障依赖人员控制,效率低下,保障效果无法保证运维保障 运维痛点 覆盖程度低、无标准化故障响应流程 运维孤岛 IT组织中,仅一个部门负责运维保障和故障调度,限制了运维工作的灵活性和响应速度。 仅针对变更,覆盖程度低,难以满足保障需要; 缺乏标准化故障响应流程,引发故障处置混乱,领导被动等待、用户信息缺失等问题。 未分级分类、工具化水平不足 过度依赖厂商 自主解决问题能力差,当厂商服务不可用时,存在应对不足风险。 未分级分类管理,难以快速响应外部各类情况,导致服务质量下降。 存在“缺少运维工具”、“建设运维工具后无人使用”的双重困境,运维效率低下。 整体框架和机制 运维保障实施的五项原则 五项原则 借鉴业内最佳实践 区分特殊时间段与活动 适配组织文化 分类分级保障 运维保障前置 运维保障实施需不断借鉴业内最佳实践,确保运维管理体系的先进性与适应性,以实现持续优化 必须提前规划、准备,确保在潜在风险发生之前,具备必要的预防措施和应急计划 必须与组织文化深度契合,确保保障措施与企业价值观和工作方式相协调,促进全员的积极参与和高效执行 必须实施严格的分级机制,确保关键系统和业务在任何情况下都能得到优先保障和快速响应 必须依据时间段、关键活动差异化管理,确保在业务高峰期或重要活动期间,系统稳定性和服务质量得到保障 保障要求 资源准备 保障组织 注: 1.50000号、各层运维值班人轮值安排,由各部门指定专人负责在系统排定;2.所有轮值人员(IC经理、50000号、各层值班人),均需安排“主备”轮值——当主轮值人员调班时,备轮值人员自动升为主轮值;3.活动、营销等设置,由运维中心负责;4.故障定级、故障复盘跟踪,由运维中心负责;5.二线专家名单维护,由运维中心负责; 角色与职责 •事件响应过程中,各角色遵循如下的工作要求,负责职责内任务。 保障前准备-保障等级的确定 保障场景定义:依据“区分特殊时间段与活动”原则,我们将节假日、跨月跨年、上线变更、营销活动、重大会议以及一些重大社会性活动定义为保障场景。 特殊时间段 •月初月末、法定节假日、跨年•实施角色:OnCall机器人 保障场景登记 •内容:特大活动、重要活动、领导视察、重大营销、其他营销活动•要求:至少提前24h登记保障场景•实施角色:保障场景管理员,由运营中心承担 变更计划 •按照风险等级,划分为:重大变更、大型变更、中等变更、一般变更•要求:每日20:00前登记当晚变更计划 保障前准备-轮值排班 轮值排班遵循“5个原则” 变更优先原则 全面原则 特殊时间段原则 主备原则 公平原则 IC经理排班时,优先排变更负责人所在部门领导 轮值角色应包括:IC领导、SaaS运维、IaaS运维、PaaS运维 月初月末、跨年等特殊时间段,仅运营、服务参与轮值 所有轮值角色必须包含主责、备责 各个部门轮班的频次需保持公平 根据保障等级,制定IC经理轮值规则、IC副手选定规则 保障前准备-轮值排班 值班期间,确保能接收告警短信,接听故障调度电话 事件类型与定级 风险升级标准 标准响应流程 •信息部结合最佳时间,制定并持续维护故障响应指南,作为建议性操作手册(非固定步骤要求)。 “京策”运维保障工具 “京策”事件响应工具 基于北京移动运维保障和故障调度执行办法,配套开发“京策”事件响应工具,支持事件上报、事件通知、人员自动调度、事件处理、风险等级升级等多种功能,同时通过沉淀历史数据、创建事件工单等功能,为问题分析、风险评估、系统优化、辅助决策等提供依据。 能力2:事件通知(IM群通知、IVR通知、短信通知) 其他辅助工具-元宇宙 核心能力1:逼真的虚拟环境 核心能力2:增强版多屏共享 核心能力3:数智化办公辅助 多屏共享,解决轮流投屏的周折,拖拉拽操作即可把信息投到多个屏上,铺陈开来进行直观比对。并且支持用户之定义嵌入图片、视频、网页等投屏资源。 模拟现实场景构建沉浸式3D虚拟空间和个性化数字人,搭配语音、空间穿梭、瞬移寻人等功能,打破物理与现实界限,实现线上虚拟集合。 关键业务流程节点自动触发界面化,自动化播报,建会,待办任务等,以及基于大模型的智能问答,精准为用户答疑解惑,提供更多数智化的办公辅助。 核心能力4:一站式能力封装 核心能力5:全方位沟通协作 核心能力6:轻量化集成能力 把日常办公中分散在各个独立系统或平台的功能或能力有机地集中在了同一个空间,避免在通讯、办公等各平台辗转搬运信息,实现同一个界面的无缝协作。 提供实时语聊、图文对话、多屏共享、转写标记、会议录制等多种交互手段和信息留存同步的方式,实现多人线上全方位沟通协作,并起到信息拉齐的效果。 基于Unity 3D建模技术,打造轻量化元宇宙空间,结合业务快速构建场景应用。 其他辅助工具-可观测 Ø实时观测接入层到系统双中心核心应用各层的流量分布 Ø从关键业务视角进行,从上到下进行端到端健康状态观测、业务影响范围分析,以及各层资源对象的性能指标健康状态及趋势数据分析 价值理解 WHY?不能减少故障发生,也不能明显提升故障恢复时长? 驱动“1-5-10”工具的改进 轮值工具、事件响应工具升级;配套能力,例如监控、定位、CMDB等能力升级;配套能力接入事件响应工具,实现自动信息同步、处理。 提升IT组织响应能力 打破传统依赖专门运维团队的保障及故障响应模式,确保运维流程不会成为制约整体效率的瓶颈,实现更高效、灵活的工作模式。 响应过程标准化 通过故障响应流程的标准化、工具使用场景的标准化,可以确保IT组织在面对突发问题时,能够有序、高效地处理,避免出现混乱;结合业务、技术、工具化的发展,通过定期的审查和改进,实现响应流程的持续迭代与优化。 组织文化配套的重要性 运维保障与组织文化的深度融合对于确保运维措施的有效性和员工的积极参与至关重要! 节假日或特殊时期01 北京移动作为传统国企,秉承工作与生活平衡的理念。我们的运维保障和故障响应包括多部门协同、灵活的工作安排和远程支撑,在尊重员工个人生活的基础上,在任何情况下,确保了服务的稳定和连续。 厂商协作02 与外部厂商的协作是运维保障的关键组成部分,北京移动运维保障和故障响应工作鼓励开放的沟通和协作,可以确保在需要时能够获得及时的支持和资源,提高问题解决效率。 领导要求03 领导层的参与和支持对于运维保障和故障响应至关重要。北京移动相关机制促进透明、及时的沟通,确保领导层实时了解运维状态,能够在必要时提供指导和资源,提升了企业的决策能力。 最佳实践:故障响应演习 工具建设经验 大模型的使用探索 自动化运维 故障预测 系统性能优化 故障处理 故障定位 •利用深瞳监控和分析能力,结合AIOPS算法,对系统日志、性能指标及用户反馈综合分析,给出诊断建议,辅助运维人员快速定位故障原因 •与自动化运维操作平台、深瞳结合,实现自动脚本编写、自动任务执行,减少人工干预,提高运维工作效率和准确性 •根据APM和服务器监控指标,综合分析系统性能瓶颈,通过数据挖掘和模式识别,识别关键性能指标和潜在问题,给出优化建议 •分析历史数据和监控指标,利用机器学习模型和统计分析方法,预测可能发生的故障和性能下降,实现故障的早期预警 •总结故障知识,形成知识图谱,通过智能问答。实现对故障信息的快速检索、关联分析和问题解答•整理故障故事线、自动输出故障报告 感谢大家观看




