AI智能总结
转 型 背 景 1 目录 S R E的 本 质 2 CONTENTS 转 型 三 要 素 3 实 践 总 结 4 01转型背景 移动云业务快速发展 2022年1月,国务院印发《“十四五”数字经济发展规划》,明确要求加快企业数字化转型升级。 中国移动充分发挥云网资源禀赋优势,移动云业务高速发展,成为行业增长最快的云之一。 2023年8月,中国移动发布2023年中期业绩,移动云继续保持高速、高质增长,营收达422亿元,同比增长80.5%。 复杂的依赖关系 快速迭代的产品 02 SRE的实质 SRE的定义 SRE -Site Reliability Engineering(网站可靠性工程) “SRE是一种将软件工程和运维运营融合的实践方法,旨在确保大规模分布式系统的高可用性、高可靠性和可拓展性”---《Google SRE运维解密》 “SRE is what happens when you ask a software engineer to design an operation team”---Ben Treynor Sloss(Google SRE VP) “我的整个职业生涯都专注于软件工程,所以很自然,我按照自己最习惯的工作方式和管理方式来组件了这个团队” 通俗地讲:让软件工程师通过软件工程的方法和手段来解决运维的问题,即:开发运维产品来维护生产环境中的产品运行 03转型三要素 转型初期面临的问题 他山之石可以攻玉 从三本书开始 我是怎么做到,你也能做到 运维技术体系、组织、人员成长 广泛交流 与业内多个优秀团队开展组织架构、工具体系交流。 转型三要素 以“运维是设计出来的”为理念,以“人”、“流程”、“工具”三要素为抓手,形成组合拳,驱动团队SRE转型推进。 转型三要素–人 人的能力是转型基础,也是转型的动力源泉。转型团队中,人员的稳定性和能力提升是转型的关键。 演进方向:“能编码、精业务、谋全网”的SRE全栈工程师 问题1:团队稳定性 问题2:能力提升 Ø一名应届生正常情况下,在两年以后就达到了运维的天花板(愿学、肯学、能学),人生还很漫长怎么办,职业生涯还远,这时候就蠢蠢欲动了,团队的稳定性如何处理?技术骨干总是心痒痒,怎么解决? Ø几种角色转型的难易程度上看,开发岗位最容易、应用运维其次、数通工程师(网络)难度最大Ø如何让转型人员放下心理的负担,直面新的事物? ü答:拉高运维岗位的天花板,套餐要全上(Linux、网络、Python、架构…) ü答:在推进过程中树立“好学生”,依靠榜样的力量,传帮带 转型三要素–流程 流程是穿针引线的灵魂,明确的专项流程是确保转型工作真正落地的抓手,有助于打通团队墙,加强横向协作,完成最佳做事方式的提炼和固化,帮助转型工作实现从“人治”到“法治”的转变。 问题1:推进过程中,出现“你不好用,我就不用”、“我等不了”等问题怎么办? 答:既定业务目标不能变,划分好责任田,团结一切可以团结的力量 问题2:不同专项所处阶段有差异,不能一个流程走到底 答:流程没有最好,只有最合适,勇于尝试,动态优化,通过协同机制,“磨”出最佳实践 转型三要素–工具-运维平台 通过平台PaaS底座对底层能力进行封装整合,打通环境、构建、部署、监控等环节,为各个运维专业上层的SaaS运维工具开发提供底座能力的支撑,降低开发门槛,专注于业务逻辑的实现。 SAAS层 面向运维场景,提供场景化的运维自动化服务能力,实现运维工具SaaS化快速开发交付。 PAAS层 围绕“厚平台”的服务理念,沉淀通用能力,基于云原生框架打造开放、弹性的技术架构,构建基础技术、业务、数据平台服务能力,支撑上层运维业务的开展。 采控层 采控层通过采控集中管理,对全网资源池的资源、性能、日志等数据进行分布式采集和集中化管控。 04实践总结 “三要素”的实践分享 p目标:明了做平台和通过平台实现业务目标之间的GAP,需要考虑工具能力如何嵌入生产场景形成闭环,发挥效能 “人”的能力一定要“跟上”,主要有两种情况: p流程要带有目的性,以业务目标为中心进行设计,不要为了流程而建不必要的流程 p“他”可以跟上:自驱力较强,有较高的技术追求p让“他”跟上:SAAS工具之上的脚本编排开发,确保不掉队u引入DevOps模式提升质效,一定要有“质效”评价模型,向运维工具“要”效能 p需求:平台要不断引导最佳实践,切忌盲目被需求推着走,以场景和业务价值驱动平台能力的完善 p流程的各个环节责任主体要明确,每个流程要有一个责任人,负责整个流程的优化 pAIOPS:有多少投入就有多少智能是原则,但不是放弃智能的理由,运维场景有规模化效应(有条件情况下,建议直接跳过异常检测、根因分析,投入运维大模型建设) 平台与专业的关系 在SRE转型的道路上,SRE专业团队既是平台团队的服务对象(用户),也是引导对象(同学)。平台团队应该坚持向支撑SRE转型的三者转变:转型落地的支撑者(平台)、转型推进的统筹者(流程、专项)、转型理念的布道者(方法论、文化),发挥驱动SRE运维能力提升的底座作用。 转型落地的支撑者:技术架构能力和工程开发能力转型推进的统筹者:项目管理能的恒心和一杆捅到底的决心,发扬“课代表”精神,知道怎么布置作业,知道怎么收作业 转型理念的布道者:保持文化自信,转型推动最难的是:推进过程中的孤独感和自身思维转变 开放运维联盟高效运维社区DevOps时代 荣誉出品




