您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华为]:华为混合云现代化运维体系核心能力及最佳实践 - 发现报告

华为混合云现代化运维体系核心能力及最佳实践

信息技术2024-08-14-华为c***
AI智能总结
查看更多
华为混合云现代化运维体系核心能力及最佳实践

政企而言,IT架构建设作为组织战略目标实现和业务创新发展的核心引擎,是一项战略性、系统性工程,然而IT架构的建设往往不会一蹴而就,而是会随着技术革新逐渐引入新的平台、新的产品和技术。因此,政企IT架构的发展演进进程中普遍存在不同架构、不同代际、不同厂商平台并存的情况。运维人员需要全面了解不同平台的部署、升级、维护等操作,这不仅增加了运维人员的工作难度,自动化运维工具的推行也变得举步维艰,使得运维工作变得极为复杂和繁琐。P R E A M B L E对 序言 随着政企数智化进程的加速,混合云作为一种灵活、可扩展且安全的云平台解决方案,已逐渐成为政企用户数智化转型的首选IT架构。然而,随着云上业务需求不断增加,云服务资源类型日益丰富,传统的IT运维体系已经难以应对混合云环境下复杂的技术架构和多变的业务需求。 为了应对这些挑战,对混合云运维系统架构进行现代化升级势在必行。华为混合云基于自身云平台运维经验,以及服务数千家政企客户的数字化转型实践,持续积累面向现代化的核心运维能力,并沉淀构筑了一套全面构建稳定可靠的现代化运维能力的路径和方法。通过运维现代化核心能力,期望能够帮助政企客户从传统架构运维到云化架构运维转型,以数字化和智能化为驱动,构筑混合云现代化运维新体验。 其中,运维体系作为混合云运维能力建设的基础性、系统性工程,面临着对技术、组织、制度需进行系统性重构的巨大挑战,其核心在于通过数智化的运维体系实现“效益”、“效能”、“效率”、“效果”的最大化。 效益:指经济效益,包括可盈利或其他与盈利相关的要素。运维要以效益为目标,对准业务价值匹配业务发展和架构演进,实施运维改进和提升。 效能:指服务能力,是支撑运维活动顺利进行并达到预期效果和效率的保障。在运维活动中不断提升服务能力,包括对新技术的掌握、新的工具的使用等,及时应对新技术架构的挑战。 效率:指在运维活动中,得到的结果与所使用的资源之间的关系。在运维工作中,要不断提升作业效率,用更少的资源交付更好的结果。 效果:指运维活动达成的结果,衡量是否达到需求或者预期的目标。运维要达到流程、服务或活动的目标,并有切实的成效。 围绕这“四效”目标,政企客户需要围绕运维制度规范、运维组织、运维业务、运维知识库、运维平台和运维安全这六大维度进行核心能力的演进设计与持续构建,以不断提高云平台运维管理水平。 本文将对如上六大核心能力领域的建设路径和方法进行详细阐述,并通过某集团客户的实际建设案例向读者提供可落地的最佳实践参考,期望对广大混合云用户面向现代化的运维能力提升带来一些启发和思考。 目录C O N T E N T S 混合云现代化运维理念概述04-061 07-432 混合云现代化运维体系参考架构 2.1 混合云现代化运维体系建设背景2.2 混合云现代化运维体系建设思路2.3 混合云现代化运维体系参考架构 09-433 混合云现代化运维体系核心能力 3.1 运维规范与流程设计3.2 运维组织设计3.3 运维业务设计3.4 运维知识库设计3.5 运维平台设计3.6 运维安全设计 09-434 混合云现代化运维体系落地实践 4.1 建设背景4.2 运维痛点分析4.3 运维体系规划设计4.4 建设成效 华为基于三千多家混合云用户的运维场景和诉求,结合多年来累积的政企客户运维服务实践,参考华为混合云以及华为公有云的运维经验,提出了混合云现代化运维顶层设计参考架构,将混合云运维划分为四大领域,分别为“运维体系现代化”、“平台运维现代化”、“应用运维现代化“和“安全运维现代化”四个部分。 复等方方面面,华为在每个领域都提出了运维现代化改进的方案:极简性的运维体验应对政企混合云运维投入人力有限的场景,保证混合云运维效率;预见性风险治理帮助政企客户实现风险的提前感知与预防;确定性故障恢复则给出了在云与业务耦合度日益加深的背景下的最佳答案。 运维体系现代化 运维体系现代化定义了在混合云进入深度用云阶段,应该建设什么样的运维体系适配业务的发展,包含运维流程规范、运维组织、运维业务、运维知识库、运维平台、运维安全等多个方面,帮助政企实现从当前运维体系向现代化运维体系的升级。 平台运维现代化 应用运维现代化 云平台技术栈的快速增长给云平台运维带来巨大挑战,这些挑战涉及日常运维、主动预防以及故障恢 当前,越来越多的用户将关注点从云与设备运维转向应用的运维,尤其是承载着经济乃至国计民生的 核心应用的运维受到运维管理者额外的重视。将应用的可靠性保障前置到设计阶段,通过高可用设计提升应用的可靠性。同时在应用运维领域,存在多种多样的工具与技术,工具之间数据割裂无法形成全局的视野,直接影响了应用运维的效率与效果。只有打破各个工具间的数据孤岛才能统筹洞察应用的完整运行态势,对应用进行全方位的监控与分析。 控保障运维安全:事前实现对权限的有效规划和管理,事中实现运维操作的严格管控,事后实现对运维操作的审计与分析,减少因运维误操作带来的风险。在租户安全维度,通过构建完整的安全防护体系,实现端到端保障混合云的租户安全。 上述的能力均建立在将混合云运维的数字资产不断地迭代和衍化的基础之上,通过将运维经验数字化、智能化和服务化,不断将新的运维能力孵化出来,注入到运维工具、运维脚本和运维服务中,持续赋能政企混合云,实现混合云运维的现代化。 安全运维现代化 运维安全是保障业务可靠性的基石,也是运维现代化的基础。在运维安全领域,需要通过全面的安全管 2.1 混合云现代化运维体系建设背景 政企客户在云化数智转型过程中,传统基础设施与云原生平台长期共存,运维部门要长期面向混合架构建立面向多云多数据中心的协同管理能力,包括组织、流程、工具、平台等,因此构建面向混合架构的统一运维管理体系势在必行。 根据华为混合云过往几千家客户的运维服务经验,政企客户在运维体系建设落地过程中,普遍面临如下几个方面的挑战: 运维知识库如何管理:如何建设行之有效的运维知识库,如何对运维数据有效治理 运维安全如何保证:如何建设全面、高效的运维安全保障体系 运维流程如何适配:业务运维和平台运维的流程难以衔接 这些问题并非孤立存在,而是相互交织构成了政企数智化转型道路上的系统性瓶颈。面对上述挑战,单点零散的改进显然已力不从心,因此,突破单点瓶颈,构建一个具备持续演进能力的现代化运维体系,已成为支撑政企业务可持续发展、实现战略目标的关键系统性工程。这就要求政企用户跳出“救火式”思维,以体系化、工程化的视角,重新审视和规划适配业务智能化发展的现代化运维体系建设路径。 运维组织如何规划:缺乏运维岗位设置、职责分工、人员配比等方面的经验 运维能力如何构建:需要什么样的人员,怎样快速提升运维人员整体水平 运维平台如何建设:运维工具、平台怎样整合,如何提升自动化水平 2.2 混合云现代化运维体系建设思路 在实现目标过程中的不足,并加以改进。 混合云现代化运维体系建设应当设置明确的目标,聚焦运维带来的价值以及能够沉淀的运维能力两个方面进行考量,使得运维产生的收益最大化。基于目标设计运维体系的成熟度模型,设置不同维度的考核指标,评估运维体系建设目标的达成情况以及 “实践是检验真理的唯一标准”,一个好的运维体系最关键的衡量标准就是可落地性。运维体系在落地过程中,需要各个部门密切配合,相互磨合并且持续改进,最终形成最符合政企现状的运维体系,持续保障业务稳定运行,支撑业务持续健康发展。 首先,针对混合云运维体系,华为云提出以“四效”为目标,不断提升运维价值和运维能力。“四效”分别是效益、效能、效率和效果。 其次,针对设定的运维体系目标,从业务感知能力、分析决策能力、自动化能力、可视化能力四个维度设置合理的成熟度指标,对运维体系的发展阶段进行数字化衡量。 最后,通过对目标用户的战略意图、业务现状、技术演进等方面进行全面的调研,作为统一的业务输入,对运维体系进行规划和设计。 2.3 混合云现代化运维体系参考架构 运维体系建设目标和成熟度评估模型建立之后,需要着手设计运维体系架构。传统的运维体系一般包含组织、流程、工具等几个组成部分,华为混合云结合自身实践及数千家客户服务经验,在传统运维体系基础上,围绕“四效”目标,总结提炼了适配政企客户现代化运维体系所包含的核心要素以及运维体系建设的参考架构: 此外,运维体系的实施也不是一簇而就的,而是在试行过程中,综合各个方面的反馈持续优化改良,从而逐渐建设出符合用户实际业务发展需求的运维体系。 典型的指标度量体系包含告警响应及时率、事故恢复及时率、事故数量、变更成功率等。 1、运维规范与流程 通过“因地制宜”制定运维规范,树立运维制度和流程,指导各项运维工作依规有序进行。 2、运维组织治理 根据用户实际情况定义运维组织架构,识别关键运维岗位,明确岗位职责,按照岗位承担的职责和定义的人效比,为岗位配置预期数量的人员以及人员的绩效考核条目。涉及周边组织协同配合场景,需要明确周边组织的协同职责,无隶属关系的组织需 典型的运维规范包含业务故障等级定义、业务上线规范、业务转维规范、运维数据治理规范等。 典型的运维流程包含故障处理流程、应急恢复流程、主动运维流程、变更流程等。 5、运维平台治理 要报请上级部门协调,确保职责落地。 运维平台治理按照业务属性划分一般涵盖两部分能力:平台运维和应用运维。平台运维管理对象是不同架构、不同代际的云平台,应用运维管理对象是客户业务系统,通过构建统一运维平台实现运维数据的统一接入、数据汇聚治理、运维可视化呈现,支撑运维各项工作有序进行。 3、运维业务管理 运维业务管理主要是针对服务内容进行定义,可以分为服务请求、故障修复、业务变更及主动运维这四大类。 4、运维知识库管理 运维知识库管理主要面向对运维资产积累有一定诉求的中大型政企客户。基于云平台或业务运维过程中产生的运维数据,如问题单、案例库、变更方案等进行数据治理,生成运维知识库,对运维风险进行AI预测等增值类工作。 6、运维安全管控 运维安全体系主要包含数据安全、IT安全、人员安全、物理安全、作业可信等几个方面,通过法律法规、业界安全标准、用户安全要求的约束,系统化构建运维安全体系。 混合云现代化运维体系核心能力 典型的运维规范包含业务故障等级定义、业务上线规范、业务转维规范、运维数据治理规范。通过标准化的规范和流程来提升系统的稳定性、安全性和高效性。 3.1 运维规范与流程设计 随着政企客户业务全面快速上云,面向传统数据中心的运维规范和流程已经无法适配业务的发展要求,比如业务上云规范、业务转维规范、数据治理规范等等,都是传统运维规范中缺失的内容,因此面向云上业务的规范、流程、度量指标的建设是政企客户的迫切诉求。 业务故障等级定义 在故障处理过程中,可以根据不同的故障等级,调集相应的资源处理问题,有效提高故障处理效率。按照故障影响,故障划分为四个等级,即P1/P2/P3/P4。 3.1.1 运维规范 业务上线规范 新业务或系统功能上线时所需遵循的一系列标准和流程。这些规范旨在确保上线过程的顺利进行,减少系统风险,提高业务的稳定性和可用性。 与业务数据相比,运维数据有其自身的特点和治理难点,例如数据分布分散,数据标准化比例低,缺乏成熟的方法等。运维数据治理贯穿于数据生命周期,从规划设计,到实现和维护,再到应用和变现,需要一整套方法论及规范去指导落地。 业务转维规范 业务转维规范主要明确站点转维标准动作及交付件,确保项目转维各流程顺利进行。规范转维管理过程,明确网络安全责任边界和转维关键角色职责,确保项目转维人力按时到位,通过完善项目转维流程建设,更好地降低站点的运维风险。 3.1.2 运维流程 转维总体分为转维准备、转维自检和转维交接三个阶段,每个阶段对应关键的转维动作和标准交付件,以及相关责任人。 运维流程按照不同运维动作属性分为故障修复线、业务变更线和主动运维线。 运维数据治理规范 故障修复线