AI智能总结
尚梦宸中国信息通信研究院云计算与大数据研究所审计与治理部工程师 AIOps国际标准编辑人,从事DevOps, AIOps、系统稳定性等发展研究与行业标准制定工作,是《研发运营一体化(DevOps)能力成熟度模型》系列标准,《云计算智能化运维(AIOps)能力成熟度模型》系列标准,《企业IT运维发展白皮书》、《中国AIOps现状调查报告(2022)》等的编写成员之一。 01.SRE研发运营系统可靠性与连续性工程编制背景 02.SRE研发运营系统可靠性与连续性工程实践 03.SRE研发运营系统可靠性与连续性工程标准内容介绍 04.SRE研发运营系统可靠性与连续性工程评估介绍 外部环境与需求变化促进运维(Ops)理念不断演进 p运维的需求与环境发生巨大变化:随着数字技术的更新,信息化系统的重要性突显,系统稳定性面临着新的挑战。互联网等数字原生企业为提升数字能力、满足用户需求,不断扩大系统规模,引入敏捷开发流程,导致信息系统复杂性直线上升,稳定性风险点增多。同时运维理念随技术需求也在不断演进。 可靠性、可维护性和可扩展性 将软件工程的原则和运维的实践结合,通过自动化、监控、故障注入等手段提高系统的可靠性、可维护性和可扩展性。 快速部署、持续集成、交付和部署 研发和运维是紧密协作的一体化团队。使用自动化工具和流 程 实 现 快 速 部 署 、 持 续 集 成 、 持 续 交 付 和 持 续 部 署(CI/CD)。 自动化服务器配置与部署流程 研发和运维协同DevOps阶段 采用自动化工具和脚本减少手工操作。通过配置管理工具自动化服务器配置和部署流程,减少手工错误和提高一致性。中国信息通信研究院 自动化运维阶段 应用程序的开发、测试、部署之后,由运维负责部署、监控和维护。在这个阶段,操作流程和文档以人工方式维护和更新。文 档 化 人 工 维 护 与 更 新 2 0 2 3 D e v O p s国 际 峰 会·北 京 站 暨B i z D e v O p s企 业 峰 会 构建新时代稳定、高效、精细、安全的大运维体系 p围绕软件研发运营生命周期-需求、设计、开发、测试、运维5个维度;聚焦运维目标、组织、团队管理以及服务和工具能力5类基础保障;结合稳定性、高效能、精细化、安全运维4大工程实践,共同构建稳定、高效、精细、安全的大运维体系。 智能化运维(AIOps)能力成熟度模型 第2部分:系统和工具技术要求 标准编制组成员单位 面向智能运维整体能力建设:第1部分:通用能力要求 面向智能运维系统和工具能力: p关注AIOps系统和工具功能能力,从基础功能、高级功能等功能性要求角度考察AIOps系统和工具应具备的相关能力,用以支持企业AIOps能力建设。 p帮助企业了解并明确AIOps系统和工具需要具备的功能要求,对标行业领先实践,结合业务模式持续完善A IO ps系统和工具的场景应用。p根据系统平台及工具满足的能力要求项数量将其分为三个级别:全面级(一级)、优秀级(二级)、卓越级(三级),且三级为最高级。 p以下为参与编写《云计算智能化运维(AIOps)能力成熟度模型第1部分:通用能力要求》与《云计算智能化运维(AIOps)能力成熟度模型第2部分:系统和工具技术要求》的成员所在单位(部分),涉及银行、证券、保险、互联网、通信等众多行业领域。 p关 注 整 体 能 力 建 设 情 况 , 从 感 知 、 分 析 、 决 策 、 执 行 、 知识 更 新 五 个 维 度 考 察 各 场 景 的 智 能 运 维 能 力 效 果 , 包 括 运维 人 员 对 系 统 工 具 的 使 用 , 运 维 人 员 对 智 能 运 维 的 理 解 程度,以及最终的效果。 p从 不 同 角 度 考 察 当 前 智 能 运 维 建 设 情 况 , 从L 1 - L 5给 出 指导的建设路径。帮助企业了解当前A IO ps建 设 现 状 , 明 确改进目标和未来发展方向。 2 0 2 3 D e v O p s国 际 峰 会·北 京 站 暨B i z D e v O p s企 业 峰 会 智能化运维(AIOps)能力成熟度模型第3部分:可观测性能力要求 Ø面向可观测性能力建设:定义了智能运维领域的可观测性能力要求,包含智能运维可观测性系统应具备的体系结构、技术要求和能力要求,可用于指导基于可观测性的智能运维平台的规划、设计与实现,为相关企业选择可观测性系统工具提供选型依据,也可供自身建设基于可观测性的智能运维平台作为参考。Ø构建可观测性能力全方位获取内部数据信息、打通指标、日志、调用链数据,把握内部数据关系、掌握系统内部情况,随后根据不同应用场景 使用智能化方法,满足软件质量、效能、感知等多方面的观测需求。 2 0 2 3 D e v O p s国 际 峰 会·北 京 站 暨B i z D e v O p s企 业 峰 会 FinOps指导企业IT资源的变革管理 IT资源财务运营(FinOps)是Financial与Operations的结合,这是将财务、业务与IT整合在一起的变革,从企业内部管理需求出发,打通IT、财务、业务之间的视角差异,推动IT资源高效管理,实现降本增效的目标。 以标准为抓手,聚焦企业FinOps能力建设 FinOps产业推进方阵持续发挥平台优势,促进产业发展中国信息通信研究院 01.SRE研发运营系统可靠性与连续性工程编制背景 02.SRE研发运营系统可靠性与连续性工程实践 03.SRE研发运营系统可靠性与连续性工程标准内容介绍 04.SRE研发运营系统可靠性与连续性工程评估介绍 全球宕机事件频发,系统稳定性成为行业热点 2 0 2 3 D e v O p s国 际 峰 会·北 京 站 暨B i z D e v O p s企 业 峰 会 保障关键信息系统平稳运行,受到高度重视 中华人民共和国国务院令(第745号):《关键信息基础设施安全保护条例》已经2021年4月27日国务院第133次常务会议通过,自2021年9月1日起施行。 《关键信息基础设施安全保护条例》 “运营者依照本条例和有关法律、行政法规的规定以及国家标准的强制性要求,在网络安全等级保护的基础上,采取技术保护措施和其他必要措施,应对网络安全事件,防范网络攻击和违法犯罪活动,保障关键信息基础设施安全稳定运行,维护数据的完整性、保密性和可用性。”中国信息通信研究院 信息系统稳定性面临的新环境和新挑战 通信大数据行程卡运营,作为系统稳定性相关工作的重要基础 行程卡系统于2020年2月底上线至2022年12月13日正式下线,累计查询量超过800亿次。2022年初阶段因多地疫情形势严峻,行程卡单日查询量维持在3亿次以上,其使用量随着各地疫情变化波动,不断为当地乃至全国疫情防控贡献重要力量。 分布式系统稳定性实验室(Stability&Resilience,STAR) 为助力我国各领域信息系统稳定性提升,中国信通院于2021年启动稳定性相关工作,依托1个实验室,面向3类角色,形成6条工作主线 分布式系统稳定性实验室:领域专业平台 实验室定位: 打造行业平台,汇聚系统稳定性相关各方智慧,共同定义、梳理、研究、推广系统稳定性相关工作及成果 成立时间:2021年4月 牵头单位:中国信息通信研究院 技术专家:48位中国信息通信研究院 对外窗口:“CAICT数字化治理”公众号 活动内容: •技术沙龙举办:不定期举办•技术标准编制:覆盖稳定性技术、建设、应用•研究报告撰写:完成多本,见后文中国信息通信研究院 2 0 2 3 D e v O p s国 际 峰 会·北 京 站 暨B i z D e v O p s企 业 峰 会 中国信通院分布式系统稳定性实验室往期标准工作简介 集产学研多方力量,聚焦信息系统稳定性(STABILITY)&韧性(RESILIENCE)研究。完成技术标准4个,研究报告2个,19家机构参与过基于标准的评测工作。 标准《分布式系统稳定性保障能力要求》 《系统稳定性保障技术平台能力要求》《分布式数据产品稳定性测试规范》《数据系统灾备能力成熟度模型》 研究报告 《信息系统稳定性保障能力建设指南》《混沌工程实践指南》中国信息通信研究院 评测情况: 01.SRE研发运营系统可靠性与连续性工程编制背景 02.SRE研发运营系统可靠性与连续性工程实践 03.SRE研发运营系统可靠性与连续性工程标准内容介绍 04.SRE研发运营系统可靠性与连续性工程评估介绍 研发运营系统可靠性与连续性(SRE) 系统技术更迭快、架构复杂,所以理论上说,“没有绝对稳定的系统,只有相对完善的保障体系”。本部分工作主要针对如何通过各类保障手段,最大限度确保系统的稳定性.集产学研多方力量,聚焦信息系统稳定性(STABILITY)&韧性(RESILIENCE)研究。完成技术标准4个,研究报告2个,19家机构参与过基于标准的评测工作。 SRE:研发过程可靠性与连续性保障能力 围绕软件生命周期研发各阶段的稳定性保障工作进行展开,主要关注设计开发阶段稳定性准入评审,稳定性相关架构设计评估,测试与代码质量,以及部署及发布过程的稳定性保障措施。 p稳定性准入:对系统是否达到SRE认可的生产就绪程度的评估,评估内容从SLA、指标体系、容量规划、性能度量、应急协同等方面来规范生产系统的稳定性,以实现从更早的设计阶段和生产前的准备阶段提前建设更加完备的保障体系。p架构设计评审:针对系统高可用、容灾能力、弹性能力和混沌功能等稳定性相关架构设计的评估,旨在帮助产品在功能设计的同时具备更加完备的稳定性架构体系,保障持续运行。 设计与开发: p测试管理:在研发过程中持续进行各种测试,如单元测试、集成测试、功能测试、性能测试等,以确保系统的稳定性和可靠性。p系统质量:在软件研发过程中,通过对代码的质量管理,从而确保系统质量的一种手段,当代码变更后,对代码质量进行检查、分析和反馈改进建议。完成了部分功能的代码开发之后,在代码合并到仓库主分支前进行代码审查,以确保代码的质量和稳定性。中国信息通信研究院 质量保障: p发布策略:为了实现发布目标,制定详细的发布计划,主要包括发布要求、发布频率、发布手段、发布流程等。如采用灰度发布的方式逐步将新功能或版本发布到线上环境,以减少系统升级带来的风险。p部署过程:使用自动化工具和流程来部署软件系统,以减少人为错误和手动干预的可能性。自动化部署可以确保部署过程的一致性和可重复性,并可以更快地恢复系统。包括自动化部署、环境一致性、版本控制等,提高系统的可用性和可维护性。在部署过程中,对风险进行监控和控制,以确保部署质量。包括部署成功率评价、部署回滚策略等。p变更管理:系统中的所有线上变更都具备流程化,完善的变更管理策略可提升变更质量,降低变更风险。包括变更信息追溯、变更风险监控等。中国信息通信研究院 部署发布: 2 0 2 3 D e v O p s国 际 峰 会·北 京 站 暨B i z D e v O p s企 业 峰 会 SRE:技术运营过程可靠性与连续性保障能力 围绕故障生命周期以及稳态持续运营的稳定性保障工作进行展开,分为故障预防、故障观测、故障处置、优化改进四个部分。 2 0 2 3 D e v O p s国 际 峰 会·北 京 站 暨B i z D e v O p s企 业 峰 会 SRE:研发运营系统可靠性与连续性工程总体目标 一方面,通过优化系统架构、监控和自动化工具的使用以及强调团队文化等手段,提高系统的稳定性和可靠性,从而实现SLO运营目标;另一方面,通过自动化和标准化运维流程来减少手动操作和人为错误的风险,提高运维效率和降低成本。 01.SRE研发运营系统可靠性与连续性工程编制背景 02.SRE研发运营系统可靠性与连续性工程实践 03.SRE研发运营系统可靠性与连续性工程标准内容介绍 04.SR