基础架构团队负责人 王植萌 公司职位基础架构团队负责人 2013年加入去哪儿网,现任去哪儿网基础架构团队负责人。目前工作专注于系统稳定性建设、AI在研发场景提效工作 技 术 稳 定 性 建 设 的 现 状 及 遇 到 的 问 题 目录 稳 定 性 相 关 案 例 与 启 发 总 结 与 思 考 技术稳定性建设的现状及遇到的问题 技 术 稳 定 性 建 设 的 现 状 及 遇 到 的 问 题 背景:服务稳定性是公司业务持续发展的保证,目前服务稳定性治理存在以下问题: 针对上述问题,对故障度量指标进行优化升级,建立完善的度量体系;通过故障演练,提高基建服务的韧性和稳定性,通过公司级强弱依赖治理,拉齐公司内部各团队间跨团队依赖应用的维护水平,通过检验现有的应急响应计划和预案的有效性,可以提升研发人员处理问题的能力,保证系统的稳定性。 技 术 稳 定 性 建 设 的 现 状 及 遇 到 的 问 题 前页内容做个总结: 1、度量-从故障率到1-5-10-建立完善的度量体系 2、基建-自愈、预案、演练 3、业务-强弱依赖治理 4、人员-故障少专业能力下降 5、工具平台-过去被当作工具,现在被当作管家 稳定性相关案例与启发 从 故 障 率 到1-5-1 0-从 定 义 度 量 变 更 做 起 单一责任方数据呈现->责任方、受影响方各自呈现单一故障率维度指标->故障率指标与MTBF、MTTR指标并重结果指标与过程指标共同呈现->结果指标与过程指标分别呈现 从 故 障 率 到1-5-1 0-从 定 义 度 量 变 更 做 起 基建稳定性度量: 从 故 障 率 到1-5-1 0-从 秒 级 监 控 讲 起 监控分钟级->秒级 报警手工添加报警->雷达自动报警 从 故 障 率 到1-5-1 0-秒 级 监 控 对 于 发 现 故 障 的 及 时 性 效 果 明 显 监控报警分钟级->秒级 秒级监控可以使得重要故障的发现时间从3~4分钟,缩短到1分钟以里对于1-5-10中1的达成非常有帮助。在2023年的十一保障中起到了令业务线肯定的效果。 从 故 障 率 到1-5-1 0-人 少 监 控 多 , 报 警 需 要 自 动 化 人工报警->雷达自动报警 从 故 障 率 到1-5-1 0-监 控 与 事 件 相 结 合 , 辅 助 定 位 事件与监控相结合 监控波动与事件之间的关系可视化 使得故障定位更加快捷 从 故 障 率 到1-5-1 0-定 位 能 不 能 走 向 自 动 化 ? 根因分析分三层 1.链路 2.appcode 3.根因排序 从 故 障 率 到1-5-1 0-定 位 能 不 能 走 向 自 动 化 ? 单appcode分析: 从 故 障 率 到1-5-1 0-宽 口 径 与 窄 口 径-大 模 型 基 座 能 做 些 事 情 你是一名aiops专家,擅长问题根因定位,下面的数据中,details是异常详细信息,其中包含异常日志信息、报警信息、事件信息等,overview是概览信息,请运用sre、aiops等专业领域的知识,分析出哪个最有可能是导致此次告警或故障的根因。请按以下步骤进行推理:1.根据detail异常信息,挖掘异常间的关联关系,把overview中的结果进行优化精简。 2.根据精简或优化后的overview分析出哪个最有可能是导致此次问题的根因并尝试用人类可读的语言总结出来。 注意根因只有一个,请将结论输出,并简述推理过程,并将所有内容控制在100字以内。输出格式为:根因: xxx 推理过程: xxx,根因尽可能展示详细信息 对于故障根因是变更类、单机类的、与异常内容关联的,AI归因比较精准 从 故 障 率 到1-5-1 0-定 位 准 确 操 作 也 要 熟 练 , 最 好 有 预 案 当根因定位正确后,预案执行的准确性就变得很重要 预案再完美,也需要演练从38分钟到6分14秒 从 故 障 率 到1-5-1 0-演 练 是 发 现 风 险 的 关 键 针对1-5-10中的10这部分的重要演练 别的团队的P1和你团队的P1维护水平可能是不一致的 能够自愈的基建就不要用预案 基建必须做好保证自身系统生存的防御 基 础 设 施 机 房 级 自 愈 能 力 建 设 常 态 化 容 量 评 估 能 力 建 设 流量日历评估 常态化压测 常 态 化 容 量 评 估 能 力 建 设 需要特别关注具备HPA混合云部署能力后,应用增减的加速度不仅要关注容量,还要关注容量的变化速度 从 工 具 到 管 家 从发布全流程由开发负全责到开发人员重点关注是否流程跳步 强 弱 依 赖 演 练-内 部 感 知 与 外 部 感 知 内部视角与外部视角的对齐责任方视角与受影响方视角并重基础团队可以更看重团队视角指标业务团队可以更看重业务视角指标 XX业务线,从自身责任的角度看:192.95天/故障从外部体感角度看:29天/故障 强 弱 依 赖 演 练 强弱依赖要对齐: 1.可以被依赖方维护升级2.可以依赖方降级3.可以进行系统交接4.可以给资源给人 总 结 与 思 考 01 从故障率为中心到1-5-10为中心的稳定性建设,代表了对稳定性更高的可度量要求 02 稳定的压测、演练、预案、监控、Trace、染色、容量评估等基建是构建1-5-10指标可达成的基础 03 基建需要通过演练做好自愈能力、防御能力确认以及及时的容量评估和压测 04 业务需要通过演练做好强弱依赖关系确认与错误强弱依赖关系的及时发现 05 在缺少常态化演练的情况下,故障的减少未见得是好事,人需要通过攻防演练变得熟练 感谢大家观看