登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
4-4 SRE 的核心理念与可观测性 - 刘峰
信息技术
2022-09-15
DataFunSummit2022:数据治理在线峰会
Roger谁都不是你的反派大魔王
SRE核心概念与可观测性
Google SRE:什么是SRE?
定义
:SRE(站点可靠性工程)是一个学科、最佳实践和一类创新岗位,专注于使用计算机和软件工程手段设计和研发大型、分布式计算机软件系统,其焦点是可靠性,包括架构设计和运维流程优化,目标是“足够可靠”。
起源
:由Google负责7*24小时运维的副总裁Benjamin Sloss Treynor命名,灵感来源于Apollo 7飞船研发事故,强调对细节的不懈关注、充足的灾难预案和准备工作、时刻警惕以及避免灾难发生的理念。
工作内容
:运维分布式集群系统上的具体业务服务,涉及软件系统生命周期管理。
Google SRE原则
核心原则
:服务水平目标、运营、软件问题减少、琐事自动化、共享所有权、降低失败成本。
关键成功因素(KSF)
:服务水平目标、运营、软件问题减少、琐事自动化、共享所有权、降低失败成本。
Google SRE实践总结
SRE方法论
:
确保长期关注研发工作
在保障SLO的前提下最大化迭代速度
监控系统
应急事件处理
变更管理
需求预测和容量规划
资源部署
效率与性能
可观测性
定义
:可观测性是系统的属性,通过了解系统外部输出推断系统内部状态的尺度。如果IT系统没有充分将其状态外部化,即使最好的监控也不足。
重要性
:由于服务快速增长、动态体系结构、容器化工作负载、服务之间的依赖关系以及客户体验的重要性,可观测性变得至关重要。
与监控的区别
:分布式、复杂的服务以不可预测的用户和可变吞吐量大规模运行,意味着有数百万种不同的方法出错,但无法预测。可观测性是将服务的所有输出外部化,使我们能够推断该服务的内部状态。
举例说明
:SLO(服务水平目标)从用户角度确定什么是重要的,例如90%的用户应在一分钟内完成完整的付款交易;SLI(服务水平指标)详细介绍当前表现,例如98%的用户在一个月内在不到一分钟内完成付款交易;可观测性使使用服务的正常状态可见,例如38秒是用户完成付款的“正常”时间,这时所有监控都健康。
SRE与可观测性
“奇点”概念
:SRE与可观测性推动了开发和运维之间的“奇点”,即应用与系统环境、软件工程与系统工程之间的融合,最终目标是可靠地交付业务价值,为客户带来快乐。
你可能感兴趣
可观测性安全云原生时代数据驱动安全的进化 - 刘志诚
商贸零售
EISS
2022-11-11
刘晓辉-运维平台可观测与数字孪生的落地实践_加水印
商贸零售
2024 第23届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 北京站
2024-07-17
刘征-用可观测性之眼洞悉复杂生产系统
商贸零售
2023年中国DevOps社区广州峰会
2023-12-12
人工智能创新中的可观测性:应用趋势、需求与最佳实践
商贸零售
BARC
2025-03-20
TiDB_可观测性的设计与实现_陈霜
商贸零售
ArchSummit深圳2022|全球架构师峰会
2022-07-19