登录
注册
回到首页
AI
搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
稀土
低空经济
DeepSeek
AIGC
智能驾驶
大模型
当前位置:首页
/
行业研究
/
报告详情
4-4 SRE 的核心理念与可观测性 - 刘峰
信息技术
2022-09-15
DataFunSummit2022:数据治理在线峰会
R***
AI智能总结
查看更多
SRE核心概念与可观测性
Google SRE:什么是SRE?
定义
:SRE(站点可靠性工程)是一个学科、最佳实践和一类创新岗位,专注于使用计算机和软件工程手段设计和研发大型、分布式计算机软件系统,其焦点是可靠性,包括架构设计和运维流程优化,目标是“足够可靠”。
起源
:由Google负责7*24小时运维的副总裁Benjamin Sloss Treynor命名,灵感来源于Apollo 7飞船研发事故,强调对细节的不懈关注、充足的灾难预案和准备工作、时刻警惕以及避免灾难发生的理念。
工作内容
:运维分布式集群系统上的具体业务服务,涉及软件系统生命周期管理。
Google SRE原则
核心原则
:服务水平目标、运营、软件问题减少、琐事自动化、共享所有权、降低失败成本。
关键成功因素(KSF)
:服务水平目标、运营、软件问题减少、琐事自动化、共享所有权、降低失败成本。
Google SRE实践总结
SRE方法论
:
确保长期关注研发工作
在保障SLO的前提下最大化迭代速度
监控系统
应急事件处理
变更管理
需求预测和容量规划
资源部署
效率与性能
可观测性
定义
:可观测性是系统的属性,通过了解系统外部输出推断系统内部状态的尺度。如果IT系统没有充分将其状态外部化,即使最好的监控也不足。
重要性
:由于服务快速增长、动态体系结构、容器化工作负载、服务之间的依赖关系以及客户体验的重要性,可观测性变得至关重要。
与监控的区别
:分布式、复杂的服务以不可预测的用户和可变吞吐量大规模运行,意味着有数百万种不同的方法出错,但无法预测。可观测性是将服务的所有输出外部化,使我们能够推断该服务的内部状态。
举例说明
:SLO(服务水平目标)从用户角度确定什么是重要的,例如90%的用户应在一分钟内完成完整的付款交易;SLI(服务水平指标)详细介绍当前表现,例如98%的用户在一个月内在不到一分钟内完成付款交易;可观测性使使用服务的正常状态可见,例如38秒是用户完成付款的“正常”时间,这时所有监控都健康。
SRE与可观测性
“奇点”概念
:SRE与可观测性推动了开发和运维之间的“奇点”,即应用与系统环境、软件工程与系统工程之间的融合,最终目标是可靠地交付业务价值,为客户带来快乐。
你可能感兴趣
可观测性安全云原生时代数据驱动安全的进化 - 刘志诚
信息技术
EISS
2022-11-11
刘晓辉-运维平台可观测与数字孪生的落地实践_加水印
信息技术
2024 第23届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 北京站
2024-07-17
刘征-用可观测性之眼洞悉复杂生产系统
电子设备
2023年中国DevOps社区广州峰会
2023-12-12
TiDB_可观测性的设计与实现_陈霜
信息技术
ArchSummit深圳2022|全球架构师峰会
2022-07-19
能源业可观测性落地全景报告:建设可观测性能力的核心路径、关键技术与未来挑战
化石能源
博睿数据
2025-08-27