AI智能总结
赵班长OpsAny创始人 赵班长 公司职位OpsAny创始人 花名:“赵班长”,曾在武警某部负责指挥自动化的架构和运维工作,2008年退役后一直从事互联网运维工作。阿里云MVP、华为云MVP、高效运维社区核心成员、SRE精英联盟创始成员、新运维社区发起人、中国SaltStack用户组发起人。《运维知识体系》、《缓存知识体系》、《SaltStack入门与实战》作者。 运 维 监 控 体 系 建 设 目录 可 观 测 建 设 工 具 实 践 可 观 测 平 台 集 成 场 景 Q & A 运维监控建设实践 技术运营体系 成 本 效 率 安 全 质 量 D e v O p s与 自 动 化 稳 定 性 建 设 容 量 和 成 本 建 设 安 全 管 理 高 可 用 架 构 、 监 控( 可 观 测 性 ) 、 日志 、 智 能 告 警 、 故障 自 愈 。 研 发 运 营 一 体 化 、自 动 化 资 源 交 付 、自 动 化 运 维 编 排 、自 动 化 应 用 发 布 。 容 量 水 位 线 监 控 、动 态 扩 缩 容 、 成 本优 化 。 安 全 审 计 、 主 机 安全 、 应 用 安 全 、 网络 安 全 运维监控建设路径 第一步:识别监控对象 数据中心: 流量监控: 风火水电、温度、湿度(动环监控) 基于Web访问的PV、UV、访问人群地域 网络监控: APM: 全国网络链路情况、延迟、丢包。(DNS监控) 应用性能管理、端到端调用链、应用拓扑 物理设备: 日志监控: CPU温度、风扇转速、硬盘故障(带外监控) 错误日志、访问日志、运行日志、设备日志 操作系统: 安全监控: CPU、内存、IO(网络IO、磁盘IO) 系统审计、漏洞扫描、Webshell扫描 应用服务: 舆情监控: 应用组件(Nginx、Tomcat、MySQL、Oracle等) 微信、微博、等新闻媒体。 业务监控 每分钟订单量、日活、日新增用户数 第二步:理解监控对象 第三步:掌握监控方法和协议 提供开箱即用并兼容开源提供的上百种组件的监控指标采集,存储,展示和告警。 可观测建设工具实践 指标采集:Zabbix、Prometheus 企业级平台、指标需要预先定义。 灵活度高,指标不需要预先定义。 指标采集-Metricbeat 支持模块: •主机•数据库•中间件•应用服务 日志采集-filebeat 服务拨测-Heatbeat 支持协议: •ICMP•TCP•UDP•HTTP/HTTPS 企业级日志平台建设 全链路监控 从用户浏览器,经过网络,到服务端,经过服务复杂调用最终到返回的全链路监控。帮助用户进行快速的故障定位、根因分析和问题处理。 RUM(Real User Monitoring)获用户与Web浏览器的交互,并能够从性能角度了解Web应用程序的“真实用户体验”,旨在提高网站的可用性、提升用户体验。 APM监控-Pinpoint APM监控-Skywalking 可观测案例:Elastic Observability 可观测最佳实践 设置合理的告警通知,关联SLO,实现基于SLO的告警。 不同维度的大屏展示,满足数据可视化。 从不同的运维对象采集数据:主机、中间件、数据库、Web服务等。 数据沉淀并扩展使用,例如提供给容量管理平台等。 指 标 集 不 同 : 少告 警 阈 值 不 同 : 高指 标 类 型 不 同 : 单 一 值 为 主 可观测平台集成场景 事件驱动的自动化平台 应 用 场 景 ST2原子定义 Action Metadata file (my_echo_action.yaml) Action script file (my_echo_action.py) ST2工作流定义 使用YAML或者图形化定义工作流。 Workflow ST2规则定义 Rule 使用YAML或者图形化定义规则。 应用SLO建设 和业务负责人、产品、策划、开发等相关干系人一起确认该功能的预期,即SLO。 对于没有SLI需要客户端或服务端从新上报到监控系统,对于已有的SLI需要校验其准确性。 针对每个SLI需要创建一条监控策略,策略的告警阈值根据第一步定的SLO来确定。 梳理用户从功能入口到使用该功能的关键路径。 感谢大家观看




