您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [XOps 风向标!GOPS 全球运维大会暨研运数智化技术峰会 2024 · 上海站]:赵舜东-基于开源工具的可观测性平台二次开发实践-赵班长 - 发现报告

赵舜东-基于开源工具的可观测性平台二次开发实践-赵班长

报告封面

姓名:赵舜东 个人简介 赵 舜 东 OpsAny创始人 花名:“赵班长”,曾在武警某部负责指挥自动化的架构和运维工作,2008年退役后一直从事互联网运维工作。阿里云MVP、华为云MVP、高效运维社区核心成员、SRE精英联盟创始成员、新运维社区发起人、中国SaltStack用户组发起人。《运维知识体系》、《缓存知识体系》、《SaltStack入门与实战》作者。 运 维 监 控 体 系 建 设 可 观 测 建 设 工 具 实 践 目录 可 观 测 平 台 集 成 场 景 运维监控体系建设 技术运营体系 效 率 成 本 安 全 质 量 D e v O p s与 自 动 化 稳 定 性 建 设 安 全 管 理 容 量 和 成 本 建 设 高 可 用 架 构 、 监 控( 可 观 测 性 ) 、 日志 、 智 能 告 警 、 故障 自 愈 。 研 发 运 营 一 体 化 、自 动 化 资 源 交 付 、自 动 化 运 维 编 排 、自 动 化 应 用 发 布 。 容 量 水 位 线 监 控 、动 态 扩 缩 容 、 成 本优 化 。 安 全 审 计 、 主 机 安全 、 应 用 安 全 、 网络 安 全 第一步:识别监控对象 数据中心: 流量监控: 风火水电、温度、湿度(动环监控) 基于Web访问的PV、UV、访问人群地域 网络监控: APM: 全国网络链路情况、延迟、丢包。(DNS监控) 应用性能管理、端到端调用链、应用拓扑 物理设备: 日志监控: CPU温度、风扇转速、硬盘故障(带外监控) 错误日志、访问日志、运行日志、设备日志 操作系统: 安全监控: CPU、内存、IO(网络IO、磁盘IO) 系统审计、漏洞扫描、Webshell扫描 应用服务: 舆情监控: 应用组件(Nginx、Tomcat、MySQL、Oracle等) 微信、微博、等新闻媒体。 业务监控 每分钟订单量、日活、日新增用户数 第二步:理解监控对象 第三步:掌握监控方法和协议 提供开箱即用并兼容开源提供的上百种组件的监控指标采集,存储,展示和告警。 第四步:选择监控工具 可观测建设工具实践 指标采集:Zabbix、Prometheus 企业级平台、指标需要预先定义。基础设施监控优先推荐! 灵活度高,指标不需要预先定义。 Elastic采集技术栈 Beats套件特点: •Go语言编写、轻量级,开箱即用。•支持Kafka传输,可以构建海量采集架构。•基于开源Libbeat,方便进行二次开发。 轻量级指标采集器-Metricbeat 内置丰富模块:主机、数据库、中间件、应用服务、Docker、Kubernetes 轻量级日志采集器-filebeat 轻量级日志采集,无负担内嵌到Kubernetes Pod中,或部署在主机中。 服务可用性拨测-Heatbeat 支持协议: •ICMP•TCP•UDP•HTTP/HTTPS Elastic技术栈的企业级可观测采集架构 RUM(Real User Monitoring)获用户与Web浏览器的交互,并能够从性能角度了解Web应用程序的“真实用户体验”,旨在提高网站的可用性、提升用户体验。 APM监控-Skywalking 可观测案例:Elastic Observability 使用Elastic开源技术栈进行实施或者二次开发,可以实现全链路可观测体系建设。 可观测最佳实践 设置合理的告警通知,关联SLO,实现基于SLO的告警。 数据沉淀并扩展使用,例如提供给容量管理平台等。 不同维度的大屏展示,满足数据可视化。 从不同的运维对象采集数据:主机、中间件、数据库、Web服务等。 指 标 集 不 同 : 少告 警 阈 值 不 同 : 高指 标 类 型 不 同 : 单 一 值 为 主 可观测平台集成场景 基于可观测平台的场景 智 能 告 警 A I O p s可 观 测 数 据 结 合A I O p s实 现 例 如无 阈 值 告 警 、 异 常检 测 等 场 景 。 I T S M C M D B F i n O p s 告 警 通 知 转 工 单 ,进 行 流 程 流 转 。 基 于 可 观 测 数 据 实现 可 视 化 的 应 用 架构 拓 扑 图 。 基 于 可 观 测 数 据 的容 量 和 成 本 管 理 基 于 可 观 测 平 台 实现 智 能 告 警 ( 告 警抑 制 、 告 警 分 组 等 ) 事件驱动的自动化平台 ST2原子定义 Action Action script file(my_echo_action.py) Metadata file(my_echo_action.yaml) 使用YAML或者图形化定义工作流。 ST2工作流定义 使用YAML或者图形化定义规则。 Rule ST2规则定义 应用SLO建设 针对每个SLI需要创建一条监控策略,策略的告警阈值根据第一步定的SLO来确定。 优先梳理用户体验层SLI,即用户可以感受到的功能、按钮。 对于没有SLI需要客户端或服务端从新上报到监控系统,对于已有的SLI需要校验其准确性。 QA 未来的路就在脚下,不要问为什么! 想,都是问题。 干,才有答案! T h a n k s 荣誉出品