AI智能总结
前言PREFACE在 “双碳” 目标驱动与能源革命浪潮下,能源行业正加速向绿色低碳、智能高效转型。云计算、物联网、大数据等技术深度融合能源生产、传输、消费全链条,推动能源系统从传统粗放式向精细化、智能化升级。然而,能源系统的复杂性与日俱增,海量异构数据交互、多系统协同运行等问题频发,传统运维模式难以满足实时监控、风险预警与动态优化需求,成为制约能源行业数字化转型的关键瓶颈。博睿数据依托一体化智能可观测平台,凭借卓越的全栈数据采集能力与智能分析算法,深度适配能源行业复杂业务场景,实现从生产端到用户侧的全链路可观测,精准定位系统故障、预测设备隐患并优化资源调度,不仅大幅提升系统可靠性、降低运维成本,更以数据驱动能源生产与消费协同优化,为能源消纳、系统安全运行、能源效率提升等提供坚实保障,助力能源企业构建绿色低碳、安全高效的核心竞争力。本案例集系统收录了能源行业多家标杆企业的实践成果,深度剖析博睿数据在资源监控体系建设、系统故障诊断、数字化资产管理等典型场景的应用经验,提炼可复用的解决方案与创新模式,旨在为能源行业数字化、智能化转型提供具有实操价值的参考范本,推动行业迈向高质量发展新征程。 目录CONTENTS01020304050607080910国家能源投资集团有限责任公司中国石油化工集团有限公司中国海洋石油集团有限公司国家电网有限公司大数据中心雅砻江流域水电开发有限公司新奥能源控股有限公司国网冀北电力有限公司深圳豪鹏科技股份有限公司国网商旅云技术有限公司中国大唐集团有限公司 01040711141721242831 博睿数据助力国家能源集团完成统一平台各业务关键指标体系0-1的搭建,在业务系统出现问题之前发现问题,做到问题事先感知,同时将多维度监控数据在统一监控平台集中存储分析展现。国家能源集团业务数据的可视化之路1 业务状态难以感知跨应用、跨语言、跨架构、跨系统的业务太多,业务系统健康状态无法准确感知,业务出现问题之前没有相应指标进行预警;监控无法体系化,对关键指标缺少梳理整合能力缺少数据统一监控平台,无法将基础监控数据和应用性能数据进行统一平台展示,缺乏关键指标提取能力,无法对各业务的关键指标进行整合。背景分析构建应用评分体系通过对接内部应用系统,在应用内部部署BonreeAgent,获取应用性能数据,根据用户实际应用访问情况绘制业务访问拓扑,业务系统颜色判断业务健康度,构建业务健康评分体系。通过业务健康评分体系完成业务异常前的预警。应用场景实现多维度数据接入通过对接Zabbix基础监控平台,将基础监控数据在dataview数据中台进行监控,实现基于一个Portal进行多维度、全视角的实时分析,避免用户多平台登录,消除监控数据孤岛现象,监控效率提升30%。将关键指标进行统一梳理基于国家能源集团的实际业务需求,博睿数据从海量监控数据中提取平均响应时间、业务健康次数趋势、业务请求量、错误次数等关键业务指标,通过统一大数据平台进行梳理及指标体系搭建,最终完成指标体系的可视化展现。 112243 1182 为什么选择博睿数据契合集团内部运维需求博睿数据简捷、高效、智能的新型IT运维体系符合业务需求应用效果梳理指标体系从海量监控数据中自定义提取、梳理关键监控指标,完成统一平台各业务关键指标体系0-1的搭建 头部客户的优先选择博睿数据已获得1000+客户的信赖与选择核心业务问题处理效率从小时级别优多维度数据接入对接基础监控平台,将多维度监控数据在统一监控平台集中存储分析展现,避免多平台登录,运维效率提升30% 建立业务健康感知体系化到平均1/min,效率提升60倍 3 博睿数据为中国石化注入更新的运维方法。通过SmartAgent探针,无需研发配合,即可自动识别各语言应用程序,做到自动化全方法的追踪与分析,包括系统级代码和用户级代码,可呈现每一个类、每一个方法的执行效率,全面展现功能群组间的拓扑调用关系及业务调用节点的健康性能。在中国石化的业务节点故障场景中,帮助IT人员迅速定位问题节点,缩短故障恢复时间,提升IT服务工作效率。数字化新运维⸺中国石化的运维转型之路 4 重大活动期间,亟需实时监测机制故障定位效率须再提升业务变更/版本迭代导致人力消耗加大背景分析核心业务全覆盖,有效提高运维效率通过博睿数据Smartagent,对中国石化核心业务系统共计500+节点安装了数千探针,实现了全方位覆盖,运维效率得到有效提高。应用场景构建可视化、可量化的评价体系,业务可观测性大大提高博睿数据通过评分量化、拓扑图可视化以及红绿灯三色的简易判断标准,实现全程通过鼠标点击即可排查问题。同时,通过拓扑定位缓慢节点、通过接口性能定位缓慢接口,找到问题根因仅需15分钟,业务可观测性大大提高。助力运维方式转变,主动发现问题基于监控体系的构建和快速的问题定位能力,博睿数据助力中国石化主动发现问题并迅速解决问题,在变被动为主动的同时,优化解决问题的运维模式。 112323 5 为什么选择博睿数据产品能力卓越博睿数据的产品所呈现出的灵活性、兼容性、可观测性等多种优势契合中国石化数字化转型的需要应用效果赋能运维,提升效率不超10个运维人员即可管理1万个业务节点 服务水平优秀为客户配备资深专家顾问,7*24小时及时响应客户问题将问题根因定位时间由2小时缩短至由被动接收投诉的运维模式,转变为主动发现并优化解决问题的运维模式 问题排查周期极大缩短15分钟 实现运维方式转型 6 通过Bonree ONE,博睿数据助力中国海油建立多云平台的资源管理指标体系,对主机、虚拟主机、网络、存储、容器化服务进行动态资源监控,实现云平台基础设施资源的可量化分配与回收。同时助力中国海油建立以业务为中心的应用系统SLO监测机制,为云上关键应用系统的资源消耗、应用可用性、服务质量提供可量化的监控数据,有效提升业务稳定性与运维效率。推动业务能力提升博睿数据为多云资源管理添利器 7 云平台资源庞杂,难以从全局视角进行管理中国海油云平台经过多年建设,形成了覆盖国内五中心、海外三中心的多云架构,整体资源数量庞大且复杂,各云平台资源使用缺乏集中化展示与分析,全局管理难度高。业务资源消耗不清晰,缺乏集中化统计中国海油云平台业务整体资源消耗缺乏集中化统计,无法对资源进行合理调整分配,难以进行业务ROI分析。闲置资源用量缺乏量化依据,间接造成资源浪费中国海油各业务系统暂无统计历史业务资源消耗的数据,进行容量申请时缺少资源基准和闲置资源用量的量化依据。各系统监控指标体系不同,不方便全面监控管理中国海油各业务系统监控指标体系不同,不方便系统的全面的监控,难以建立标准的故障分类及资源评估体系。故障定位时间长,跨部门故障追踪困难中国海油系统不具有故障的回溯追踪能力,偶发故障数据无法留存,导致复杂故障的诊断定位时间长,影响MTTD,在跨部门的诊断中,排查工具所生成的指标、数据难以关联,故障追踪较难。背景分析建立统一资源监控体系标准,实现资源标准化分层博睿数据通过为中国海油建立统一的云平台资源监控体系标准,实现云平台的各类资源的标准化分层,并通过对各平台指标数据的采集,形成统一的监控视图及分析界面。应用场景 112345 8 IaaS层主要包含:主机、虚拟主机、网络设备、网络接口、存储、文件系统、系统进程等7类主要实体;PaaS层主要包含:容器Cluster、Nodes、Workloads、Jobs、Services、Pods、Routes、Images以及云服务等9类主要实体;SaaS层主要包含:云服务、实例、应用、MQ、DB、API等6类主要实。对系统资源用量进行数据采集,定期评估资源使用效率在博睿数据的助力下,中国海油实现对各业务系统的资源用量数据采集,通过资源指标体系中的实体关系数据关联各业务系统的资源消耗,实现对各业务系统的资源动态监测及分析报告,定期评估各业务系统的资源使用效率。同时,为主要资源类型建立业务属性标签(Tag),以实现各业务系统云资源用量的动态监测与分摊。IaaS层的主机、虚拟机、存储、网络链路;PaaS层的容器Pods、工作负载、服务,云服务的请求量;SaaS层的进程资源用量,远程API调用量,数据库调用量。2建立容量规划报告,提高资源利用率博睿数据通过历史指标体系数据量化中国海油云平台的各类容量,以及业务系统的单位业务资源用量,建立云平台的容量规划报告、业务系统的容量扩展评估规范,提高云平台的资源使用效率。按照各云平台的:Core数量、内存容量、存储容量、网络带宽、云服务请求量,等类型的周期容量进行下一周期的线性与非线性容量预测及建议;规范业务系统容量申请评估标准,各业务系统进行资源申请时,即时输出月、季度、半年度资源使用趋势,并基于单位业务资源消耗进行容量评估。3建立SLO监测体系,实现各业务系统全面的可观测性博睿数据以VALET模型作为各业务系统SLO监控的统一模型,并通过应用探针采集各业务系统的黄金指标作为SLI(服务水平指标),从而为中国海油建立SLO监测体系。以部门考核目标为标准,按照VALET模型设定关键用户旅程(Critical User Journey)SLO;采用错误预算的阈值设置SLO报警,并推送至平台运维人员或业务用户。4增加应用组件指标采集,提升故障诊断能力将博睿数据ONE平台的应用探针作为ADDP的Agent采集端,在采集调用链(Tracing)的基础上,增加采集了应用组件指标(Metric),提升故障诊断能力。以业务部门为单位,提供自有应用系统的调用链追踪与分析功能权限,从而提升故障诊断能力;实现对应用组件调用链(Trace)、指标(Metric)、堆栈信息(Log)的实时采集与留存;针对异常请求,可实时检索异常请求在应用系统中所流转的各组件的指标数据,并通过堆栈信息对错误进行代码及分析。5打破部门数据孤岛,提升故障协同诊断效率通过博睿数据ITIM探针与APM探针数据的集中采集,实现应用和基础资源的关联分析,并通过指标体系实现应用、系统等各层级的SLI分层关联,统一故障诊断的界面入口与数据集成,从而提升故障协同诊断效率。统一故障协同分析界面,实现应用、服务、接口、方法、实例、进程、容器、主机、数据库的依赖关联;通过分布式追踪能力,实现基于应用、服务、数据库的实体影响依赖关联;通过标准化检测指标体系,以及实体类型与关系,形成统一的告警事件语言,并通过多种方式进行告警事件的收敛,降低告警冗余度。69 4为什么选择博睿数据市场规模领先中国APM市场份额排名No.1,稳定为客户提供服务超过14年缩短MTTD(平均故障检测时间)实现故障回溯追踪,缩短平均故障检测时间应用效果实现资源标准化分层将云平台的各类资源分为IaaS层、PaaS层、SaaS层,方便从全局视角管理 具备全球竞争力的产品一体化智能可观测性平台Bonree ONE,真正实现业务应用全链路可观测提升跨部门协调诊断能力实现应用和基础资源的关联分析,打破部门间的数据孤岛建立SLO监测体系以VALET模型作为各业务系统SLO监控的统一模型,实现全 面可观测 博睿数据针对国家电网有限公司大数据中心IT运维缺乏统一监控平台、故障定位难等问题,通过助力其搭建统一监控体系、定制告警策略等举措,有效提升运维效率,实现数据高效管理与共享,为其数字化转型提供有力支撑。博睿数据助力国网大数据中心提升IT运维质量与效率11 国家电网有限公司大数据中心作为公司数据管理与服务的核心平台,在数字化转型中至关重要。但随着业务拓展,IT 运维问题逐渐凸显。缺乏统一监控标准企业内部缺少统一的运维监控平台,各项目组性能指标评估无统一标准,无法横向对比运维水平,且缺乏用户量化体验指标,难以优化服务。故障定位与处理困难业务系统繁多,偶发性故障频发,因缺乏有效监控分析手段,故障定位艰难,排障时间长,影响业务运行,造成资源浪费。背景分析构建统一监控体系博睿数据为国网大数据中心打造统一监控平台,统一监控指标,构建涵盖网络、服务器、数据库等多维度的 IT 运维应用性能指标体系,实现