AI智能总结
博睿数据中国先进企业IT运维精选案例集 CONTENTS 目录 01信息产业 02运营商 曙光信息产业股份有限公司01联通沃音乐文化有限公司04 04银行 03能源 中国海洋石油集团有限公司08中国石化集团公司12 平安银行15 06保险 05证券 国泰君安证券28招商证券31中信建投证券34 泰康保险37 搭建统一运维平台博睿数据赋能中科曙光排障升级 通过深度了解中科曙光痛点,博睿数据以应用评分体系、代码级故障定位、分析关联能力建设、智能探针技术引用为主要抓手,为中科曙光搭建统一运维平台,大幅降低人力成本的前提下提升排障效率,帮助实现了系统性能的全面升级。 使用产品 Bonree Server 背景分析 亟需建立统一运维平台1 管理分散、运维系统多,日常巡检、服务请求、问题查询都通过登录不同的运维平台进行操作,背后对接的都是生产系统。 希望降低运维工作的人力投入 架构复杂,几十个办事处,工作及时性差:各运维人员管辖的应用系统、主机、存储数量多,巡检工作都是手工进行,无法为系统稳定运行提供技术支撑。 目标建立更加高效的排障体系 总是被动的接收投诉和反馈,没有分析工具能够提供系统故障的根因,分公司系统出故障,往往需要两周到一个月的时间解决问题。 应用场景 直观展示当前业务应用系统可用性和业务性能情况 直观展示当前业务应用系统可用性和业务性能情况,为曙光用户提供统一的应用数据平台,实时让曙光职能人员、运维、研发感知当前应用系统监控性能情况。 根因分析助力中科曙光高效优化系统 通过可视化数据展现,曙光职能人员经过博睿APM平台获取根因日志,定位曙光内部业务链条的性能瓶颈节点。研发人员调优后错误率降低70%,响应时间降低92%,解决性能瓶颈后,OA整体业务性能提升10倍以上。 为什么选择博睿数据 公司实力国内领先 稳定简捷的产品 开箱即用的使用体验,易配置、易维护 国内首家APM领域上市公司,实力雄厚 应用效果 统一数据平台,有效联动内部各IT职能部门 可视化评测应用系统性能,优化系统架构 降低运维难度,提高运维效率 业务系统发生缓慢时,总部人员不必再长时间出差排查问题,提高工作人员运维效率 通过Server平台统一展示各个分公司及总部的应用系统,有效联动各职能人员,提高沟通效率 主动发现核心业务系统性能瓶颈,优化后系统整体响应时间提升10倍以上 全栈式监控 助力联通沃音乐核心业务高效稳定运行 面对联通沃音乐日益复杂的系统与不断增长的用户数量,博睿数据通过统一的智慧运维监控平台,将端(APP/H5/小程序等)、管(网络延时/流量等)、云(基础设施云/物理机/数据库)、台(业务系统APM性监控)进行全流程监控,实时保障用户的产品体验。 使用产品 Bonree Dataview 背景分析 业务复杂性与日俱增1 随着联通沃音乐业务系统快速发展,业务应用程序复杂性的日益激增,包括系统不断迭代、应用运行环境云端化,以及应用对其他IT基础设施的依赖等。 保障用户体验的重要性不断增加 联通沃音乐业务模式随着市场需求不断的拓展延伸,用户群体数目持续的上升,对服务体验要求也更加的苛刻。 问题出现率增加,造成用户流失3 发生性能下降,服务异常,请求失败等问题的概率大大提升,从而影响正常的服务,最终导致用户流失。 应用场景 搭建统一智慧运维监控平台,实现全栈式监控 博睿数据为联通沃音乐搭建了统一智慧运维监控平台,实现了全栈式监控,将端(APP/H5/小程序等)、管(网络延时/流量等)、云(基础设施云/物理机/数据库)、台(业务系统APM性监控)进行全流程监控,打破数据孤岛,实时保障用户的产品体验。 搭建可视化大屏,实现快速问题定位 博睿数据通过定制化的大屏接入监控平台的数据,实现对业务、应用程序、数据库、远程调用等访问环节的数据分析及展现。大屏在满足联通沃音乐实际的监控需求的基础上,兼顾了美观、先进、灵活等特点,值班人员可根据大屏进行24小时监控,方便快速发现并定位问题。 快速定位根因,进行智能处置 博睿数据将请求调用过程完整的串联起来,实现了对请求调用路径的监控,便于故障快速定位。通过对调用链上关键环境进行下钻分析,缩小故障范围。同时,智能基线可通过动态/静态双重算法机制应对访问突增进行趋势研判。 为什么选择博睿数据 技术领先性强 产品灵活性强 博睿数据产品易配置,可开箱即用,简捷又高效 博睿数据专注技术创新,软件研发水平国内领先 应用效果 监控范围更广,做到无死角,对各核心应用统一进行性能管理 监测的深度更深,定位到代码级别的问题 从硬件或网络的监测粒度,提升到程序代码本身的深度,效率提升5倍 从基础架构的监控做到应用级别和数据包级别的监控,针对性的把握每个系统的用户体验,做到业务系统100%的用户体验管理 系统的持续交付能力更强 运维的效率更高,提升MTTR 平均故障恢复时间降低80%,降低人员运维和时间成本80% 快速协同优化,性能和用户体验标准做到100%统一评判 实现业务系统性能可视化,主动预警 全年主动减少至少12次性能事件 推动业务能力提升博睿数据为多云资源管理添利器 通过Bonree ONE,博睿数据助力中国海油建立多云平台的资源管理指标体系,对主机、虚拟主机、网络、存储、容器化服务进行动态资源监控,实现云平台基础设施资源的可量化分配与回收。同时助力中国海油建立以业务为中心的应用系统SLO监测机制,为云上关键应用系统的资源消耗、应用可用性、服务质量提供可量化的监控数据,有效提升业务稳定性与运维效率。 使用产品 Bonree ONE 背景分析 云平台资源庞杂,难以从全局视角进行管理1 中国海油云平台经过多年建设,形成了覆盖国内五中心、海外三中心的多云架构,整体资源数量庞大且复杂,各云平台资源使用缺乏集中化展示与分析,全局管理难度高。 业务资源消耗不清晰,缺乏集中化统计 中国海油云平台业务整体资源消耗缺乏集中化统计,无法对资源进行合理调整分配,难以进行业务ROI分析。 闲置资源用量缺乏量化依据,间接造成资源浪费 中国海油各业务系统暂无统计历史业务资源消耗的数据,进行容量申请时缺少资源基准和闲置资源用量的量化依据。 各系统监控指标体系不同,不方便全面监控管理 中国海油各业务系统监控指标体系不同,不方便系统的全面的监控,难以建立标准的故障分类及资源评估体系。 故障定位时间长,跨部门故障追踪困难 中国海油系统不具有故障的回溯追踪能力,偶发故障数据无法留存,导致复杂故障的诊断定位时间长,影响MTTD,在跨部门的诊断中,排查工具所生成的指标、数据难以关联,故障追踪较难。 应用场景 建立统一资源监控体系标准,实现资源标准化分层 博睿数据通过为中国海油建立统一的云平台资源监控体系标准,实现云平台的各类资源的标准化分层,并通过对各平台指标数据的采集,形成统一的监控视图及分析界面。 IaaS层主要包含:主机、虚拟主机、网络设备、网络接口、存储、文件系统、系统进程等7类主要实体;PaaS层主要包含:容器Cluster、Nodes、Workloads、Jobs、Services、Pods、Routes、Images以及云服务等9类主要实体;SaaS层主要包含:云服务、实例、应用、MQ、DB、API等6类主要实。 对系统资源用量进行数据采集,定期评估资源使用效率 在博睿数据的助力下,中国海油实现对各业务系统的资源用量数据采集,通过资源指标体系中的实体关系数据关联各业务系统的资源消耗,实现对各业务系统的资源动态监测及分析报告,定期评估各业务系统的资源使用效率。同时,为主要资源类型建立业务属性标签(Tag),以实现各业务系统云资源用量的动态监测与分摊。 IaaS层的主机、虚拟机、存储、网络链路; 建立容量规划报告,提高资源利用率 博睿数据通过历史指标体系数据量化中国海油云平台的各类容量,以及业务系统的单位业务资源用量,建立云平台的容量规划报告、业务系统的容量扩展评估规范,提高云平台的资源使用效率。 按照各云平台的:Core数量、内存容量、存储容量、网络带宽、云服务请求量,等类型的周期容量进行下一周期的线性与非线性容量预测及建议; 规范业务系统容量申请评估标准,各业务系统进行资源申请时,即时输出月、季度、半年度资源使用趋势,并基于单位业务资源消耗进行容量评估。 建立SLO监测体系,实现各业务系统全面的可观测性4 博睿数据以VALET模型作为各业务系统SLO监控的统一模型,并通过应用探针采集各业务系统的黄金指标作为SLI(服务水平指标),从而为中国海油建立SLO监测体系。 以部门考核目标为标准,按照VALET模型设定关键用户旅程(Critical User Journey)SLO;采用错误预算的阈值设置SLO报警,并推送至平台运维人员或业务用户。 增加应用组件指标采集,提升故障诊断能力5 将博睿数据ONE平台的应用探针作为ADDP的Agent采集端,在采集调用链(Tracing)的基础上,增加采集了应用组件指标(Metric),提升故障诊断能力。 以业务部门为单位,提供自有应用系统的调用链追踪与分析功能权限,从而提升故障诊断能力;实现对应用组件调用链(Trace)、指标(Metric)、堆栈信息(Log)的实时采集与留存;针对异常请求,可实时检索异常请求在应用系统中所流转的各组件的指标数据,并通过堆栈信息对错误进行代码及分析。 打破部门数据孤岛,提升故障协同诊断效率6 通过博睿数据ITIM探针与APM探针数据的集中采集,实现应用和基础资源的关联分析,并通过指标体系实现应用、系统等各层级的SLI分层关联,统一故障诊断的界面入口与数据集成,从而提升故障协同诊断效率。 统一故障协同分析界面,实现应用、服务、接口、方法、实例、进程、容器、主机、数据库的依赖关联;通过分布式追踪能力,实现基于应用、服务、数据库的实体影响依赖关联;通过标准化检测指标体系,以及实体类型与关系,形成统一的告警事件语言,并通过多种方式进行告警事件的收敛,降低告警冗余度。 4为什么选择博睿数据 具备全球竞争力的产品 市场规模领先 中国APM市场份额排名No.1,稳定为客户提供服务超过14年 一体化智能可观测性平台Bonree ONE,真正实现业务应用全链路可观测 应用效果 建立SLO监测体系 实现资源标准化分层 以VALET模型作为各业务系统SLO监控的统一模型,实现全面可观测 将云平台的各类资源分为IaaS层、PaaS层、SaaS层,方便从全局视角管理 缩短MTTD(平均故障检测时间) 提升跨部门协调诊断能力 实现故障回溯追踪,缩短平均故障检测时间 实现应用和基础资源的关联分析,打破部门间的数据孤岛 数字化新运维 ⸺中国石化的运维转型之路 博睿数据为中国石化注入更新的运维方法。通过SmartAgent探针,无需研发配合,即可自动识别各语言应用程序,做到自动化全方法的追踪与分析,包括系统级代码和用户级代码,可呈现每一个类、每一个方法的执行效率,全面展现功能群组间的拓扑调用关系及业务调用节点的健康性能。在中国石化的业务节点故障场景中,帮助IT人员迅速定位问题节点,缩短故障恢复时间,提升IT服务工作效率。 使用产品 Bonree Server 背景分析 重大活动期间,亟需实时监测机制故障定位效率须再提升业务变更/版本迭代导致人力消耗加大123 应用场景 核心业务全覆盖,有效提高运维效率 通过博睿数据Smartagent,对中国石化核心业务系统共计500+节点安装了数千探针,实现了全方位覆盖,运维效率得到有效提高。 构建可视化、可量化的评价体系,业务可观测性大大提高 博睿数据通过评分量化、拓扑图可视化以及红绿灯三色的简易判断标准,实现全程通过鼠标点击即可排查问题。同时,通过拓扑定位缓慢节点、通过接口性能定位缓慢接口,找到问题根因仅