您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[帆软]:云智:交通智能业务运维体系建设 - 发现报告
当前位置:首页/行业研究/报告详情/

云智:交通智能业务运维体系建设

信息技术2023-02-24帆软李***
云智:交通智能业务运维体系建设

!"#$%&$'()*+,-!"#$!"# !"#$%&'(!"#$%#&'()*+,-%)*+,#$-./0./01234(5&)*+,#$12/367*+89:;<=>4?@A'')*+,#$4567BCDEFGH"IJKLMENOP( !"#$%&'(!"#$%&'()*!"#$%#&'()*+,- 安全度要求高,网络环境隔离l关注网络链路、网络设备的管理l同时,需要考虑到不同隔离网段如何进行统一的纳管l运维工具需要考虑跨网段的数据传输和安全问题•生产网分为:主干网、离港网、安防网、办公网等•建设和维护需要考虑网络的隔离问题隔离的网络环境需要各类系统运维水平发展不均衡系统运维水平发展需要业务可靠性要求高业务的可靠性要求需要•机场业务正常、连续运作,关系到旅客、地区、国家的交通、经济秩序、形象声誉•机场大屏、终端设备数量多,不易维护,但其可靠性直接影响到旅客的用户体验l保障核心业务的基础设施、网络、应用的可用性和可靠性l正确区分核心业务,确保运维管理的触角覆盖到各类业务!"#$%&'(业务流程复杂,影响面广l能掌握业务流程之间的关联关系,在出现故障时,可以确定影响范围,减少损失l能提出结合机场航空业运维特点的方式,轻量化解决问题复杂的业务流程需要•与民航局、航空公司、海关、边防、检疫、空管局、航站楼的接口繁多•业务流程复杂,系统信息相关性强,故障具备天然的传播链。•行李系统、集成系统、离港系统、屏显系统、广播系统等核心系统具备来自不同厂商的监控工具•各类监控工具的发展水平不一,未实现统一管理l掌握现有系统的运维状况,补足缺陷,实现统一运维管理l结合不同系统特点,比如航显系统使用工控机,需要对硬件、软件均进行有效管理 应用性能监控l对应用性能的有效管理手段;l对于应用代码的执行效率、数据调用、第三方接口调用的监控手段;l对于代码执行、堆栈、长SQL语句的分析手段。•需要更灵敏地洞察业务变化•快速准确地定位瓶颈•关键业务决策缺乏数据依据•运维、开发、运营存在沟通障碍•需要业务运维的考评依据应用性能需要关注自动化运维体系建设自动化运维体系建设需要关注服务流程有效管理服务流程流转需要记录•需要精细化管理•需要量化IT人员工作•需要保障业务人员与IT人员的沟通渠道畅通•需要以管理层为核心的机构、制度、体制的优化l向业务人员提供的服务需要明确的服务目录清单l故障管理、变更管理、问题管理、故障转问题管理l服务水平相应的管理和统计手段)*+,#$%&'(机房数据中心运维l能耗管理l3D可视化l动环、硬件、软件监控l运维体系制度建设l资源管理数据中心运维需要关注•随着业务发展,对基础设施的需求增多,采用混合云方式,具备大型自建机房•对数据中心人、事、物需要进行综合管理•需要对能耗进行管控•基于流程与配置管理的自动化运维体系建设,利用自动化解决重复性的服务请求•利用自动化能力,实现已知故障的快速治愈•需要形成管理闭环l积累丰富的自动化脚本库l支持多种自动化场景编排l对权限进行细粒度的控制 故障影响范围广•任何的故障出现都有可能造成极大的影响和问题•对网络传输的可靠性要求高•存在物理位置上的跨越,对分界定责的要求高故障处理需要关注-.+,#$%&'(网络关系复杂网络管理需要关注•收费网是核心网络,网络还分为办公网、监控网等•不同网络之间相互传输和使用上存在困难•网络设备分散在路段管理、收费站、门架等处传统的管理手段管理手段需要关注•分散在各地的网络设备,尤其是在户外的设备如何实现统管•设备来自不同厂商,厂商提供的原始工具的管理•对易被忽略的细节问题要重点关注,如设备和链路的管理•不同路段在不同地理位置,快速定责定界,对故障处理非常重要•设备管理采用厂家提供服务的方式,对厂家的实效性和服务水平承诺需要进行管理•多种厂商自带工具,缺乏一个统一的监控可视化平台•不同厂家的设备需要配备不同的服务管理流程•一体化的平台需要能够纳管多厂家多型号多批次的设备设施 !"#$%&'()+)*+,#$-./0./01234(5 预测未来知识的应用知道how 和why结构化的信息知道who, where, when和what等加工处理后有逻辑的数据日志,性能,满意度调查,呼入数等原始数据或素材数据Data信息Information知识Knowledge智慧Wisdom服务器、网络设备、应用系统、操作系统、业务操作、运维工具,指标、机房环境,人工输入等原始数据记录、监控、采集系统监控呼叫系统动环监控网络监控应用监控ITSM资源自身健康状态及资源关联影响的信息存储、分析、处理资源监控CMDB数据中台算法中台指标监控日志监控运维处理流程、行为动作和解决方案的经验沉淀归类、沉淀ITSM自动化智能算法知识库机器人学习、问题解决、根因定位分析、故障自愈、容量预测等智能场景应用应用客服机器人智能运维平台智能算法监控平台监控平台/01234567#$89:;<=> 多种检测手段识别系统状态,及时、准确发现问题,评估影响能感知运维工作中出现的运行异常和故障等,通过智能化手段协助或实现异常判断、故障定位、根因分析等运维活动的能力会诊断相关数据进行主动学习,积累、完善模型、规律等运维过程自学习适应IT环境变化,动态优化调整处理方法、顺序、参数、边界或约束条件,以取得最佳处理效果的能力自适应已知运维场景做出的半自动化或自动化处置能力自执行根据运维数据分析结果,提供综合分析结论,为后续的处置、决策提供依据的能力可决策展示、阐述运维对象的属性、状态、关系及其变化历史等信息的能力会描述第一阶段第二阶段第三阶段967#$7?@AB@ !"#$%&'(),)*+,#$12/367*+89:;<=>4?@A' 应用性能管理(通用)日志分析(通用)事件统一管理数据采控统一管理平台数字化运维指标管理体系运维大数据平台指标体系管理建设咨询第一阶段:补全工具,统一告警运维监控中心分权分域的运维工作台应用健康度管理平战一体的运维可视化大屏资源状态可视化运维工作可视化数据告警第二阶段:打通流程,全面可视智能运维(AIOps)场景异常检测+容量预测+根因定位配置管理数据库ITSM服务管理基于因果算法的指标关联性分析大屏可视化迭代第三阶段:健全体系,驾驭智能工控机状态监控(机场)场内外接口监控(机场)网络质量管理(公路)基础设施监控(公路)数据中心管理(通用)自动化运维告警工单操作智能应答机器人深度自动发现的配置管理健全的运维管理制度和体系输出67CD#$EFGHIJ. KLM>NOPQRSTBUVWOPXY业务交易质量业务交易质量业务交易质量前端(网络防火墙、负载均衡)系统运行状态系统运行状态系统运行状态设备运行状态设备运行状态设备运行状态后端(核心、大机)网络连接质量网络连接质量网络连接质量中端(应用APP、ESB)以业务交付链为抓手,关联交付路径上的所有监控资源用户前端实时感知用户各节点用高实时性作为事件发现源头 CDZ[\]^_`Z[abScdefgh深入代码的应用性能管理云基础设施、容器监控基于语义分析的无监督日志模式识别网络链路拓扑自动发现网络链路质量监控应用主动拨测监控灵活的数据服务能力Ø根据业务特点灵活建立数据逻辑及关系Ø基于多数据源来梳理数据逻辑,构建数据立方Ø多源数据模板化数据接入基于AI的故障分析能力Ø故障出现时,快速分析对应指标趋势,无需登录到分散的监控工具平台Ø以健康度直观度量监控对象的状态Ø提供基于AI的根因分析、异常检测能力以业务为中心的指标体系展示全业务健康态势第三方平台安管平台用户权限网管平台 #$^_i89jik9Sl;mno>pq咨询三驾马车ü运维业务咨询ü专项技术方案(如大型搬迁,系统切割、云环境运维方案)ü运维业务需求分析ü运维平台功能规划与概要设计ü合作研发üISO20000/ITSS认证辅导üISO27001认证辅导ü专题培训运维业务咨询专项技术方案服务流程运维设计业务连续性指标体系智能运维运维数据治理业务可用性应急体系规划软件实施专项咨询平台设计培训与认证专项咨询专业咨询顾问团队ü运维体系中长期规划ü实施路线图ü技术路线选型 rs>tSjsuvSwxyz{>日常运行模式大屏分为3个主题区域:•运行态势全景感知区域,包括:业务运行全景态势感知、云基础资源健康态势感知、应用系统健康态势感知、安全态势感知、用户体验感知;•技术运营区域,包括:变更日历、容量和成本分析。•事件管理区域,这一区域包括重大事件和未响应事件列表。日常模式应急指挥模式应急指挥模式大屏分为3个主题区域:•业务影响分析区域,包括:事件信息、应急组织、应急速度•应急处置区域:应急处理流程状态、变更、应急预案•应急复盘区域:应急处置时间线大事件展示 |}67S~#$ÄÅ>自主研发的Tima算法能够覆盖85%以上的场景,算法+泛型可以覆盖95%以上的场景,5%的特殊场景需要调参。主要使用场景:智能容量规划智能业务规划做智能流量预警单指标异常检测单指标预测日志模式识别基于语义分析的日志模式识别,将聚类算法用在日志的异常检测中,异常识别率高根因分析与推荐 !"#$%&'()-)*+,#$4567BCDEFGH"IJKLMENOP 1、与机场运维人员共同梳理出接口与数据流向图2、在一体化监控平台中,嵌入该数据流向图3、内网部署主动拨测产品,对接口做每5min的可用性探察4、如果接口出现故障,将变化颜色进行展示5、接口详细指标,可在图上点击相应接口,进行下钻接口复杂机场内场外场内接口多,关系复杂依赖人工接口流转信息维护和问题排查,依靠的是运维人员的经验和实践排障滞后接口健康度情况不能及时跟踪,故障出现难以判断对下游业务系统的影响范围,排查时间在小时级别使用场景解决方案成果从无到有提供了接口健康度的全局视角知识积累工作交接及新需求对接时,通过数据流图介绍核心业务接口数据流转监控范围广监控场外接口、场内接口共35+个快速定位故障5min确认故障影响范围,快速通知相关业务单位需要客户方提供的支持1、共同梳理数据流图2、提供接口的IP地址信息ÇÉÑÖÜ!"áàw>âwxySäãáàåçéè 航显系统工控机点位多机场的工控机有100+个依赖人工巡检航显系统依靠人工巡检,一天仅可完成两次巡检,巡检无记录排障滞后工控机故障难以及时发现使用场景1、基于机场的实际地图,作为背景2、在图上通过方框位置标注工控机点位(一个点位有多台设备)3、利用基础监控,通过ping的方式监测该工控机是否在线4、下钻可展示:点位的在线情况、告警事件解决方案成果从无到有提供了航显工控机健康度的探察视角提高巡检效率原本1人半天的工作,现在是实时在线信息展示需要客户方提供的支持1、提供机场实际地图和工控机位置图2、提供工控机IP地址信息ÇÉêÖÜ!"ëp_íwxyìîSïñìî@ó 【能耗】1、基于服务器级别的硬件运健康状态监控2、基于服务器级别的能耗实时监测,替代昂贵的智能PDU电源3、透过能耗监测分析,有效判定数据中心低负载服务器或僵尸服务器【监控】1、机柜级功耗策略,防止机柜过载时电路爆表断路2、基于服务器级别的进风口环境温度监测,取代温度传感器硬件设施,有效的补充了温度传感器硬件设施密度不足所带来的盲点3、数据中心温度热点分析与预警【管理】1、容量规划,增加机柜密度,实现空间高效利用2、基于可视化系统自动巡检,及时、精确的发现硬件告警信息,替代原有巡检方式ÇÉòÖÜëôÄöõl;可视化成果主要建设内容和创新点 ÇÉúÖÜñù-.ûü†.°¢£y发现中心区域,会话丢包率高通过建立业务链路图,抓取关键指标,发现中心区域丢包率高于国家标准。定位到影响业务的关键问题。 ÇɧÖÜ)*+,`0•¶Dl;ß®©y#$问题:服务出现异常,占用大量内存时,容易触发OOM等系统机制。解决方式:服务故障后,触发系统OOM,记录系统日志/var/log/message,日常日志分析平台对该日志进行分析,发现异常日志后触发告警,将告警消息对接到事件中心,事件中心触发创建工单的动作,同时调用自动化运维,执行服务启动任务。优势:➢减少人工操作➢实现服务故障快速响