您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国电信湖北公司]:基于AIops的智慧运营大脑探索与实践 - 发现报告

基于AIops的智慧运营大脑探索与实践

2023-04-29中国电信湖北公司爱***
AI智能总结
查看更多
基于AIops的智慧运营大脑探索与实践

中国电信湖北公司 个人介绍 张遴中国电信湖北IBOC云平台与安全保障室经理 中国电信集团高级专家、云架构师和内训师 研 发 背 景 1 目录 从 融 合 监 控 到 智 能 监 控 2 CONTENTS 应 用 案 例 3 研发背景 IT上云后对运维的挑战 传统Oracle架构演变为全云化、全分布式架构,监控对象几何级增长,调用承载关系日趋复杂,原先分散的监控手段已经不能满足上云后系统运维的要求 分布式架构带来的挑战 n维护对象:从几个到上千个;n监控对象关系:从简单对应到极其复杂,人力维护无法胜任;n数据分片、异地存储,传统维护模式难以为继; IT系统上混合云的挑战 n上云系统PaaS层用自有研发的组件,IaaS层上混合云,原属地化维护变为多个单位维护;nIaaS/PaaS/SaaS层的故障难以关联分析,快速定位; 业务生态圈带来的挑战 n采用云原生架构,原有基于Oracle及传统架构的运维手段、经验不可用;n应用间调用关系复杂,传统监控模式无法做到先于客户发现问题,先于投诉解决故障 G O P S全 球 运 维 大 会2 0 2 3 ·上 海 站 云上IT运维需求 运维赋智 n关联监控:通过主数据治理,拉通从应用到组件、主机的关联关系,实现故障根因快速定位nAI注智:引入AI算法,实现动态告警阈值及故障趋势预测、关联分析、根因分析 监控赋能 n统一监控:按系统/场景/专业等维度,整IaaS/PaaS/SaaS的监控手段,实现全省IT系统监控统一纳管 运维生态 n统一调度:固化常见故障自动化处理手段,探索实现故障自动发现、自动调度、自动修复;集中管控日常巡检等作业计划 n统一展现:建设可视化大屏,数据、系统可视 从融合监控到智能监控 总体目标:云-网-业-数-安融合监控体系自研融合监控平台-智慧运营大脑 自研目标 p急用先行:统一监控各类IT系统和场景,解决IT监控分层割裂、故障根因定位难、手段少的问题,提升系统稳定性; pAll In One:一个底座,统一纳管云/网/数/业/安监控,涵盖IaaS/PaaS/SaaS各层面,支持各类常见监控手段; p监控四融:融云、融网、融平台、融AI p对内对外:对内做深做广,云网自智,对外能力外化,服务政企客户产数; G O P S全 球 运 维 大 会2 0 2 3 ·上 海 站 总体部署模式:1+X两级部署 支持SaaS版本(智慧运营大脑)和私有化部署(行业运营大脑)两种版本,根据客户网络等不同场景灵活选择适用的版本. 配置中心-整合多维监控数据源,CMDB主数据治理 打通集团翼龙、省内主机、网络、日志、动环、业务等,汇聚整合142个系统、2545个saas指标、15753个paas指标、3631个iaas指标,120个其他指标,共计2.2万余个监控点,并纳入CMDB资产库统一管理 配置中心-监控及告警规则零代码配置 内置100余种监控点零代码配置模版,采用零代码方式进行SQL脚本、API接口、服务拨测等监控指标、阀值、告警规则配置,降低入门门槛。 监控中心-实现监控客户端统一,无需安装多个采集进程 业务性能监控 环境层面监控 •系统日志、CPU、MEM、I/O•磁盘使用率、文件句柄、•网络通断、网络流量、网络性能 •服务响应时长、应用负载监控(会话数、会话连接)、TPS监控•JVM堆使用率、GC情况、OOM、线程状态 应用日志监控 数据库层面监控 •状态、监听、会话、锁、逻辑I/O•表空间、慢SQL、容量、等待事件、备份 •接口超时、订单创建失败、接口参数异常、各类ERROR、DEBUG日志日志关键字监控 计划性任务监控 中间件层面监控 •集群状态、监听、会话、节点状态、消息队列•JDBC数据源(状态、使用率)、等待连接等等•其他各类中间件系统关键指标监控 •Crontab定时任务执行监控•计划性自动化备份、清理执行情况监控 应用交易监控 应用可用性监控 •进程、端口监听、网络联通、日志刷新•Web应用返回码(页面是否返回200)、关键服务探测(模拟调用) •核心接口访问量、响应时长监控统计•业务成功率、耗时统计分析•应用交易超时、服务排队等异常情况监控统计 G O P S全 球 运 维 大 会2 0 2 3 ·上 海 站 监控中心-关联监控 打通原SaaS/PaaS/IaaS各自为政的独立监控,构建从应用到主机的数字孪生关联关系模型,实现IaaS/PaaS/SaaS关联监控 实施方案 p建立数字孪生模型:打通各监控来源,构建从业务-模块-容器/组件-主机的关联关系模型以及核心业务的调用链模型; p核心业务场景端到端监控:联通各系统关键接口,实现停开机、携号转网和客户充值等核心生产场景的全流程监控; p通过应用找故障:SaaS出现告警,通过SaaS->PaaS->IaaS关联关系快速定位故障根因; p通过故障找应用:PaaS/IaaS告警后,通过IaaS-->PaaS-->SaaS反向预警,找到可能受影响的SaaS应用; 监控中心-低代码大屏展示平台 场景应用 p“1+N+1”架构:搭建完成1底座(大脑)+N大屏+统一调度运营的“1+N+1”监控可视化架构,所有大屏内容作为监控指标纳入大脑整体监控体系 p大屏应用:已实现云/网/数/业/安等20余个大屏应用,如:校园营销监控大屏、跨域订单运营监控大屏、省市两级业务运营大屏,客户IT投诉大屏,ITSM工单处理实时监测、DCN网络监控、IDC业务运营监控、网信安监控等,直观展现各专题监控指标 调度中心-告警自愈 将智慧运营大脑监控同低代码开发平台打通,通过监控告警,智能匹配自愈规则,自动调度执行基于低代码开发平台服务编排的自愈能力。 AI中心-动态阈值/故障趋势预测 引入统计检验、KNN、孤立森林,以及Facebook开源的Prophet等算法,采用时间序列分解,通过模型训练得到模型库,实时采集的指标数据通过读取最新模型获取动态阈值来判单是否异常告警。 AI中心-知识图谱:故障根因定位 利用图数据库,基于资产-事件的IT运维知识,构建从SaaS到IaaS的全流程端到端监控图谱,在此基础上引入机器学习和算法模型,实现告警归并和收敛、故障根因分析和快速定位,最终实现智能决策和自动处置。 AI中心-NLP自然语言交互 利用NLP自然语言交互,打造IT服务台智能问答机器人、微信告警通知、微信对话交互、微信告警自动语音外呼等多模态的运营交互能力 故障告警自动微信通知 自然语言对话巡检 IT服务台智能问答机器人 微信告警自动语音外呼 知识中心-企业大模型探索 为了解决传统OA公文仅能按照标题关键字搜索的局限性,探索利用大语言模型强大的语言理解和文本生成能力,通过语义索引、向量匹配、融合生成等技术手段,以自然语言问答的方式实现IT运维规范等公文内容的智能搜索,提升搜索效率和准确性的同时提供更好的用户体验 主要流程 元宇宙IBOC虚拟园区 突破限制,监控上云 打造样板,专业赋能 拥抱变革,创新体验 打造面向未来的数字化运营新体验。通过人员孪生、空间孪生、在线监控、在线调度和在线互动,为物理办公地点分散的IT运营人员及合作伙伴提供沉浸式的虚拟线上协同体验,开展基于元宇宙的重保值班、技术讲座、在线会议等。 在已初步实现运营监控可视化、自动化、AI化基础上,进一步利用元宇宙技术突破监控室狭小等物理空间制约,实现线下监控中心整体数字孪生,打造云上第二监控现场,确保极端情况下IT运营监控安全不中断,线上线下联动,提高自智处置效率。 搭建元宇宙应用平台,打造元宇宙样板间,通过元宇宙在内部生产运营中的应用,如培训、会议、会展等,逐步摸索积累经验,为后续对外服务奠定基础。 应用案例 (一)某市卫健委融合监控-云专线监控 大脑同新一代资源中心打通,基于用户的整体云网部署架构,可视化呈现用户云网结构全貌,实现对多云资源、网络专线的一体化监控;利用图数据库,基于资源中心资源开通数据,动态生成物理链路端到端拓扑图;同新一代告警子中心打通,叠加设备及端口告警展示,并收敛到链路层级,从而实现客户云网融合告警监控。 (二)某市政务云融合监控 某市政务云基于腾讯云底座搭建,湖北智慧运营大脑通过对接腾讯云的基础设施、云哨、御见等多个运营端以及租户端平台,涵盖云内的政务外网区和互联网区,监控了127平台宿主机和13个租户共242台云主机和漏洞情况,实现云内一体化的融合监控。 (三)政府热线监控 Thanks 因为相信,所以看见敢想、敢干、敢胜利