您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [-]:运营商IT一体化运营思路 - 发现报告

运营商IT一体化运营思路

2024-09-18 - - Joken Hu
报告封面

中国电信云网运营部高级项目经理 田野 公司职位中国电信云网运营部高级项目经理 在省-集团两级IT运营岗位工作多年,具有丰富的IT专业工作经验在市场、渠道、政企、云中台、云网运营等多个条线均有工作经历,对IT运营赋能前后端工作具有深入的思考,期待与大家分享 IT一体化运营目标 IT系统安全稳定运行 重点场景业务级故障1分钟发现、5分钟定位、10分钟恢复 统一底座覆盖率存量系统和新建系统使用天翼云+翼龙底座 IT一体化运营整体方案视图 打造智能敏捷高效云网融合运营体系,推进全网IT运营情况可视可管可量化,服务战新业务质量发展 IT一体化运营管理范畴--客户服务 效率、价值是目标:IT系统服务于内部用户和外部用户,IT运营应聚焦客户感知,对内提升内部员工效能,对外提升客户的业务使用体验 客户短信 •重点服务场景的优化 网络服务 ①新兴业务受理感知,统一纳入到IT集约运营体系②受理开通过程中遇到的问题,由综调系统IT事件单承载③集团和省公司两级IT维护单位协同处理 •新业务开通过程的优化和保障 •基于业务场景开展横向端到端串联,打造订单级业务链端到端监控解决方案 IT一体化运营管理范畴--系统架构、基础维护 安全稳定运行是基础:IT系统稳定运行综合考虑系统架构韧性、应急响应和优化改进 系统架构 基础维护 •推进系统架构韧性设计 •完善IT基础维护的系列管理制度•构建IT运营规范和成熟度模型•强化IT变更操作、风险隐患排查、应急演练等常态化监测、过程管控、闭环管理等能力•提高IT业务端到端监控水平,基于CMDB形成IT端到端运营框架,按照CMDB框架组织IT端到端运营,做好SaaS-PaaS-IaaS纵向端到端的IT监控 ①去除单点:硬件单点、存储单点、网络单点等②去依赖:高等级服务不允许强依赖于低等级服务或资源③数据保护:提升数据安全性,降低RTO,RPO接近于0④灾备设计,业务不中断,数据不丢失⑤弹性设计:故障隔离标准、访问量控制标准、服务降级/限流/熔断、容错•全网维护成本管理,是否用于架构隐患整治等 安全运行 两级调度 •推进安全风险防护整治,推进IT系统存储数据的分类分级和敏感数据防护•强化人员账号和操作的安全管控•构建软件全生命周期管理安全体系,推进供应链安全 •推进IT和CT融合,在网络层、资源层、应用层等推进生产监控、指挥调度、故障联动处置、端到端管理等云网一体化生产运营调度 IT一体化运营管理范畴--智能运维、人才培养 数字化能力是驱动:构建智能运维能力,提升运维效率和自动化运维水平 推动科技创新 研究型运维 •提升隐患排查的技术能力,研究IT隐患发现和整治的技术手段,提升隐患治理效率•提升变更操作的技术管控能力,研究IT变更过程管控的技术手段,在安全稳定基础上,提升变更操作效率•优化容灾技术方案,研究核心系统双活架构、所需技术能力和实施路径 •推进联合实验室对CT/IT融合的统一可信基础设施技术底座研究•推进云计算、组件等新技术新产品的研究使用•融入AI和大模型等技术,提升端到端观测、调度、应急保障等能力•整合全网运维能力,集成到统一技术底座,形成通用能力,开放共享 人员能力是保障:强化人才培养,提升运维实操能力,推进自主掌控力度 学习体系 培训环境 •开展IT运维课程研发,组织岗位认证•通过月刊,网上大学等,组织IT运维知识的宣传 •构建IT运维实训环境,持续迭代腾云计划•基于云荐社区搭建IT运维知识共享专区 八个一思路--一支高水平团队 n打破壁垒:打破各单位运维团队分散、各自为战的局面,实现各运维团队与能力团队的运营信息共享、互助,运营能力工具的集约打造和应用 n人才价值:充分调动和复用运营维护专家能力,为专家提供舞台,突显人才价值,有利于开展运营人才的激励、培养n规范落地:建立一支具备高水平运维技术的队伍,保障运营规范严格执行,推动整体IT运营能力提升 SRE稳定性保障 围绕“0-1-5-10”目标,强化研发和运营维护等生产过程中的稳定性保障,从分域分散运营体系,开展IT一体化SRE运营保障实践,实现确定性运维 八个一思路--一种运维文化 加强运营维护人才培养,强化人才运维实践;创办内部期刊,营造分享、探索的运营文化 全网一体化开展运营维护工作 •面向全网IT运维专家、IT运维主管,定期发布专项工作,抢盘制开展任务攻坚•依据任务完成质量,匹配积分奖励 IT一体化运营培训 •开设IT一体化运营培训班,截止当前已开办两期 •促进IT专业信息和知识的共享、集团-省两级共同编制IT运营维护内刊,促进各单位之间的横向交流,创造比学赶帮超的良好氛围•应用AI、大模型的能力,建立每日推送机制,内容涵盖运维规范、运维经验、闯关测验等 腾云计划培训 •通过腾云计划,强化IT运维人才实操能力 八个一思路--一套运营管理规范 围绕稳定运营目标,迭代优化IT运营管理规范体系,推动规范标准在管理和生产工作中落地,满足IT运营管理的合规、专业、高效要求,探索大模型在管理规范落地实施中的应用模式 IT专业安全运行管理四大闭环 强化从变更操作方案制定、审核、审批、操作、验证等环节全流程闭环管控 •加强方案制定审核:按变更操作管理办法确定变更等级,按要求开展审核、审批 •强化变更过程管理:落实操作人员账号分时分权分域、高危指令线上管控各个环节,针对重点省份、区域、时间段精准管控和闭环管理,强化自主操作,云网变更操作自主化率达90%,杜绝违规操作 •落实操作结果验证:操作完成后开展业务测试和结果验证,确保结果符合预期 八个一思路--一套数据运营体系 围绕IT运营数字化的目标,在统一规范、统一标准基础上,梳理运维数据类型、数据规范、数据采集规范等,持续迭代完善IT运营数据体系,实现运营数据管理标准化,推进数据驱动的IT运营能力 八个一思路--一套IT运营评估体系 结合行业先进的成熟度评估体系和模型,制定一套适合自身IT组织运营的成熟度评估体系,用以评估IT组织运营能力和两级运营质量,明确现状,发现差距,持续改进 八个一思路--一套服务目录 IT运营工作从被动向主动转型,实现IT运营工作的服务化;服务目录和服务质量是IT运营对外部用户和内部用户的价值体现;推动服务目录的开展,制定服务交付的SLA,推进服务交付的数字化,不断提升IT服务质量 八个一思路--一套技术底座 以“平台+应用”的模式打造翼龙统一底座,支撑IT运营数字化转型。汇聚全网运营数据,通过标准化能力开放、低代码可编排aPaaS等能力,赋能全网IT运营。 IT系统建设到维护的端到端数字化技术底座——翼龙 AI赋能云网自智的路径 全面智能运维(L5) •持续迭代优化端到端IT智能运维•IT运维AI模型自学习、自训练 端到端智能运维(L4) 大模型和AI智能体全面赋能IT运维设计、部署、预防、处置、复盘等全过程 场景化智能运维(L3.5) •构建AI大模型+IT运维的语料知识体系•打造IT运维1-5-10重点场景的AI智能助手 感谢大家观看