您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [2024 第22届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 深圳站]:潘强-江苏电信PaaS上云实践 - 发现报告

潘强-江苏电信PaaS上云实践

报告封面

江苏电信PaaS上云实践 01江苏电信上云之路 02PaaS运营管理体系建设 PaaS运营管理体系建设03PaaS智能运维平台 04结束语 我们的上云之路 上云背景 上云是企业数字化的必经之路,上云是用数和赋智的基础和前提条件 •上云:企业要完成数字化和网络化•用数:大数据的融合运用•赋智:企业智能化改造 企业通过“上云”才能将经营管理过程中的数据积累下来,是“用数”和“赋智”的基础和前提条件 制定上云的标准和策略 2020年 统一规划,分类实施同步推进,清单管控 •启动全面系统上云•启动外围系统规模化去IOE试点•外围系统20%上云 上云策略:业务驱动系统上云选高配 上云标准:分级牵引,可实施可评估 新建系统:100%上云 L1级去IOEL2级云化改造L3级上云标杆 •核心系统:L3/L4级,规划内投资•外围系统:L3级,规划内投资 存量系统:迁移/改造上云 •核心系统:L3/L4级,规划内投资•外围系统:L1/L2级,追加投资50W-100W 打造一套平台 打造统一的PaaS平台、企业应用开发云道平台、智能运维平台,全面支撑新系统上云和老系统迁移上云,打造全 形成一套方法论 PART 02 打造PaaS运营管理体系 PaaS治理八统一 PaaS运营规范 üIT系统上云涉及PaaS组件的清单30类48种(自研组件11类16种,原生组件19类32种) 建立PaaS运营工具体系 PART 03 PaaS智能运维平台 研发背景 痛点 交付时间长运维效率低故障定位难应用发布慢运维风险高人员流失大经验未沉淀 盘古智能运维平台是一个集成化、流程化、可视化的Paas运维管理平台,解决企业运维难题,提升运维的质量和效率,提供常用的十几类PaaS组件开通、监控、运维、故障处理等全方位的服务。 打造“盘古”平台,提供PaaS组件全生命周期管理 产品架构 三类服务用户、四层产品架构 用户对象 租户 l自助门户,实现自助管理用户、权限l规范业务流程,实现云资源一点申请l支持服务部署、灰度发布、弹性扩缩容能力l资源服务视图、关键指标及告警等 运维人员 l组件部署,实现界面化快速部署能力l配置管理,支持在线配置,比对,回退l运维视图,提供分类、分层指标监控l工具打造,提供巡检、诊断、自愈等 管理人员 l全景视图,支持平台健康度的数据可视化,一屏掌控l资源分析,提前做好资源统筹l运营报告,实时掌控系统状态 整体功能介绍 nTELEDB ü用户创建 组件一键开通、业务随享即用 n开通高效:专注于一站式开通,提供在线自助式、向导式、模板化的组件服务申请,和传统的离线人工管理模式相比可以实现分钟级开通,全程可视化,操作自动化,简化开通流程 n组件齐全:支持组件多、范围广,涵盖常用的绝大部分组件,如数据库、消息、缓存、容器、负载均衡、ELK、ZooKeeper等 n运营规范:组件开通结合专家经验和一线运维最佳实践,发挥组件最佳性能,降低组件运营风险——“别人踩过的坑我们坚决避开” 运维全程可视 u操作可视:运维百宝箱 •封装174个基础运维操作,聚焦运维场景,可视化、一键化、流程化,打造专业、安全运维百宝箱,让运维人员摆脱专家经验依赖,新员工能够快速成长,从而提升整体运维效率 配置复杂,不可回溯 门槛高、风险高、效率低 u配置可视:配置小管家 操作可视–运维百宝箱 •改变原有的人工线下修改模式,实现一点配置、批量发布;一键回退、快速恢复,配置过程可管、可控、可回溯,降低操作风险,提升运维效率 u变更可视:变更放大镜 •根据租户/运维人员操作日志、组件错误日志、慢查询日志等,提供多维度操作日志的关联分析与展现,方便快速问题定位 场景不聚焦、专业化不够 日志分散、无法串联 u健康可视:全景气象台 变更可视–变更放大镜 •232个组件指标,提供一屏健康视图,实时掌握系统健康状态,直观透明、健康检测、风险识别、全局管控、辅助决策 统一容器框架 基于kubersphere进行二次开发,相比其他开源容器管理平台,生态更加齐全,功能更加强大 n容器服务门户:集成服务部署、镜像管理、流量切换、权限管理等应用管理能力 n流量调度能力:基于istio实现服务间流量统一管理,包括熔断、超时、限流等,简化微服务改造工作n动态扩缩容能力:集成EHPA组件,实现多规则的弹性伸缩能力n模板化的发布能力:整合服务、负载、容器组的功能点和操作步骤,提供服务的快速新建、版本批量升级、一键调整副本数等能力n安全加固:提供经过安全和基线加固的基础镜像n信创适配:支持x86/armCPU、Nvidia/昇腾卡自由搭配 故障自动诊断 通过流程编排工具固化专家排障经验,一线运维人员只需点击一键诊断,便可自动定位故障、输出诊断结论,解决了云上客户在PaaS组件运维过程中,故障定位单纯的依靠资深运维工程师的经验,人工排查,诊断定位效率低的问题 n内置30+开箱即用组件故障诊断场景 KafkaTeleDBTelePG ZookeeperUDAL CCSEctgdfsctgcache..... n无需代码操作,灵活拓展诊断工具应用 ü图形化流程编排工具,固化专家PaaS故障排障经验 ü灵活封装、接入运维作业能力,共筑诊断原子能力生态 n一键便捷操作,降低运维门槛 白名单批量维护:安全、可视化、自动化 百分百图形化操作 盘古图形化运维操作 ü权限控制:账号权限关联业务系统CMDB资源,避免越权操作。操作者不知道主机密码,避免密码泄露。 ü指令限制:精细化命令控制策略,限制特定的命令行指令输入。阻止高危操作,提升安全性。 ü日志和审计:记录用户操作日志,助力事件回溯。具备供审计功能,发现潜在安全问题。 传统shell运维操作 ×权限泄漏风险提供过高的权限的账号,可能导致密码泄露。×高危操作风险不当的shell命令可能导致严重后果,如rm-f。×审计和追踪风险发生安全事件后,查找原因和定责困难。 GOPS全球运维大会2024·深圳站 高效运维社区DevOps时代 荣誉出品 感谢大家观看