您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [中航]:邓嵬:百万交易不停歇——中航信云平台运维实践 - 发现报告

邓嵬:百万交易不停歇——中航信云平台运维实践

2024-11-04 邓嵬 中航 Explorer丨森
报告封面

---中航信云平台运维实践 背景 中航信云平台架构 目录 智能运维探索 背景 中航信的业务及系统特点,运维要求 航信软件系统发展路径及现状 1、各种技术架构的软件并存; 松耦合,扩展灵活,开发效率高 2、资源快速响应(1)技术架构的转移工作(2)传统业务的增长(3)新业务的发展 3、IT基础设施的自主可控 紧耦合,不易扩展,开发效率低 面临的挑战和解决方案 挑战 解决方案 1、软件交互关联复杂,对监控和故障定位提出挑战2、不同业务对IT基础设施要求不一样,对运维响应要求不一样3、满足快速的应用变更需求4、IT基础设施变更频繁5、技术栈种类较多,对自主可控有较高要求6、对资源交付的响应时间的高要求7、可用性要求达到99.99% 1、全链路监控2、软件分类、分级管理3、资源池规划4、devops流水线5、端到端的资源交付流程规划6、技术规格标准化7、自动化8、资源容量管理9、高可用的IT基础架构 资源快速响应 高安全 追求全年零停机,可靠性达到99.99% 业务的快速发展软件技术迭代 中航信云平台架构 航信云平台 高可用、自主可控并支持高并发实时交易的云平台,包括: 云计算应用平台(PAAS) 提供完善的分布式技术体系,支撑核心应用以微服务方式的稳定、高效运行。云计算应用平台由如下这三部分组成 •应用开发:完整的Dev开发流水线•应用运行:功能完备的Runtime运行环境•应用运维:丰富的Ops运维工具 资源交付编排及执行 云计算基础设施平台(IAAS) 资源纳管及服务 实现基础设施资源的云化管理,实现安全、效率与成本的有机结合,云计算基础设施平台由如下这三部分组成: •资源申请及查询系统•资源交付编排执行工具•资源纳管及服务工具 云计算基础设施平台(IAAS) 云计算基础设施平台面向用户视角及管理员视角,提供IaaS层资源从创建到释放的云化交付工具集。 •服务对象:通过统一的Portal,为资源申请方、设备维护方提供覆盖资源全生命周期的自助服务。 •统一编排:通过接口实现对配置系统、监控系统、安全系统的对接,并支持资源纳管,接口封装。 通过软件定义数据中心,统一服务入口、资源模型、技术标准和管理标准,提升基础设施管理自动化水平、交付效率和整体可靠性。 云计算应用平台(PAAS) 云计算应用平台由应用开发、应用运行和应用运维这三部分组成,是具备高性能、高可用、高并发,满足行业特点的PaaS云平台,处于“并跑”水平。 •应用开发 -流水线管理-多环境支持-持续集成、持续发布、自动化测试 •应用运行 -统一服务API网关SAT-多语言RPC微服务运行框架-Web类应用部署能力-异步消息模式服务通讯-多容器集群支持-共享服务能力支撑 •应用运维 -服务分布式Tracing-服务治理:灰度、熔断、负载均衡等-容器状态监控 中航信云平台关键设计 资源交付 关键设计-资源池匹配 关键设计-资源池容量评估 云计算基础平台资源交付包括资源建设、资源调度、资源分配和计划三个关键场景,三个场景实现端到端的资源交付管理,支持IT基础资源的数字化管理和自动化弹性交付。 关键设计-自动化接口质量管理 n提供脚本和接口规范支持各底层自动化接口开发: 关键设计-高可用 对虚拟化资源、数据库资源、裸金属资源,根据资源池规划及资源池中网络分区,按需独立部署硬件资源组,资源组相互之间不共享/不复用硬件资源,减小故障域。 高可用检测示例 n创新点 •启用分词查询提升查询效率并减少对系统的cpu使用率;•调用链数据对比分析可快速定位故障原因;•支持基于应用和服务维度的数据库、缓存调用时间超过一定阈值以及超过一定响应时间的sql语句数量的告警;•支持基于服务jvm堆使用阈值波动以及阈值的告警; 智能运维探索 智能运维(AIOps实践)-容量预测 基于历史数据对资源需求进行预测: ü预测民航旅客量ü进行旅客量跟各软件IT性能指标关联分析;ü对各软件的IT基础设施的容量需求进行预测,预判断指标属于线性模型还是深度学习模型,选择合适的模型进行预测。 将问题进行分解,通过各种算法组合形成解决方案,最终达到我们的要求。 T h a n k s 荣誉出品 感谢大家观看!