您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [ArchSummit深圳2023|全球架构师峰会]:云环境下的企业运维平台演进历程_朱超健 - 发现报告

云环境下的企业运维平台演进历程_朱超健

报告封面

阿里云 朱超健 十年互联网行业技术经验,专注于运维、安全、网络,具备丰富的运维平台产品建设经验;早期就职于安全公司,经历了从传统安全模式到云环境安全体系的运维工具平台建设及落地;后就职阿里云,经历了云技术快速发展的关键时期,有从云平台底层到业务最上层的全链路专家经验,洞察运维平台关键点,长期专注智能运维领域,从事技术服务工作,聚焦金融、互联网、教育、泛娱乐等行业客户,基于客户业务打造托管式的云上智能运维解决方案,擅长用云最佳实践、产品管理、研发管理、业务重保、疑难问题攻坚等。 目录 多角度洞察运维痛点企业演进过程中运维解决之道阿里集团用云最佳实践企业运维平台的未来 目录 多角度洞察运维痛点企业演进过程中运维解决之道阿里集团用云最佳实践企业运维平台的未来 智能运维发展的必然性 运维从人工到工具,从自动化到智能化也是互联网发展及企业业务发展的必然趋势。 2.脚本运维 1.手工运维 自动化运维工具和平台大幅度提升运维效率,让运维团队从机械、重复的劳动中解放出来。但随着运维工作的深入,自动化运维一些潜在缺点也逐渐暴露出来。正如生产力发展的工业时代。 脚本运维,常常是运维人员通过实践沉淀了一小部分场景逻辑,使用shell来实现一小段简单的逻辑。只能说在手工运维的基础上做了简单升级,实则还有很大问题。正如生产力发展的蒸汽时代。 手工运维阶段的特点——以人为主劳动,效率相对较低。因此,在这个阶段当企业IT系统发展到一定规模后,就会引发很多问题。正如生产力发展的农业时代。 在可以预见的未来,IT系统架构的复杂度越来越高,规模越来越大,同时伴随人力成本不断提高,渐渐地对于重型信息化企业来讲,运维不是简单依靠人力或传统的运维软件能解决问题了。正如生产力发展的智能时代。 智能运维发展的必然性 运维从人工到工具,从自动化到智能化也是互联网发展及企业业务发展的必然趋势。 目录 多角度洞察运维痛点企业演进过程中运维解决之道阿里集团用云最佳实践企业运维平台的未来 企业云上运维的核心问题 如何运维平台,如何保障业务稳定、高效运行,支撑企业稳定用云? 业务监控的意义 故障导致公司资金损失客户流失还可能产生社会舆情及群体事件 随着社会对互联网的依赖不断提升,互联网服务故障,影响越来越大 摩菲定律告诉我们,如果一件事情有可能发生,那么必然将会发生,无法彻底避免 虽然故障无法彻底避免,但可以通过监控手段快速发现,缩短故障时长,降低影响 业务监控概述 业务监控技术方案 •调度10万+核计算资源,提供分钟级百T日志处理能力,存储亿级监控项 原始日志 业务监控-指标自定义采集配置 业务监控-自定义报警规则配置 智能监控-智能基线 智能基线——基于机器学习算法的业务监控无阈值异常检测 智能监控-实际效果 针对周期性特征明显的业务监控指标,具有较高召回率及准确率 监控报警核心指标 通过核心指标,衡量公司业务监控报警质量,降低故障影响 取决于监控报警配置质量准确率低误报多导致报警成本高 取决于合理订阅及准确率报警量大员工无法有效应急 重大故障 >= 90%一般故障 >= 70% 人均日报警<=30条 报警准确率>=50% 目录 多角度洞察运维痛点企业演进过程中运维解决之道阿里集团用云最佳实践企业运维平台的未来 阿里巴巴上云过程 阿里集团已经实现业务跑在云上,从回顾这几年上云过程,基本可以划分三个阶段。 上云历程 集团上云三个阶段:弹性上云核心系统上云全面上云 在每个阶段集团上云解决的问题和核心关注点都是有差异的。同时在每个阶段达成具有里程碑意义的上云案例。 2020~全面上云 2019~2020核心系统上云 电商核心系统全部上云计算平台搜索广告等业务中台上云阿里云运营支撑上云充分利用公共云的弹性,云上降成本 2017~2019弹性上云 云上冬奥业务连续性保障方案 业务连续性保障方案 - 风险治理、容灾演练、压力测试、安全加固、预警风控、应急预案 压力测试 风险治理 容灾演练 •利用单元压测摸排各模块性能瓶颈,并完成容量评估。•利用全链路压测方式验证系统整体并发能力是否符合业务需求。•对系统全链路性能瓶颈点做性能调优。北京冬奥累计压测奥运相关项目数十个子模块,数百个接口,性能优化2-6倍。 •云平台基础设施容灾能力验证,如负载均衡SLB 多可用冗余验证,RDS数据库HA切换验证等。•业务整体架构容灾演练验证,如跨域专线。•业务系统容灾演练:演练业务损失某单元模块功能的系统容灾切能力。 •基于飞天技术服务平台(ApsaraServiceStack)CloudDoc/Advisor模块能力进行云平台风险巡检并前置治理风险。•重保期云平台针对性封网管控及变全网更评审把控。•云平台集群水位评估与管控。•批量资源预留和资源腾挪。 区域服务铁三角敏捷响应,抓住商机保证关键系统并发性能 区域服务铁三角敏捷响应,抓住商机保证关键系统高可用 区域服务铁三角敏捷响应,抓住商机识别云基础设施潜在风险 应急预案 安全加固 预警风控 •数据中心建设期间,2019年开启安全架构和策略设计。•大型国家级安全攻防演练。•主管单位、冬奥组委和各厂商安全情报协同处置。•冬奥重保期间蜜罐捕获请求数千次,恶意请求拦截超千万次,云安全中心告警及处理超千次,并封禁大量恶意IP。 •按问题场景梳理准备应急预案73项,覆盖云上弹性、网络、安全、数据库、容器、存储、大数据和中间件等8个产品垂直线方向。•覆盖过载、丢包、业务IP错误拦截、黑洞清洗、超限和管控异常等不同问题的应急处理。•主要产品钉群机器人35类核心告警处理预案。 •钉群机器人主要产品核心告警项目35项,重保期核心告警主动处理41次,避免风险扩大。•利用资源Grafana监控大屏按照top异常资源观察和汇总异常实例资源信息,做到全局实施观测实时处置。 区域服务铁三角敏捷响应,抓住商机赛事问题快速恢复 区域服务铁三角敏捷响应,抓住商机构建纵深防护体系 区域服务铁三角敏捷响应,抓住商机识别赛事风险并处置 账号与权限治理 基于业务和组织进行云上资源的身份管理和授权规范 治理实践 治理原则 •根据组织架构对云资源进行分组,并以云上用户组为最小粒度授予相应的权限•云上用户组在信息系统运行不同阶段权限的治理•制定访问管理流程•配置审计进行持续合规审计•云安全中心进行持续合规审计 •根据组织架构对云资源进行分组,并以云上用户组为最小粒度授予相应的权限•权限越界访问用户数审计•授权失败审计•未在指定时间登录的用户数审计•闲置策略数审计•未配置强制多的因子认证的用户数审计 资产与数据安全治理 基于丰富的阿里云安全标准化产品巡检发现问题,进行资产与数据的安全治理 治理原则 治理实践 • 所有已部署的资产必须按照重要程度和数据敏感性进行分类• 在可以批准并实现足够的安全和治理要求之前,无法将任何使用受保护数据级别的资产部署到云• 任何包含受保护数据的段中提升权限都应属于异常• 定期检查可能影响云部署的趋势和攻击,以更新云中使用的安全管理工具•日志按需持久化便于进行安全溯源 • 依据安全法规、冬奥业务类型,对资产和数据进行分类。• 依托SSL保证数据传输过程的安全性,依托KMS、加密服务对敏感数据进行安全存储• 基于操作审计、配置审计、日志监控一体化系统、数据库审计、堡垒机审计等对数据提取操作进行合规审计• 定期检查可能影响云部署的趋势和攻击,不断优化安全工具 Beijing2022 云上安全产品 全过程安全防护保障 基于强大的安全服务团队保障赛前赛中赛后的全过程零安全事件 历经4年构建了严密的纵深防护体系( 应用、网络、主机、蜜罐、综合分析、预警 、架构设计),赛前主动解决产品稳定性风险;推动WAF接入率到达 97% 以上,实现高防和云安全中心100%覆盖率,默认重保模式,修复安全漏洞,大型国家级攻防验证10+,梳理应急预案30+,确保赛前风险最小化。 蜜罐捕获请求数千次,恶意请求拦截超千万次,云安全中心告警及处理超千次,封禁大量恶意IP,联合网信办、冬奥组委会处置、同步威胁情报。 整体默认安全架构设计,默认deny策略,尽早发现安全防护的缺陷,通过服务弥补产品不足 多轮125项的全面风评,赛前完成安全加固,经过N次内外部的攻防演练验证安全防护水位 组委、三方厂商之间明晰责任模型,确认底线并且形成文档,明确自身防守区域和权限范围 情报协同与应急预案:协同IOC,网信办,三方厂商的安全信息,以便及时响应并对外发声 云上冬奥保障工具平台支撑 数十个云上系统的数百个关键指标的全景观测、告警,问题诊断与快速恢复 智能诊断平台冬奥实践 从云上冬奥到大型活动保障 云上大型活动挑战 涉及多业务承压运行和调度,带来系统复杂度和内部组织协同复杂度 短时间达到TB级别数据交换和处理,对大数据处理能力要求高 云上大型活动保障策略 大型活动案例 目录 多角度洞察运维痛点企业演进过程中运维解决之道阿里集团用云最佳实践企业运维平台的未来 运维平台的发展趋势 企业围绕应用、云服务、云平台、基础设施构建可观测、可自动化智能化运维全新的云运营、云工具策略和云运维模式成为必然趋势. GTS服务介绍 阿里云GTS部门(Global Technical Service) 通过多种服务方案组合帮助您在企业数字化转型全生命周期中实现业务成功 •电商容灾方案设计•安全托管专家服务•中国出海网络解决方案•培训认证方案 •云网络专家服务•安全加固专家服务•数据类专家服务(数据库/大数据)•CDN直播点播专家服务 •数据库迁移•云原生迁移改造•数据中台建设•大数据平台建设