登录
注册
回到首页
AI
搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
稀土
低空经济
DeepSeek
AIGC
智能驾驶
大模型
当前位置:首页
/
行业研究
/
报告详情
数字化安全生产平台DPS重磅发布,助力传统运维向SRE转型 - 周洋
信息技术
2022-11-08
2022 杭州·云栖大会
M***
AI智能总结
查看更多
数字化安全生产平台DPS发布总结
01 安全生产的理念和价值
安全生产理念
:为提升生产系统业务连续性、灾难恢复能力,建设高可用架构系统和SRE型运维团队而采取的一系列措施和活动。
核心方法论
:可用性(99.99X%)、灾难恢复(RTO<30s,RPO≈0)、组织效能(1-5-10牵引指标)。
关键指标
:可用性改进、可靠发布效能提升、故障管理、应急处理演练验收。
02 数字化安全生产平台(DPS)发布
场景一:分布式系统面临稳定性保障新挑战
问题
:技术不恰当使用、人为操作失误、硬件故障、自然灾害、安全攻击仍导致重大故障。
案例
:韩国数据中心火灾、证券IDC故障、社交平台配置变更故障等,影响巨大。
技术挑战
:全链路压测、分布式应用服务、云原生DevOps持续交付、容器微服务等。
场景二:政策引导IT系统稳定性建设平稳推进
政策背景
:数字化转型推动“国民级应用”诞生,用户群体广、业务迭代快、故障影响大。
应用场景
:数字政府、数字防疫、新零售、金融互联网银行、智能风控等。
场景三:传统运维手段已无法满足要求
SRE理念
:通过软件管理系统,自动化完成操作工作。
PlatformOps理念
:将基础设施、运维、云管理纳入统一规划,推动IT架构持续演进。
安全生产新解释
:提升业务连续性、灾难恢复能力,建设高可用架构系统和SRE型运维团队。
数字化安全生产平台是什么?
定位
:一站式管控SRE运维平台,浓缩阿里巴巴十年运维经验。
目标
:保障业务连续性,支持业务场景如医保数字化防疫、金融核心系统上云、新零售大促保障等。
核心能力
:故障快恢(1-5-10)、变更管控(可灰度、可回滚、可观测)。
数字化安全生产平台的亮点
场景一:“1-5-10”故障快恢
目标
:提升故障1分钟发现,5分钟响应&定位,10分钟恢复能力。
产品能力
:业务场景梳理、故障结构化定义、智能告警、故障通告、快恢能力建设。
应急协同
:CHATOPS业务初因定位、应用根因定位、快恢系统集成、快恢预案编排。
监控指标
:门户数据报表、故障报表、事件报表、团队报表、人员评价、重大故障收敛、无重大故障时长(MTBF,MTTR)、业务可用性指标(SLO,SLI)。
场景二:“变更三板斧”故障预防
目标
:业务全方位变更管控,可灰度、可回滚、可观测。
产品能力
:变更系统监控中心、快恢中心、应用发布、应用回滚、配置变更、数据库操作、实例操作、网络变更等。
智能风控
:观测稳态度量引擎、灰度分批强管控、变更影响面感知及预案关联、可疑变更推荐。
变更审批
:自定义审批流、一键审批、自动化免批审批策略定义、审批流可审计。
数字化管理流程
故障概况
:业务全局健康度、子业务问题、历史故障趋势。
应急值班
:实时了解当前应急值班人员繁忙度。
实时监测
:监控预警、变更实时播报。
云原生平台架构
架构组件
:开发者DPS POD、Custom Resource、Recovery Product、Alert Product、Monitor Product、Change Product、Operator Product、Product Pod、MSHA POD、EDAS POD、ECS POD、自定义POD修改、DPS Cluster Controller、Gateway Console、Alert Monitor、MSHA API管理、阿里云Product Controller、Instance Controller、Job Controller。
支持环境
:阿里云、异构云、自建IDC、DAS三方系统、ACOS。
你可能感兴趣
数字化安全生产平台 DPS 重磅发布
信息技术
阿里巴巴
2023-01-12
构建移动应用安全防护体系,助力油气行业数字化转型
未知机构
2021-05-20
【天风商社】阿尔特:SOA开发者平台正式上线,助力汽车数字化,发布股份回购,看好
未知机构
2022-08-10
构筑产业互联 逐梦绿水青山:数字化商业平台助力石油化工企业实现数字化重塑转型
建筑建材
IBM
2022-04-22
大华股份(002236):2024年报点评:AIoT+数智平台助力城市数字化创新和企业数智化转型
华创证券
2025-03-31