云治理企业成熟度发展2025年度报告 埃森哲为本报告提供智库支持 PREFACE前言 自2023年起,阿里云与埃森哲联合发布云治理企业成熟度发展报告,对企业用云发展路径与企业云治理发展趋势进行持续洞察。2025年,我们将关注AI浪潮下的企业云治理新范式。 今年,我们调研了353家企业客户,覆盖互联网、金融、新零售、交通等多个行业。本篇报告,结合埃森哲云上咨询理论知识和实践经验,以及阿里云用户调研、产品体验反馈、标杆客户案例,基于充分的论证支撑,提炼出鲜明的观点。问卷反馈者在企业内部的岗位角色主要为运维负责人、系统架构工程师、技术研发人员等,均属于云治理职责范畴内的核心目标人群,对企业在云上资源的使用有充分了解,因此调研结果具有代表性。 在本报告中,我们将在核心结论部分展示本次调研报告的关键发现。之后,报告将帮助读者理解云治理的概念和企业用云实践的现状以及变迁趋势,并基于云治理框架的五大分类(即稳定性、安全合规、成本效益、高效性能、运营效率),对2024年~2025年两年间调研数据的差异进行详细解读。最后,我们将为读者展示如何基于云治理框架进行云上架构优化,为读者在后续云旅程中的持续治理提供参考借鉴。 在本份报告中,根据用户实际情况的调研和云产品使用深度反馈,我们将调研企业大致分为「云治理高成熟度」和「云治理低成熟度」两类。高成熟度企业在云治理各个领域(稳定性、安全合规、成本效益、高效性能、运营效率)的解决方案应用面,和产品功能使用深度上,综合计算得分更高。相比之下,低成熟度企业在云治理领域内的方案或产品功能实践均有欠缺,因此综合计算得分较低。 核心结论 02/CLOUD GOVERNANCE CONCEPTAND TREND INSIGHT 云治理概览与发展趋势洞察 03 / CLOUDGOVERNANCEJOURNEY 开启全面的智能化云治理旅程 客户案例 05 / 云治理未来展望 企业云治理正处于以资源整合与效率提升为核心的策略化阶段,并加速向以智能化驱动与价值化交付为标志的新纪元演进。 Cloud+AI治理:拥抱与风险的双轨并行 97%97%的高成熟度企业表现出AI上云的意愿。 企业对AI上云的拥抱意愿呈现“全层级共识”特征——96.6%的高成熟度企业、88.5%的低成熟度企业均表达了坚决的拥抱态度。但在落地过程中,数据主权归属、系统稳定性保障、安全合规适配等衍生风险维度,成为企业普遍的顾虑焦点,需构建“技术应用+风险防御”的双轨治理体系。 容灾治理:成熟度差异下的能力鸿沟 14%仅有14%的低成熟度企业的云资源部署采用了多可用区架构。 低成熟度企业在容灾治理上存在显著短板,仅有14.3%的低成熟度企业的云资源部署采用了多可用区架构,而高成熟度企业这一比例为51.3%。这一现状反映出低成熟度企业在稳定性体系建设上存在明显滞后。构建多可用区的分布式能力,不仅能够有效应对基础设施层故障,更为AI业务的稳定运行提供了至关重要的架构保障。低成熟度企业需重点推进多可用区架构建设,从“被动应对”转向主动防御”的全链路容灾治理。 三、安全治理:身份与数据的优先级分化 身份安全:仍是全层级企业云安全治理的“最高关注度维度”,高成熟度企业采用STS(SecurityTokenService)方案的比例从17%提升至22%,体现身份治理的精细化趋势。数据安全:低成熟度企业存在严重风险口,77.3%的企业数据库允许公网IP直接访问,这类高危配置需通过“最小权限原则+网络隔离策略”快速整改。 22%高成熟度企业采用STS方案的比例从17%提升至22%。 四、成本治理:从粗放控制到价值驱动 高成熟度企业的云成本治理呈现“理性化、多维化”特征:随着云治理成熟度提升,企业对“云与AI赋能业务的价值”更易量化、更具笃定感,因此成本控制从“单纯降本”转向“价值导向的理性治理”。这一转变直接反映在预算意愿上一高成熟度企业维持或增加云上预算的比例从47%提升至57%。 57%高成熟度企业维持或增加云上预算的比例从47%提升至57%。 五、资源治理:标准化进阶与自动化滞后 基础资源管理:资源标签、资源分组等标准化管理动作的覆盖率大幅提升,成为企业云资源治理的“标配能力”。高成熟度企业的资源标签覆盖率已达82%,资源分组率达到62.8%。而低成熟度企业也从11.6%跃升至55.6%,资源分组率从23.5%提升至53.4%。 82%高成熟度企业的资源标签覆盖率已达82%。 自动化水平:仍处于较低水位,调研显示,62%的企业在创建云资源时仍把“控制台手工操作”作为首选;即便在高成熟度企业中,这一比例也高达66.8%。需进一步加强laC成熟度建设(基 综上,企业云治理需围绕“AI风险平衡、容灾分层建设、安全重点突破、成本价值导向、资源自动化升级”五大维度,构建适配自身成熟度的治理体系,才能在云治理新纪元中实现效率与价值的双重进阶。 云治理概览与发展趋势洞察 CLOUD GOVERNANCECONCEPTANDTRENDNSIGHT Gartner指出:预计到2028年,全球25%的企业将因期望过高、实施不当与成本失控等问题对云技术应用产生显著不满;然而技术前进的脚步从未停歇一一到2029年,与AI相关的云工作负载预计将实现五倍增长。这说明企业依然需要采用精细化的策略进行云治理。与此同时,需要关注AI时代下的云治理新路径。即企业用云处于以资源整合与效率提升为核心的“策略化”阶段,但正在迈向以“智能化”与"价值化”为标志的新纪元。在这一进程中,智能化意味着AI技术与云基础设施的深度融合,正成为驱动业务创新的核心引擎;而价值化则体现在云服务模式的持续深化与专业化,例如通过行业云、多云/混合云等形态,为企业提供更贴近业务场景的解决方案。与此同时,云计算在企业IT体系中的角色也已发生根本性转变-一它正从单一的资源池,演进为支撑企业整体战略、助力其专注于业务创新与价值创造不可或缺的技术基石。面对这一趋势,企业需更加注重在价值创造、成本效益、安全合规与技术前瞻性之间寻求最佳平衡。 Cloud+AI治理成为新时代应用的核心命题 人工智能技术进入体系化突破新阶段,推动软件工程向智能化演进。大语言模型(LLM)重塑软件开发模式,生成式AI推动人机协同开发成为主流;与此同时,对Al信任、风险与安全管理(TRiSM)的需求愈发迫切,模型运维(ModelOps)、智能体运维(AgentOps)AI安全与模型监控正成为企业治理架构中的关注重点。 中国在人工智能技术研究和产业应用方面持续增长,相关企业数量和产业规模快速扩大,发展势头强劲。随着行业智能化转型深入,不同行业的差异化需求涌现,对AI算力、平台、算法模型和行业解决方案的技术治理、标准治理、生态治理提出了更精细的要求。 然而,AI应用在大规模落地时,云治理(CloudGovernance)层面的挑战尤为突出: 数据治理挑战 数据依赖度高,高质量数据供给难度大,数据漂移可能导致模型性能退化,考验企业数据全生命周期治理能力。超过50%的企业将数据主权风险列为首要关切。 模型治理挑战 模型迭代复杂,生命周期涵盖训练、验证、部署、监控与回滚,迭代过程对系统稳定性要求高,需构建模型治理闭环机制。34.6%的高成熟度企业期望将AI能力应用于风险监控,定期扫描环境配置漏洞与性能瓶颈,而低成熟度企业也有30.4%。 资源治理挑战 资源需求波动大,训练阶段计算资源消耗巨大,推理阶段需低延迟与稳定性,增加了成本与扩展难度,倒逼企业优化资源治理与成本管控体系。56.8%的低成熟度企业将成本优化作为首要AI应用方向,30.7%的高成熟度企业担忧成本不可控风险。 标准与技术治理挑战 AI场景下缺乏成熟的监控、可观测性与运维机制,行业内最佳实践尚未形成统一标准,需推动技术治理与行业标准共建。目前,高成熟度企业变更影响预测等深度应用采纳率偏低,仅11.2%。 安全与合规治理挑战 数据隐私保护、算法偏见、模型攻击与可解释性要求日益突出,企业需强化AI安全治理与合规遵从能力。35.1%的企业关注合规法律风险。 成本与收益治理平衡 持续监控、多模型管理和跨团队协作带来高昂成本,创新速度与风险控制需要兼顾,需建立投入产出的治理决策框架。高成熟度企业中有42.4%优先推进成本优化,同时47.8%关注AI服务自身故障引发的系统稳定性风险。 名词解释 成本优化--AI自动分析资源使用(如云账单/服务器能耗),识别浪费资源并给出优化建议风险巡检一-AI持续扫描云环境配置漏洞、安全弱点和性能瓶颈,定期给出风险报告。故障根因诊断--AI实时分析海量日志/监控数据,自动定位应用或基础设施故障的根本原因,缩短MTTR智能容量规划-一AI预测业务增长需求(如计算/存储/网络资源),动态推荐扩容节点与时机,避免资源不足或浪费变更影响预判-一AI在配置/应用变更前模拟影响,预测性能波动或失败概率,降低线上事故率智能诊断自动化--AI自动诊断高频运维问题(如网络抖动、服务超时),并执行预设修复动作数据主权风险--AI处理运维数据时泄露敏感信息(如日志中的客户数据、业务代码)合规与法律风险--AI决策违反数据保护法规,或生成内容引发法律纠纷成本不可控风险-隐性成本爆炸(模型训练/存储/推理消耗)远超初期预算系统稳定性风险--AI服务自身故障引发运维系统雪崩,或限流失效导致资源耗尽决策黑盒风险--无法解释AI的运维决策(如扩容建议/故障定位)衍生风险--包括模型偏见放大误判、过度依赖AI导致团队能力退化 Well-Architected Framework五大支柱面问领导者的关键洞察 域数据流动),这要求企业将安全从“数据全生命周期合规”升级为“可信AI治理体系”。 需将“AI可信性”纳入企业战略治理层,建立覆盖“数据安全、模型可解释性、输出可控性”的全链路治理机制,这不仅是合规要求,更是赢得用户信任、规避业务风险的核心竞争力。 领导者洞察 从“系统可用”到“面向AI失效的韧性架构”。大模型训练/推理任务周期长、规模大,单点故障可能引发重大损失。 巫稳定 要以“业务连续性”为核心,推动架构具备“面向失败的设计能力”,构建全链路容灾方案与多层级可观测体系,将AI系统的稳定性转化为业务持续创新的基石。 领导者洞察 从“开发选代”到“AI 全周期闭环运维”。生成式 AI 选代速度远超传统软件,企业需从“单一开发效率转向“多模型协同、灰度发布、持续监控的闭环运维效率" 效率 效率的本质是“"AI价值交付速度”,需重构运维模式,打造从开发到上线的自动化闭环能力,让技术选代速度匹配业务创新需求。 领导者洞察 成本从“资源消耗”到“算力精益治理”。GPU高性能算力需求突出,资源浪费或成本失控风险极高。 成本管理需上升为“算力精益治理战略”,通过弹性调度、算力池化、混合精度计算等手段,在“性能体验”与“成本可控”间找到平衡,实现长期投入的ROI最大化。 领导者洞察 从“系统响应”到“端到端AI价值交付”。模型规模扩张倒逼存储I/O、网络带宽、推理延迟等性能极限升级。 性能 性能优化的目标是“用户体验与业务价值的双交付”,需布局分布式训练、推理加速引擎、边缘侧优化等技术,让技术性能转化为业务场景的价值增量(如用户留存、交易转化)。 领导者洞察 综上,对企业领导者而言,生成式AI的五大支柱已不是孤立的技术维度,而是“业务价值-技术治理-风险控制的战略融合点。需以“治理型架构思维”统领五大支柱,将其转化为企业在生成式AI时代的核心竞争壁垒。 开启全面的智能化云治理旅程 CLOUDGOVERNANCEIOURNEY 企业云治理优先级呈现新格局 调研数据显示,2025年企业云治理优先级呈现显著变化:稳定性与成本效益以27.6%的被关注度并列首位。稳定性优先级的持续被关注,体现了企业对业务连续性的深度重视;而成本效益被关注度的大幅增长,则彰显了在复杂经济环境下对