您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [阿里巴巴]:Agentic Ops已来:企业级多智能体可观测性运维实践 - 发现报告

Agentic Ops已来:企业级多智能体可观测性运维实践

2026-05-29 阿里巴巴 健康🧧
报告封面

2026/05/29 实践复盘:可观测与智能运维的现状与挑战 潘胜美 阿里云可观测解决方案架构师 可观测与智能运维的现状与挑战 潘胜美阿里云可观测解决方案架构师 难在人工·破在智能 01 谁来接住运维的疲惫? 目录 现状盘点 02 运维之痛:看得见的数字,看不见的根源 Contents 从救火到智控可观测的下一站是智能 03 企业智能运维的挑战与破局我们的答案是什么? 04 难在人工·破在智能 谁来接住运维的疲惫? 现状盘点 运维之痛:看得见的数字,看不见的根源 传统IT运维方案面临的挑战 面对业务数字化与AI应用爆发,传统运维体系在多个维度承受压力 70%精力消耗于工具 15,000+ MTTR平均数小时以上 12+ 套监控平台 条告警/天 告警事件过载 工具碎片化 缺乏预防手段 数据孤岛 指标/日志/链路/事件/变更分属不同系统跨域关联靠人脑 事后救火而非事前预防影响用户后才发现 超85%为无效告警 多套账号、多套查询语法维护工具而非业务 核心矛盾:运维复杂度随云原生指数级增长,但运维人力和经验无法同步扩展——98%的企业认为技术栈复杂度持续上升 三大共性卡点:表象不同,根源相通 现状的所有痛点,都可以归到这三个核心问题上 数据孤岛 工具割裂 经验流失 指标/日志/链路/事件/变更/拓扑各自存储,跨域关联靠人脑 排障靠「老师傅」,文档过时、脚本散落、知识无法被机器消费 n+套工具,每套独立账号、独立查询语法、独立交互范式 ▎AI想理解系统?先得有一张能拼起来的「地图」 ▎人一走,能力清零;新人接手,重新踩坑 ▎切换成本是隐性税,也是新人最大的劝退点 从救火到智控可观测的下一站是智能 业务数字化与AI应用爆发带来的趋势 从运维视角看,数字化与AI浪潮正在重塑运维的底层逻辑 告警处置全流程:每个环节都在「漏血」 拆开任意一次故障的处置链路,几乎在每个环节都有可观测到的损耗 复盘沉淀 认领派单 结果:MTTR平均数小时以上 故障一旦发生→多人会议→多平台拉数据→凭经验猜测→反复试错→用户已经骂上了 海恩法则与智能运维的大能力 每1次严重事故背后,必然有300起先兆和1000起隐患——海恩法则 智能告警响应中枢全链路降噪,OnCall精准通知,统一管理 AI异常巡检,从1000起隐患中主动发现风险 企业智能运维的挑战与破局我们的答案是什么? 下一代运维方案:理想态是什么? 从痛点反推,智能运维平台应当具备的四个核心能力 降低噪声 零门槛交互 数据融合 防范未然 打通可观测数据,融合分析 主动巡检,智能预警 ✓智能收敛与去重✓根因关联,精准通知✓告警分级与自动分派 ✓自然语言查询✓开箱即用,易扩展✓AI辅助分析与洞察 自建SREAgent会遇到的问题 Agent幻觉严重 效果很难验证 数据平台能力不足 •根因分析(RCA)准确性如何评估?•Agent优化方向如何判断?•优化后是否有提升?提升多少? •可观测数据不完整•Agent查询并发指数级增加•是否提供有效数据裁剪压缩能力•接口设计是否AI友好,不浪费token消耗 •模型不懂业务•不理解应用架构•无法准确还原故障现场 STAROps三大产品模块 智能助手负责即时交互与临时应急,长期任务负责持续值守与自主运维,数字员工则作为承载前两者能力的定制化角色容器。三者共享云监控2.0统一数据底座和Umodel拓扑,共享权限体系,协同覆盖从"临时应急"到"持续自治"的完整运维谱系。 智能助手 长期任务 数字员工 Digital SRE AI Assistant Long-horizon Agentic Ops "随叫随到的AI顾问"有问题直接问,秒出答案,不用自己查系统 "永不下班的AI值班员" 7×24小时自动盯着系统,发现风险主动处理 "专属定制的AI运维专家"按你的业务配置,只看它该看的数据,只做它该做的事 7×24持续闭环的主动自治模式。一次目标设定与对齐,智能体自主拆解、执行、验证。 自然语言对话式运维,所问即所得。快速完成数据查询、根因定位、日志分析及故障解读。 企业专属的自定义运维智能体。配置专属数据权限、技能、MCP连接和行为准则。 可观测数据平台 Umodel SLS/云监控2.0 THANKS UModel跨域数据引擎:破数据孤岛,构建运维全图景数据地图 隰宗正 阿里云可观测技术专家 UModel跨域数据引擎 隰宗正 阿里云可观测技术专家 大模型时代带来全新的应用形态和运维模式 大量AI应用场景涌现,叠加可观测与AI的结合,新一轮可观测变革正在发生 Agent演化即将突破的临界点 大模型时代的AIOps面临的认知难题 运维领域的语义鸿沟 系统拓扑的认知迷宫 根因分析的逻辑断链 认知如何弥合通用大模型与运维领域知识的鸿沟? 引入统一模型(UModel) 构建更易于大模型理解的“数字孪生”世界 基于统一模型(UModel)重构可观测数据 示例:UModel探索与全局实体拓扑 示例:基于实体拓扑的问题排查 UModel以图为中心的建模概念 可观测实体集合的定义,一个EntitySet定义一类实体资源,EntitySet有对应的主键、属性、状态等信息,主键用于唯一标识一个实体。 : EntitySet之间的关联关系,有多种调用类型,例如“服务于”、“调用”、“包含”、“属于”、“运行在”、“与……相同”等类型。具体案例:主机包含进程。K8s Deployment管理K8s Pod。Trace服务调用Trace服务。 可观测数据的通用表示,只需要一个最基础的time字段。 数据之间的关联关系,例如EntitySet和各类LogSet/MetricSet/TraceSet之间产生的关联关系。 日志的定义,需要关联至少一个EntitySet。 指标集合的定义e,一个MetricSet下包含多个Metric(指标),需要关联至少一个EntitySet。 建模抽象与具体存储之间的关联关系,例如EntitySet/LogSet/MetricSet/TraceSet/EventSet都可能关联到一个存储。 相比日志,增加TraceID、SpanID这2个通用字段。 扩展出的对于目标存储的抽象定义 UModel架构全景 UModel应用示例 EntityStore整体架构 UModel–图存储与查询 图逻辑模型 (SELECT person,1 AS level FROM tree WHERE person='Thurimbert'UNION ALLSELECTt.person, d.level+1 FROM descendants d, tree t WHERE t. parent=d.person)SELECT*FROM descendants ORDER BY level; MATCHpath=(n:Person{name:‘Thurimbert’})-[*BFS]->()RETURN path; MATCH(p:Person)-[:HAS_SKILL]->(s:Skill{name:"Python"})MATCH(p)-[:FRIEND_WITH]->(friend:Person)-[:HAS_SKILL]->(fs:Skill{name:"Data Analysis"})RETURNp.name AS Python_Expert,friend.name AS Analyst_Friend UModel–数据融合查询 获取日志中存在报错的IP的某个指标,并对这些IP的指标进行异常检测 .lethosts=.logstore with(logstore='test',query='error')|distinct ip|project ip.promql with(query='memory_usage{}')|where labels.up=$hosts.ip|series_anomaly_detect 接收到某个告警事件,查询对应实体跳数5之内实体的事件 .letabnormalEntity=.event with(query='alertType="PodOOM"')|project domain,type,entity_id.letrelated_entity=.topo|graph-call getNeighborNodes('sequence',5)|where__src_entity_id__=$entity.entity_id and__src_entity_type__=$entity.type and__src_entity_domain__=$entity.domain.event|where entity_id=$related_entity.__entity_id__and domain=$related_entity.__domain__andentity_type=$related_entity.__entity_type__ 从Metrics中实时提取出Entity(进程信息),和EntityStore一起构建Graph(进程所属主机),并和存储中的GraphUnion,执行Cypher Query(从进程找到关联的主机、从主机找到关联的EIP),并从EIP日志中查询出这个主机访问的外部IP .letprocess_infos=.promql with(query='ecs_cpu{}')|distinct labels.process|project labels.process.letnodes=.logstore with(logstore='test',query='* | project node_id=__entity_id__,node_type=__entity_type__') ;.letedges=.logstore with(logstore='test',query='* and 172.16.20.9 | project src_id,dest_id,src_type, UModelPaaS数据模型 UModelPaaS示例 Tabular模式示例 .metric_set with(domain='rum',name='rum.metric.api',source='metrics',metric='api_request_duration',step='5m',aggregate_labels=['api_name', 'status_code']) .logstore with(project='sls-project',logstore='logstore-rum',query='request_type:api-call')| extend __ts__ =second_to_nano(__time__-__time__ % 300)| stats __value__=avg(duration) by__ts__,api_name,status_code| make-series__value__default= 'last'on __ts__ from 'min' to 'max' step '5m' by api_name,status_code| extend__labels__=MAP(ARRAY['api_name', 'status_code'], ARRAY[api_name,status_code])| project__labels__, __ts__, __value__ 面向对象调用 .entity_set with(domain='域名',name='实体名称', [其他参数]) |ent