您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [阿里巴巴]:Agent 生产落地基石 可观测透视 + 评估飞轮的一体化建设实践 - 发现报告

Agent 生产落地基石 可观测透视 + 评估飞轮的一体化建设实践

建筑建材 2026-06-03 阿里巴巴 LLLL
报告封面

蔡健-阿里云可观测团队 01Agent应用从原型到生产遇到的三大痛点 02Agent可观测体系生产落地实践 目录 03Agent评估体系搭建与闭环优化 04阿里云内部落地实践案例 05实践反思与未来探索 Agent应用从原型到生产遇到的三大痛点 Agentic应用演进趋势 Agent技术迭代加快,应用复杂度也大幅提升 Agent典型核心架构 Agent从原型到生产可用还有多远? 随着LLM推理成本的持续下降,成本开销已不再是主要矛盾。 质量是首要障碍 32%的受访者将输出质量列为首要障碍。问题面覆盖内容的准确性与可溯源性、格式化输出的稳定性,以及Agent能否稳定维持预设的专业人设与交互风格等。 延迟成为新瓶颈 随着Agent走向客服等实时交互场景,用户无法容忍漫长的“思考中…”,生产环境首Token体验问题更加凸显。 安全与一致性 Agent运行态,规避并解决上下文越权问题、数据泄露,以及模型输出幻觉,是比写代码更难的系统工程。 Agentic应用痛点-断言失效,确定性工具箱失灵 模型幻觉问题&指令失准任务规划执行存在偏差工具数量多选择不正确多Agent沟通协作困难 模型上下文窗口限制长任务状态维持困难长期对话记忆丢失错乱记忆超长导致关注稀疏 执行控制流管理复杂陷入死循环无法自主恢复缺乏任务结束关键信号导致Token消耗黑洞 语义黑盒的数据迷雾相同输入可能不同输出误差累积造成结果偏差缺乏显性的失败信号 静默失败灾难 状态管理混乱 异常恢复缺位 推理链路不固定 Agentic应用痛点-观测盲区,传统观测无法覆盖 Agentic应用痛点-质量漂移,传统质量手段失效 缺乏量化的质量基线基准 新功能发布破坏已有能力 ➢测试覆盖不足➢缺乏集成回归➢版本管理混乱➢评估维度单一 ➢无统一评估标准➢无性能基线➢评测数据缺失➢依赖主观判断 线上效果无有效反馈机制 质量随时间退化而不自知 ➢用户反馈收集低效➢业务指标关联缺失➢数据闭环未形成➢监控粒度粗糙 ➢无持续监控➢数据分布漂移➢缺乏回归测试➢评估反馈滞后 Agent可观测体系生产落地实践 AgentRuntime-数据采集面临的新挑战 Langchain、Dify、Spring AI等Agent应用框架碎片化&更新快 TTFT、TPOT、SSE流式输出、对话轮次更多维度的性能指标采集 Token消耗、文本、图片、音频、视频新的数据采集目标 LoongSuite-GenAI时代的数据采集套件 LoongSuite-更符合Agentic推理需求的数据采集 <按需采集>输入输出内容 <客户端&服务端>Token 覆盖Tool、RAG等核心操作 凸显入口节点&轮次推理 支持捕获用户&会话ID 多模态可观测:LoongSuite采集打破“文本系统”的枷锁 运行时的多模态数据不仅是石油,更是支撑AI持续进化的“燃料”。 解决方案:✓LoongSuite多模态异步采集&全栈多模态认知观测底座 AI应用全链路透视-不止于Agent观测 AI应用可观测-基于Umodel的领域化观测拓扑(1/2) AI应用可观测-基于Umodel的领域化观测拓扑(2/2) 从微服务时代的应用为中心过渡为AI时代Agent为中心 OpenClaw热潮下:AI应用可观测让养虾更高效 enter_openclaw_system(请求入口:谁发的、从哪来的)└── invoke_agent main(Agent执行过程)├── chat qwen3-235b(LLM调用#1:理解需求+规划) ├── execute_tool search(工具调用:搜索项目文档)├── chat qwen3-235b(LLM调用#2:分析搜索结果)├── execute_tool read_file(工具调用:读取源文件)├── chat qwen3-235b(LLM调用#3:分析代码结构)├── execute_tool search_codebase(工具调用:语义搜索代码)├── chat qwen3-235b(LLM调用#4:生成实现方案)├── execute_tool exec(工具调用:执行代码修改)├── chat qwen3-235b(LLM调用#5:验证修改结果)└── execute_tool run_test(工具调用:运行测试验证) 看得见每一步、看得清细节、算得清成本 ➢多轮LLM分段:真实还原LLM-> TOOL-> LLM-> ...➢扩展Step Span语义:让“第几轮”可观测➢并发稳定性增强:断链/串链显著降低➢三类核心指标的计算方式全面升级 对用户的直接价值:不只是“更细”,而是“更能解决问题” Agent评估体系搭建与闭环优化 质量范式转变:从验证输出到验证过程 ➢传统软件测试"vs "Agent测试 结 果 的 不 确 定 性 : 传 统 的 测 试 基 于 确 定 性 逻 辑(输 入A->返 回B ),而A I A g e n t的输 出 具 有 概 率 性 和 创 造 性 无 限 的 测 试 空 间 : 传 统 测 试 用 例 可 控 , 关 注 准 确 率 ;A g e n t输 入 是 自 然 语 言 , 它的 组 合 空 间 几 乎 是 无 限 的 。2 随 时 间 退 化 的 质 量 : 传 统 测 试 质 量 相 对 稳 定 ;A g e n t依 赖 的L L M可 能 被 供 应 商静 默 更 新 ,R A G引 用 的 知 识 库 在 持 续 变 化 、 外 部 因 素 影 响 等3 ➢从测试到评估 任务完成度 推理逻辑及效率 单 元 测 试->单 步 决 策 验证 集 成 测 试->单 轮 评 估 成本性能权衡 工具使用质量 端 到 端 测 试->多轮对 话评估 回 归 测 试->评 估 套 件 从链路到轨迹-可观测成为评估基座 可观测性不再只是运维稳定性排查工具,而是Agent智能化演进的核心基础设施。 混合评估:代码、模型与人的三维协同机制(1/2) 实践模式:漏斗式过滤,自动评估初筛→失败/边界案例→人工审核。 混合评估:代码、模型与人的三维协同机制(2/2) 评估自动化——Agent防止"智力退化"的关键先生 门禁不是为了阻止发布,而是为了确保每次发布都是安全的。好的门禁让团队敢于快速迭代。 Skills调优评估——从静态审查到评估闭环优化 ➢静态审查报告+动态评分作为诊断输入,分三步完成修复计划生成、代码修改、回归验证 角色:资深AI Agent Skill优化专家输入仅诊断数据(不含原始代码),基于静态审查多个维度问题+动态测试失败用例,生成结构化修复计划输出: { diffs: [{fileName, changeDescription}], summary } 根据S1的修复计划,读取原始SkillAsset源文件,逐文件执行修改。修改范围严格限定在计划声明的文件和变更描述内输出:修改后的SkillAsset 使用相同的TestCase集合,在沙盒中重新执行优化后的Skill,通过GradingReport对比优化前后评分,量化验证改进效果 从日志到样本:AgentLoop Pipeline驱动精炼高质量样本 有日志≠有样本,将昂贵算力集中在最具价值的样本上。 AgentLoop架构-观测数据驱动+自动化评估工程体系 持续评估,加速闭环,形成飞轮效应 将评估嵌入"开发→测试→上线→运维"全生命周期。 全 链 路 观 测 回 归/引 流/生 产 可 观 测 能 力 支 持 多 维 度 性能 分 析 、 执 行 轨 迹 还 原 、异 常 检 测 、 问 题 智 能 诊 断 安 全 的 验 证 空 间 和 机 制 , 双模 发 布 策 略 , 构 建 全 量 数 据无 损 数 据 采 集 , 覆 盖A g e n t交 互 全 链 路 效 果 反 馈 优 化实 验 驱 动 迭 代 , 数 据 支 撑 每一 次 改 进 在 离 线 评 估 覆 盖 各 类 评 估 指 标 , 自 动 化质 量 评 分 , 量 化A g e n t表 现 案例分享:阿里云内部落地实践案例 OpenClaw任务老翻车?评估帮你找原因 以"预定会议室",执行结果不符合预期为例 创建评估任务 评估策略 选择评估器 评估运行 查看结果 分析原因 仿真-观测-评估驱动的VibeOps Agent调优飞轮 Data Agent调优-构建Benchmark持续评估体系 分层评估策略:规则层(快速过滤)→分域层(精细化评估)→语义层(兜底判断)→人工层(可信校准) 数值/时序类 工具链/结构类 语义/回答质量类 适用:指标查询 适用:Trace查询、日志/事件 关键验证:•是否调用预期工具•是否生成合理查询语句•工具链与意图匹配度 • Coverage(覆盖率)• Point Pass(逐点通过率)• Pearson(趋势相关性)• NRMSE(归一化误差) 实践反思与未来探索 挑战与展望 Agent复杂性挑战 评估冷启动问题 一个全新的Agent,缺乏数据集,初期不具备评估能力,评估模板和评估维度的配置还需要人工设计,如何突破该层限制并降低门槛? 随着Agent架构从单体走向多Agent协作越来越普遍,SKILL也大行其道,从链路交互到数据规模,可观测的挑战又上了一个台阶 需 要 持 续 推 进O p e n T e l e m e t r y社 区 建 立A I领 域的 语 义 规 范 , 覆 盖 更 多 场 景 , 满 足 数 据 格 式 标 准化 以 及 高 质 量 , 降 低 用 户 接 入 使 用 成 本 Agent能力和复杂性在持续提升,评估能力如何进化才能满足?如何降低评估成本,提升评估效率、解决长上下文评估等问题 内容总结 Agent的生产落地没有捷径,探索实践并持续迭代 Agent生产落地,可观测和评估是基石而非锦上添花 可观测必须针对Agent的原生特性来设计 评估体系要分层建设、混合方法、全生命周期嵌入 Agent进化的飞轮先跑起来,每一轮产生效果,越跑越快。 THANKS 大模型正在重新定义软件 Large Language Model Is Redefining TheSoftware AIOps Agent在运维RCA场景的研发范式与数据飞轮实践 马云雷 01AIOps业务场景介绍 02UModel:构建数字孪生的世界模型 03Benchmark:建立进化的基线 目录 04AgentLoop:从运行时数据到Agent可靠性飞轮 AIOps业务场景介绍 AIOps发展历史和现状 AIOps1.0–算法驱动时代(2018-2023) 算法驱动时代:•核心方案:基于统计/ML算法/CNN模型 Agentic时代:核心方案:Agentic方式驱动探索与推理典型能力:异构数据自主理解、按需读取上下文核心进化:从单点算法走向全局系统化工程 •典型能力:时序预测/异常检测/根因分析•致命痛点:泛化能力差(单点能力,换场景即失效) 自研Agentic AI:多智能体协同与知识融合推理 AI-Native研发范式下的三类挑战与解法 挑战1:上下文不完整-> UModel 让Agent读到异构上下文:Log / Trace / Metric /配置/拓扑/知识;把碎片化数据统一为可检索、可推理的世界模型。 传统研发范式 路径确定测试覆盖率可以做到足够高线上SLA相对有保障 挑战2:质量不可度量-> Benchmark 建立可测、可复现、可对比的任务与指标;用离线评测和在线观测持续衡量真实质量。 挑战3:迭代不可持续-> AgentLoop