行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

Agent 生产落地基石可观测透视 + 评估飞轮的一体化建设实践

建筑建材 2026-06-03 阿里巴巴 LLLL

Agent应用从原型到生产遇到的三大痛点

Agentic应用演进趋势：Agent技术迭代加快，应用复杂度提升。
Agent典型核心架构：涉及LLM、Tool、RAG等组件。
Agent从原型到生产可用还有多远？
- 成本不再是主要矛盾，质量成为首要障碍（32%受访者认为）。
- 延迟成为新瓶颈，用户无法容忍漫长的“思考中…”。
- 安全与一致性挑战，规避上下文越权、数据泄露、模型幻觉等问题。

Agentic应用痛点

断言失效，确定性工具箱失灵：
- 模型幻觉问题&指令失准。
- 任务规划执行存在偏差。
- 工具数量多选择不正确。
- 多Agent沟通协作困难。
状态管理混乱：
- 模型上下文窗口限制。
- 长任务状态维持困难。
- 长期对话记忆丢失错乱。
- 记忆超长导致关注稀疏。
异常恢复缺位：
- 执行控制流管理复杂。
- 沉入死循环无法自主恢复。
- 缺乏任务结束关键信号。
- 导致Token消耗黑洞。
推理链路不固定：
- 语义黑盒的数据迷雾。
- 相同输入可能不同输出。
- 误差累积造成结果偏差。
- 缺乏显性的失败信号。
静默失败灾难。

Agent可观测体系生产落地实践

AgentRuntime-数据采集面临的新挑战：
- 框架碎片化&更新快（Langchain、Dify、Spring AI等）。
- 多维度性能指标采集（TTFT、TPOT、SSE流式输出、对话轮次）。
- 新数据采集目标（Token消耗、文本、图片、音频、视频）。
LoongSuite-GenAI时代的数据采集套件：
- 更符合Agentic推理需求的数据采集。
- 按需采集输入输出内容。
- 客户端&服务端Token覆盖。
- 覆盖Tool、RAG等核心操作。
- 凸显入口节点&轮次推理。
- 支持捕获用户&会话ID。
多模态可观测：
- LoongSuite采集打破“文本系统”的枷锁。
- 运行时的多模态数据是AI持续进化的“燃料”。
AI应用全链路透视： -不止于Agent观测。
AI应用可观测-基于Umodel的领域化观测拓扑：
- 从微服务时代应用为中心过渡为AI时代Agent为中心。
OpenClaw热潮下：AI应用可观测让养虾更高效：
- 请求入口、Agent执行过程、LLM调用、工具调用等可视化。
- 看得见每一步、看得清细节、算得清成本。
- 多轮LLM分段、扩展Step Span语义、并发稳定性增强。
- 对用户的直接价值：不只是“更细”，而是“更能解决问题”。

Agent评估体系搭建与闭环优化

质量范式转变：从验证输出到验证过程：
- 传统软件测试 vs Agent测试：
  - 结果的不确定性。
  - 无限的测试空间。
  - 随时退化的质量。
- 从测试到评估：
  - 任务完成度。
  - 推理逻辑及效率。
  - 成本性能权衡。
  - 工具使用质量。
从链路到轨迹-可观测成为评估基座：
- 可观测性不再只是运维稳定性排查工具，而是Agent智能化演进的核心基础设施。
混合评估：代码、模型与人的三维协同机制：
- 漏斗式过滤，自动评估初筛→失败/边界案例→人工审核。
评估自动化：
- Agent防止"智力退化"的关键先生。
- 门禁确保每次发布都是安全的。
Skills调优评估：
- 从静态审查到评估闭环优化。
从日志到样本：AgentLoop Pipeline驱动精炼高质量样本：
- 有日志≠有样本，将昂贵算力集中在最具价值的样本上。
AgentLoop架构：
- 观测数据驱动+自动化评估工程体系。
- 持续评估，加速闭环，形成飞轮效应。
- 将评估嵌入"开发→测试→上线→运维"全生命周期。
- 全链路观测、回归/引流/生产、安全的验证空间和机制、效果反馈优化实验驱动迭代。

案例分享：阿里云内部落地实践案例

OpenClaw任务老翻车？评估帮你找原因：
- 创建评估任务、评估策略、选择评估器、评估运行、查看结果、分析原因。
仿真-观测-评估驱动的VibeOps Agent调优飞轮：
- 构建Benchmark持续评估体系。
分层评估策略：
- 规则层（快速过滤）→分域层（精细化评估）→语义层（兜底判断）→人工层（可信校准）。
数值/时序类、工具链/结构类、语义/回答质量类。

实践反思与未来探索

挑战与展望：
- Agent复杂性挑战。
- 评估冷启动问题。
- 需要持续推进OpenTelemetry社区建立AI领域的语义规范。
- Agent能力和复杂性在持续提升，评估能力如何进化才能满足？
- 如何降低评估成本，提升评估效率、解决长上下文评估等问题。

内容总结

Agent的生产落地没有捷径，探索实践并持续迭代。
Agent生产落地，可观测和评估是基石而非锦上添花。
可观测必须针对Agent的原生特性来设计。
评估体系要分层建设、混合方法、全生命周期嵌入。
Agent进化的飞轮先跑起来，每一轮产生效果，越跑越快。

蔡健-阿里云可观测团队 01Agent应用从原型到生产遇到的三大痛点 02Agent可观测体系生产落地实践目录 03Agent评估体系搭建与闭环优化 04阿里云内部落地实践案例 05实践反思与未来探索 Agent应用从原型到生产遇到的三大痛点 Agentic应用演进趋势 Agent技术迭代加快，应用复杂度也大幅提升 Agent典型核心架构 Agent从原型到生产可用还有多远？随着LLM推理成本的持续下降，成本开销已不再是主要矛盾。质量是首要障碍 32%的受访者将输出质量列为首要障碍。问题面覆盖内容的准确性与可溯源性、格式化输出的稳定性，以及Agent能否稳定维持预设的专业人设与交互风格等。延迟成为新瓶颈随着Agent走向客服等实时交互场景，用户无法容忍漫长的“思考中…”，生产环境首Token体验问题更加凸显。安全与一致性 Agent运行态，规避并解决上下文越权问题、数据泄露，以及模型输出幻觉，是比写代码更难的系统工程。 Agentic应用痛点-断言失效，确定性工具箱失灵 模型幻觉问题&指令失准任务规划执行存在偏差工具数量多选择不正确多Agent沟通协作困难 模型上下文窗口限制长任务状态维持困难长期对话记忆丢失错乱记忆超长导致关注稀疏 执行控制流管理复杂陷入死循环无法自主恢复缺乏任务结束关键信号导致Token消耗黑洞 语义黑盒的数据迷雾相同输入可能不同输出误差累积造成结果偏差缺乏显性的失败信号静默失败灾难状态管理混乱异常恢复缺位推理链路不固定 Agentic应用痛点-观测盲区，传统观测无法覆盖 Agentic应用痛点-质量漂移，传统质量手段失效缺乏量化的质量基线基准新功能发布破坏已有能力 ➢测试覆盖不足➢缺乏集成回归➢版本管理混乱➢评估维度单一 ➢无统一评估标准➢无性能基线➢评测数据缺失➢依赖主观判断线上效果无有效反馈机制质量随时间退化而不自知 ➢用户反馈收集低效➢业务指标关联缺失➢数据闭环未形成➢监控粒度粗糙 ➢无持续监控➢数据分布漂移➢缺乏回归测试➢评估反馈滞后 Agent可观测体系生产落地实践 AgentRuntime-数据采集面临的新挑战 Langchain、Dify、Spring AI等Agent应用框架碎片化&更新快 TTFT、TPOT、SSE流式输出、对话轮次更多维度的性能指标采集 Token消耗、文本、图片、音频、视频新的数据采集目标 LoongSuite-GenAI时代的数据采集套件 LoongSuite-更符合Agentic推理需求的数据采集 <按需采集>输入输出内容 <客户端&服务端>Token 覆盖Tool、RAG等核心操作凸显入口节点&轮次推理支持捕获用户&会话ID 多模态可观测：LoongSuite采集打破“文本系统”的枷锁运行时的多模态数据不仅是石油，更是支撑AI持续进化的“燃料”。解决方案：✓LoongSuite多模态异步采集&全栈多模态认知观测底座 AI应用全链路透视-不止于Agent观测 AI应用可观测-基于Umodel的领域化观测拓扑(1/2) AI应用可观测-基于Umodel的领域化观测拓扑(2/2) 从微服务时代的应用为中心过渡为AI时代Agent为中心 OpenClaw热潮下：AI应用可观测让养虾更高效 enter_openclaw_system（请求入口：谁发的、从哪来的）└── invoke_agent main（Agent执行过程）├── chat qwen3-235b（LLM调用#1：理解需求+规划） ├── execute_tool search（工具调用：搜索项目文档）├── chat qwen3-235b（LLM调用#2：分析搜索结果）├── execute_tool read_file（工具调用：读取源文件）├── chat qwen3-235b（LLM调用#3：分析代码结构）├── execute_tool search_codebase（工具调用：语义搜索代码）├── chat qwen3-235b（LLM调用#4：生成实现方案）├── execute_tool exec（工具调用：执行代码修改）├── chat qwen3-235b（LLM调用#5：验证修改结果）└── execute_tool run_test（工具调用：运行测试验证）看得见每一步、看得清细节、算得清成本 ➢多轮LLM分段：真实还原LLM-> TOOL-> LLM-> ...➢扩展Step Span语义：让“第几轮”可观测➢并发稳定性增强：断链/串链显著降低➢三类核心指标的计算方式全面升级对用户的直接价值：不只是“更细”，而是“更能解决问题” Agent评估体系搭建与闭环优化质量范式转变：从验证输出到验证过程 ➢传统软件测试"vs "Agent测试结果的不确定性：传统的测试基于确定性逻辑(输入A->返回B )，而A I A g e n t的输出具有概率性和创造性无限的测试空间：传统测试用例可控，关注准确率；A g e n t输入是自然语言，它的组合空间几乎是无限的。2 随时间退化的质量：传统测试质量相对稳定；A g e n t依赖的L L M可能被供应商静默更新，R A G引用的知识库在持续变化、外部因素影响等3 ➢从测试到评估任务完成度推理逻辑及效率单元测试->单步决策验证集成测试->单轮评估成本性能权衡工具使用质量端到端测试->多轮对话评估回归测试->评估套件从链路到轨迹-可观测成为评估基座可观测性不再只是运维稳定性排查工具，而是Agent智能化演进的核心基础设施。混合评估：代码、模型与人的三维协同机制(1/2) 实践模式：漏斗式过滤，自动评估初筛→失败/边界案例→人工审核。混合评估：代码、模型与人的三维协同机制(2/2) 评估自动化——Agent防止"智力退化"的关键先生门禁不是为了阻止发布，而是为了确保每次发布都是安全的。好的门禁让团队敢于快速迭代。 Skills调优评估——从静态审查到评估闭环优化 ➢静态审查报告+动态评分作为诊断输入，分三步完成修复计划生成、代码修改、回归验证角色:资深AI Agent Skill优化专家输入仅诊断数据（不含原始代码），基于静态审查多个维度问题+动态测试失败用例，生成结构化修复计划输出: { diffs: [{fileName, changeDescription}], summary } 根据S1的修复计划，读取原始SkillAsset源文件，逐文件执行修改。修改范围严格限定在计划声明的文件和变更描述内输出:修改后的SkillAsset 使用相同的TestCase集合，在沙盒中重新执行优化后的Skill，通过GradingReport对比优化前后评分，量化验证改进效果从日志到样本：AgentLoop Pipeline驱动精炼高质量样本有日志≠有样本，将昂贵算力集中在最具价值的样本上。 AgentLoop架构-观测数据驱动+自动化评估工程体系持续评估，加速闭环，形成飞轮效应将评估嵌入"开发→测试→上线→运维"全生命周期。全链路观测回归/引流/生产可观测能力支持多维度性能分析、执行轨迹还原、异常检测、问题智能诊断安全的验证空间和机制，双模发布策略，构建全量数据无损数据采集，覆盖A g e n t交互全链路效果反馈优化实验驱动迭代，数据支撑每一次改进在离线评估覆盖各类评估指标，自动化质量评分，量化A g e n t表现案例分享：阿里云内部落地实践案例 OpenClaw任务老翻车？评估帮你找原因以"预定会议室"，执行结果不符合预期为例创建评估任务评估策略选择评估器评估运行查看结果分析原因仿真-观测-评估驱动的VibeOps Agent调优飞轮 Data Agent调优-构建Benchmark持续评估体系分层评估策略：规则层（快速过滤）→分域层（精细化评估）→语义层（兜底判断）→人工层（可信校准）数值/时序类工具链/结构类语义/回答质量类适用：指标查询适用：Trace查询、日志/事件关键验证：•是否调用预期工具•是否生成合理查询语句•工具链与意图匹配度 • Coverage（覆盖率）• Point Pass（逐点通过率）• Pearson（趋势相关性）• NRMSE（归一化误差）实践反思与未来探索挑战与展望 Agent复杂性挑战评估冷启动问题一个全新的Agent，缺乏数据集，初期不具备评估能力，评估模板和评估维度的配置还需要人工设计，如何突破该层限制并降低门槛？随着Agent架构从单体走向多Agent协作越来越普遍，SKILL也大行其道，从链路交互到数据规模，可观测的挑战又上了一个台阶需要持续推进O p e n T e l e m e t r y社区建立A I领域的语义规范，覆盖更多场景，满足数据格式标准化以及高质量，降低用户接入使用成本 Agent能力和复杂性在持续提升，评估能力如何进化才能满足？如何降低评估成本，提升评估效率、解决长上下文评估等问题内容总结 Agent的生产落地没有捷径，探索实践并持续迭代 Agent生产落地，可观测和评估是基石而非锦上添花可观测必须针对Agent的原生特性来设计评估体系要分层建设、混合方法、全生命周期嵌入 Agent进化的飞轮先跑起来，每一轮产生效果，越跑越快。 THANKS 大模型正在重新定义软件 Large Language Model Is Redefining TheSoftware AIOps Agent在运维RCA场景的研发范式与数据飞轮实践马云雷 01AIOps业务场景介绍 02UModel：构建数字孪生的世界模型 03Benchmark：建立进化的基线目录 04AgentLoop：从运行时数据到Agent可靠性飞轮 AIOps业务场景介绍 AIOps发展历史和现状 AIOps1.0–算法驱动时代(2018-2023) 算法驱动时代：•核心方案：基于统计/ML算法/CNN模型 Agentic时代：核心方案：Agentic方式驱动探索与推理典型能力：异构数据自主理解、按需读取上下文核心进化：从单点算法走向全局系统化工程 •典型能力：时序预测/异常检测/根因分析•致命痛点：泛化能力差（单点能力,换场景即失效）自研Agentic AI：多智能体协同与知识融合推理 AI-Native研发范式下的三类挑战与解法挑战1：上下文不完整-> UModel 让Agent读到异构上下文：Log / Trace / Metric /配置/拓扑/知识；把碎片化数据统一为可检索、可推理的世界模型。传统研发范式路径确定测试覆盖率可以做到足够高线上SLA相对有保障挑战2：质量不可度量-> Benchmark 建立可测、可复现、可对比的任务与指标；用离线评测和在线观测持续衡量真实质量。挑战3：迭代不可持续-> AgentLoop

点击免费查看完整报告

Agent 生产落地基石可观测透视 + 评估飞轮的一体化建设实践

Agent应用从原型到生产遇到的三大痛点

Agentic应用痛点

Agent可观测体系生产落地实践

Agent评估体系搭建与闭环优化

案例分享：阿里云内部落地实践案例

实践反思与未来探索

内容总结

你可能感兴趣

云原生时代背景下一体化智能可观测性平台落地实践

构建可观测、可治理、可优化的Agent生产底座

基于大模型驱动的云网全景可观测系统建设实践

从AI Agent到模型推理：端到端AI可观测实践

赵舜东-基于开源工具的运维可观测性建设实践-赵班长

刘晓辉-运维平台可观测与数字孪生的落地实践_加水印

能源业可观测性落地全景报告：建设可观测性能力的核心路径、关键技术与未来挑战

得物全栈可观测平台落地实践-李尊

【点金互动易】 AlKimi 这家公司核心产品可对算力调度、调优进行观测分析，在一体化数据模型等积累了大量实践;这家公司一站式AI应用平台支持多种大模型的接入与纳管，AIGC相关技术应用已产生收入

人工智能创新中的可观测性：应用趋势、需求与最佳实践

Agent 生产落地基石 可观测透视 + 评估飞轮的一体化建设实践

你可能感兴趣

云原生时代背景下一体化智能可观测性平台落地实践

构建可观测、可治理、可优化的Agent生产底座

基于大模型驱动的云网全景可观测系统建设实践

从AI Agent到模型推理：端到端AI可观测实践

赵舜东-基于开源工具的运维可观测性建设实践-赵班长

刘晓辉-运维平台可观测与数字孪生的落地实践_加水印

能源业可观测性落地全景报告：建设可观测性能力的核心路径、关键技术与未来挑战

得物全栈可观测平台落地实践-李尊

【点金互动易】 AlKimi 这家公司核心产品可对算力调度、调优进行观测分析，在一体化数据模型等积累了大量实践;这家公司一站式AI应用平台支持多种大模型的接入与纳管，AIGC相关技术应用已产生收入

人工智能创新中的可观测性：应用趋势、需求与最佳实践

Agent 生产落地基石可观测透视 + 评估飞轮的一体化建设实践