您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [腾讯]:构建可观测、可治理、可优化的Agent生产底座 - 发现报告

构建可观测、可治理、可优化的Agent生产底座

2026-06-10 腾讯 肖峰
报告封面

腾讯云CLS Agent可观测解决方案 Agent可观测对象,正在从"运行状态"变成"系统质量" 传统可观测看系统有没有跑稳;Agent可观测要看这套AI系统是否真的跑好。 传统可观测:运行状态 Agent可观测:系统质量 任务完成度(Task Success)关注Agent是否准确理解意图并达成最终目标 Token消耗与浪费关注大模型交互成本,识别无效Prompt与冗余上下文 支撑Agent系统质量的数据对象 生产级Agent已从单轮问答走向Tool Use、Multi-Agent、Plan-Act-Observe-Reflect多步循环。传统微服务可观测只能看到请求流转,很难理解Agent内部推理、工具调用和决策偏差。 Agent生产化后的五类黑盒问题 运行黑盒 安全黑盒 客户真正需要的不是"多查几条日志",而是把Agent生产问题变成可看、可诊断、可评估、可优化的闭环。 能力地图:面向生产级Agent的全域观测与分析能力 接入层 分析层 数据层 应用层 全局总览、拓扑健康度、链路追踪、会话分析、Token、模型性能、工具/Skill、RAG、智能告警 Session、Trace、LLM、Tool、Skill、RAG、Memory、Token、Score、Dataset统一关联 从全局到单链路下钻 不再人工拼接多系统数据 Agent可观测不是单点Trace工具,而是从接入、建模、分析到Agentic Ops的全域能力体系。 五个客户案例,覆盖Agent生产化的五类核心问题 05 03成本与资源治理 04 某Top教育企业AI平台多部门Agent如何运营?哪些Skill真正有价值?CLS价值:从全局态势到Skill反馈 某头部零售企业多租户Agent成本如何解释和优化?CLS价值:Token归因与成本优化 某国内TOP模型厂商模型和Agent策略如何持续优化?CLS价值:打分、标注、数据集、实验闭环 某培训机构知识助手答案不对但接口成功,原因在哪?CLS价值:从会话回放到AI诊断 某金融机构高权限Agent如何可控可审计?CLS价值:行为链、证据链、责任链 场景演进路径 先定位问题发生在哪里,为什么不对 客户案例 某培训机构知识助手:答案不对,但接口全是成功客户反馈"答案不对""引用内容不准确""同一个问题昨天和今天回答不一致" 核心痛点 是模型理解错,还是知识召回错?是上下文影响了回答,还是工具返回了错误结果?为什么接口全是200,但用户还是觉得答案错? 解决方案 调用链瀑布图·会话回放·组件明细·异常自动打标·瓶颈归因·单次对话AI诊断 方案价值 还原过程·定位根因·降低排障成本·形成坏例 客户案例 某top教育企业AI平台:多部门Agent统一运营,重点关注Skill使用效果多部门陆续上线知识问答、办公助手、研发助手、数据分析Agent,沉淀出大量Skill 核心痛点 哪些Skill调用最多、成功率最高、反馈最好?哪些Skill上线了但没人用?用户点踩是否集中在某些Skill或场景? 解决方案 Skill调用TopN、成功率/失败率/平均耗时、用户点赞点踩、高频Skill /无人使用Skill /潜在可推广Skill 方案价值 统一运营· Skill运营·反馈闭环·业务影响 客户案例 某头部零售企业:多租户Agent成本分摊与优化多租户、多模型、多Agent成本上涨,不同租户、Agent、模型成本差异大,缺少统一归因能力 核心痛点 哪个租户、Agent、模型最烧钱?成本上涨是因为模型贵还是上下文太长?是否有Agent在重复调用、循环推理? 解决方案 Token基础看板·成本折算·多维下钻·高成本模式识别·成本AI归因·优化前后对比·成本预测 方案价值 成本透明·可解释分账·可执行优化·效果验证 场景四:行为安全与合规审计 客户案例 某金融机构:高权限Agent的行为审计与授权边界Agent需要访问内部数据、调用查询工具,安全合规团队担心权限扩大后无法追踪 核心痛点 Agent调了哪些工具?有没有越权?有没有敏感信息泄露?一次自动化动作为什么发生?谁授权?出事以后能不能完整复盘? 解决方案 行为链·证据链·责任链·高危工具告警·越权访问识别·敏感信息检测· Prompt注入识别·审计检索与导出 方案价值 可授权·可追溯·可告警·可合规 客户案例 腾讯TOP agent应用:用真实Agent运行数据优化模型能力模型团队关心模型在真实Agent任务中的能力短板,哪些任务失败、为什么失败 核心痛点 低分样本是模型能力问题还是工具/RAG/上下文问题?模型版本改了以后效果是升是降?坏例能不能沉淀成评测集? 解决方案 坏例一键沉淀·数据集管理· AI自动打分·人工标注· Score挂回·用户反馈·跑批实验· A/B对比·灰度发布 方案价值 错误可归因·样本可沉淀·版本可验证·优化可闭环 5W台OpenClaw Agent:从"能跑起来"到"可定位、可运营、可优化" 某top模型厂商基于OpenClaw框架构建企业级AI Agent服务平台,运行5W台Agent实例,每日处理大量对话请求 核心挑战 CLS方案 5W台中找问题 统一采集 用户报障时逐台登录翻日志,排障动辄30分钟以上 Session + Trace +指标+主机数据统一进CLS 噪声淹没真正故障Agent探索性工具错误多,真正故障被ERROR噪声淹没 批量安装 批量脚本实现5W台无人值守部署,支撑万台规模 规模化采集成本 5W台监控数据量大,需保证采集完整并控制成本 智能分层 正常/异常非致命/真正故障三级判定,过滤噪声 三个排障故事 周一早高峰集体卡死429尖峰→实例集中在→ Trace中rate_limit_check ERROR结论:模型Provider TPM限流 对话到一半突然断 某台机器对话特别慢 按IP筛Trace → context_build 4200ms →主机disk_util=98%结论:磁盘IO拖慢上下文加载 SessionID检索Trace → statusCode=UNSET →force_closed=True结论:发布重启导致会话强制关闭 业务价值 运营更有依据Token、Skill、模型选型都有数据支撑 故障定位更快从IP/SessionID直达Trace 告警更准确 根因判定更准 一眼区分机器、模型、网络、限流 过滤探索性错误,只看真正失败 让企业的Agent在生产中持续变好 Agent可观测的价值不止于定位问题,而是让每一次运行都成为下一次优化的依据 跑批实验对比Prompt /模型,灰度发布看效果,每次改动都能验证实验· A/B对比· Prompt管理·灰度发布·效果回归 坏例沉淀成数据集,AI /人工/用户反馈打分,分数挂回原对话AI打分·人工标注· Score ·用户反馈·数据集 每一次对话、每一步工具调用、每一笔Token花费,全程可回溯总览看板·瀑布图·会话回放·成本看板 AI协助定位根因,慢、贵、异常自动归类,告警附带处置建议AI诊断·成本归因·异常打标·AI告警分析 T H A N K S