行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

构建可观测、可治理、可优化的Agent生产底座

2026-06-10 腾讯肖峰

腾讯云CLS Agent可观测解决方案的核心观点在于，Agent可观测对象已从关注传统系统的"运行状态"转变为关注AI系统的"系统质量"。传统可观测主要看系统是否稳定运行，而Agent可观测则聚焦于AI系统是否真正达成目标，具体体现在任务完成度、Token消耗与浪费等方面。

Agent生产化后的五类黑盒问题：

运行黑盒：难以理解Agent内部推理、工具调用和决策偏差。
安全黑盒：高权限Agent的行为审计与授权边界不清晰。
成本与资源治理：多租户Agent成本分摊与优化困难。
能力地图：面向生产级Agent的全域观测与分析能力体系。
客户案例：通过五个案例覆盖Agent生产化的核心问题。

解决方案框架：

接入层：统一采集数据。
分析层：Session、Trace、LLM、Tool等统一关联分析。
数据层：全局总览、链路追踪、会话分析等。
应用层：AI诊断、成本归因、异常打标等。

关键数据与案例：

某培训机构知识助手：通过调用链瀑布图、会话回放等技术定位答案错误原因。
某top教育企业AI平台：通过Skill调用分析实现统一运营和反馈闭环。
某头部零售企业：通过Token归因与成本优化实现多租户成本分摊。
某金融机构：通过行为链、证据链等技术实现高权限Agent的可控可审计。
某top模型厂商：通过坏例沉淀、AI打分等技术优化模型能力。

研究结论：

Agent可观测不仅是单点Trace工具，而是从接入、建模、分析到Agentic Ops的全域能力体系。
通过真实Agent运行数据优化模型能力，实现错误可归因、样本可沉淀、版本可验证、优化可闭环。
让企业的Agent在生产中持续变好，通过跑批实验、灰度发布、效果回归等技术实现持续优化。

业务价值：

运营更有依据，Token、Skill、模型选型有数据支撑。
故障定位更快，从IP/SessionID直达Trace。
告警更准确，根因判定更准。
过滤探索性错误，只看真正失败。

腾讯云CLS Agent可观测解决方案 Agent可观测对象，正在从"运行状态"变成"系统质量" 传统可观测看系统有没有跑稳；Agent可观测要看这套AI系统是否真的跑好。传统可观测：运行状态 Agent可观测：系统质量任务完成度(Task Success)关注Agent是否准确理解意图并达成最终目标 Token消耗与浪费关注大模型交互成本，识别无效Prompt与冗余上下文支撑Agent系统质量的数据对象生产级Agent已从单轮问答走向Tool Use、Multi-Agent、Plan-Act-Observe-Reflect多步循环。传统微服务可观测只能看到请求流转，很难理解Agent内部推理、工具调用和决策偏差。 Agent生产化后的五类黑盒问题运行黑盒安全黑盒客户真正需要的不是"多查几条日志"，而是把Agent生产问题变成可看、可诊断、可评估、可优化的闭环。能力地图：面向生产级Agent的全域观测与分析能力接入层分析层数据层应用层全局总览、拓扑健康度、链路追踪、会话分析、Token、模型性能、工具/Skill、RAG、智能告警 Session、Trace、LLM、Tool、Skill、RAG、Memory、Token、Score、Dataset统一关联从全局到单链路下钻不再人工拼接多系统数据 Agent可观测不是单点Trace工具，而是从接入、建模、分析到Agentic Ops的全域能力体系。五个客户案例，覆盖Agent生产化的五类核心问题 05 03成本与资源治理 04 某Top教育企业AI平台多部门Agent如何运营？哪些Skill真正有价值？CLS价值：从全局态势到Skill反馈某头部零售企业多租户Agent成本如何解释和优化？CLS价值：Token归因与成本优化某国内TOP模型厂商模型和Agent策略如何持续优化？CLS价值：打分、标注、数据集、实验闭环某培训机构知识助手答案不对但接口成功，原因在哪？CLS价值：从会话回放到AI诊断某金融机构高权限Agent如何可控可审计？CLS价值：行为链、证据链、责任链场景演进路径先定位问题发生在哪里，为什么不对客户案例某培训机构知识助手：答案不对，但接口全是成功客户反馈"答案不对""引用内容不准确""同一个问题昨天和今天回答不一致" 核心痛点是模型理解错，还是知识召回错？是上下文影响了回答，还是工具返回了错误结果？为什么接口全是200，但用户还是觉得答案错？解决方案调用链瀑布图·会话回放·组件明细·异常自动打标·瓶颈归因·单次对话AI诊断方案价值还原过程·定位根因·降低排障成本·形成坏例客户案例某top教育企业AI平台：多部门Agent统一运营，重点关注Skill使用效果多部门陆续上线知识问答、办公助手、研发助手、数据分析Agent，沉淀出大量Skill 核心痛点哪些Skill调用最多、成功率最高、反馈最好？哪些Skill上线了但没人用？用户点踩是否集中在某些Skill或场景？解决方案 Skill调用TopN、成功率/失败率/平均耗时、用户点赞点踩、高频Skill /无人使用Skill /潜在可推广Skill 方案价值统一运营· Skill运营·反馈闭环·业务影响客户案例某头部零售企业：多租户Agent成本分摊与优化多租户、多模型、多Agent成本上涨，不同租户、Agent、模型成本差异大，缺少统一归因能力核心痛点哪个租户、Agent、模型最烧钱？成本上涨是因为模型贵还是上下文太长？是否有Agent在重复调用、循环推理？解决方案 Token基础看板·成本折算·多维下钻·高成本模式识别·成本AI归因·优化前后对比·成本预测方案价值成本透明·可解释分账·可执行优化·效果验证场景四：行为安全与合规审计客户案例某金融机构：高权限Agent的行为审计与授权边界Agent需要访问内部数据、调用查询工具，安全合规团队担心权限扩大后无法追踪核心痛点 Agent调了哪些工具？有没有越权？有没有敏感信息泄露？一次自动化动作为什么发生？谁授权？出事以后能不能完整复盘？解决方案行为链·证据链·责任链·高危工具告警·越权访问识别·敏感信息检测· Prompt注入识别·审计检索与导出方案价值可授权·可追溯·可告警·可合规客户案例腾讯TOP agent应用：用真实Agent运行数据优化模型能力模型团队关心模型在真实Agent任务中的能力短板，哪些任务失败、为什么失败核心痛点低分样本是模型能力问题还是工具/RAG/上下文问题？模型版本改了以后效果是升是降？坏例能不能沉淀成评测集？解决方案坏例一键沉淀·数据集管理· AI自动打分·人工标注· Score挂回·用户反馈·跑批实验· A/B对比·灰度发布方案价值错误可归因·样本可沉淀·版本可验证·优化可闭环 5W台OpenClaw Agent：从"能跑起来"到"可定位、可运营、可优化" 某top模型厂商基于OpenClaw框架构建企业级AI Agent服务平台，运行5W台Agent实例，每日处理大量对话请求核心挑战 CLS方案 5W台中找问题统一采集用户报障时逐台登录翻日志，排障动辄30分钟以上 Session + Trace +指标+主机数据统一进CLS 噪声淹没真正故障Agent探索性工具错误多，真正故障被ERROR噪声淹没批量安装批量脚本实现5W台无人值守部署，支撑万台规模规模化采集成本 5W台监控数据量大，需保证采集完整并控制成本智能分层正常/异常非致命/真正故障三级判定，过滤噪声三个排障故事周一早高峰集体卡死429尖峰→实例集中在→ Trace中rate_limit_check ERROR结论：模型Provider TPM限流对话到一半突然断某台机器对话特别慢按IP筛Trace → context_build 4200ms →主机disk_util=98%结论：磁盘IO拖慢上下文加载 SessionID检索Trace → statusCode=UNSET →force_closed=True结论：发布重启导致会话强制关闭业务价值运营更有依据Token、Skill、模型选型都有数据支撑故障定位更快从IP/SessionID直达Trace 告警更准确根因判定更准一眼区分机器、模型、网络、限流过滤探索性错误，只看真正失败让企业的Agent在生产中持续变好 Agent可观测的价值不止于定位问题，而是让每一次运行都成为下一次优化的依据跑批实验对比Prompt /模型，灰度发布看效果，每次改动都能验证实验· A/B对比· Prompt管理·灰度发布·效果回归坏例沉淀成数据集，AI /人工/用户反馈打分，分数挂回原对话AI打分·人工标注· Score ·用户反馈·数据集每一次对话、每一步工具调用、每一笔Token花费，全程可回溯总览看板·瀑布图·会话回放·成本看板 AI协助定位根因，慢、贵、异常自动归类，告警附带处置建议AI诊断·成本归因·异常打标·AI告警分析 T H A N K S

点击免费查看完整报告

构建可观测、可治理、可优化的Agent生产底座

你可能感兴趣

Agent 生产落地基石可观测透视 + 评估飞轮的一体化建设实践

全栈国产-智驭未来构建Agent时代的融合创新底座

Agent时代存储新定义构建统一数据底座

构建 Agent 云端专属运行与 Skills 生态底座

4-2 数据治理视角下的可观测性 - 观测云

云原生可观测套件ACOS构建无处不在的可观测基础设施 - 周小帆

从AI Agent到模型推理：端到端AI可观测实践

以服务治理为基石构建可管可控的互联网应用架构 - 董振华

可观测社区驱动，构筑金融级云原生稳定性治理

面向智算服务构建下一代可观测Pipeline

构建可观测、可治理、可优化的Agent生产底座

你可能感兴趣

Agent 生产落地基石 可观测透视 + 评估飞轮的一体化建设实践

全栈国产-智驭未来构建Agent时代的融合创新底座

Agent时代存储新定义 构建统一数据底座

构建 Agent 云端专属运行与 Skills 生态底座

4-2 数据治理视角下的可观测性 - 观测云

云原生可观测套件ACOS构建无处不在的可观测基础设施 - 周小帆

从AI Agent到模型推理：端到端AI可观测实践

以服务治理为基石构建可管可控的互联网应用架构 - 董振华

可观测社区驱动，构筑金融级云原生稳定性治理

面向智算服务构建下一代可观测Pipeline

Agent 生产落地基石可观测透视 + 评估飞轮的一体化建设实践

Agent时代存储新定义构建统一数据底座