您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [阿里巴巴]:从构建、部署到规模化运行 加速企业Agent工程化 - 发现报告

从构建、部署到规模化运行 加速企业Agent工程化

信息技术 2025-08-26 李国强 阿里巴巴 顾小桶🙊
报告封面

Agent在企业落地趋势 $2,019亿2026年全球Agentic AI支出预测 70%的企业会在生产环境中运行AI AgentsGoogle Cloud AI Agent Trend 2026 40%企业应用将在2026年底 嵌入AI Agent(2025年仅不到5%)Gartner The Future of Agentic AI 同比增长141%Gartner Worldwide in Enterprise Applications AI Spending Forecast 2026.01 企业构建Agent时的挑战/痛点 发现慢,修复难 协作 运行稳定成本可控Agent弹性高,依赖多,成本不 如何快速构建部署 持续优化 可控,如何洞察运行状态,及时发现问题,从运维与运营多个视角进行管理是黑盒,效果评估难,不知道 性。如何用智能化的方式保证新兴智能业务的延续性 如何进行统一的治理及管控,以及提高多人多智能体协同效率 如何优化 运行环境隔离性弹性要求高,如何快速构建,部署上线验证 阿里云AgentInfra覆盖智能体开发构建-运行-治理-运维-优化全周期 函数计算AgentRun 开源开放的开发模式 服务化API支持代码,浏览器沙箱 多智能体治理与协作平台AgentTeams(*邀测中) 多人多智能体协作-提升效率 多人多智能体的多种协作模式面向Agent的群聊设计自带IM+钉钉等IM集成 LLM调用统一管控 Skill/MCP/凭证安全统一管控可观测可审计可度量 管理层实现基于开源项目HiClaw 智能体内核为阿里云QwenPaw兼顾灵活与开箱即用 多人多智能体协作模式 Leader-Worker智能调度 基于Leader-Worker架构的协同底座,打造透明的、可控的数字员工协作模式 •按需拉起垂直域专家Worker Agent •多任务多会议室并行,上下文隔离 •过程完全可见:随时查看Agent间的交流 •实时干预纠偏:随时通过IM打断、补充信息或关键节点的审批 AgentLoop:Agent观测及持续优化 Agent可观测 多维度性能剖析, •Agent轨迹采集及展示•Agent行为分析 智能诊断瓶颈与异常 •持续评估保障线上效果 •Agent实验多版本效果对比•多种内置Agentic评估器 •Prompt优化及动态注入 •Skill评估及优化•动态轨迹分析及自进化 AgentLoop-Agent观测 无侵入快速接入 •GenAI数据规范对齐OTel开源 •会话回溯,真实还原用户态会话视图 速接入,并采集高价值数据辅助Agent迭代进化 •用户-会话-链路三层聚合视图 •专属Agent链路追踪视图•端到端全链路覆盖(LLM/Tool/Memory) 能力 •符合GenAI的Span定义 •开箱即用的大盘 •Token多维统计(模型、用户、会话) •智能体专属全链路追踪视图•用户-会话-单轮对话三层维度 •智能分析成本黑洞 •模型性能覆盖典型的耗时、TTFT、TPOT•工具调用支持多维智能分析 HiClawDifyHermes-AgentCoze •用户-会话-单轮对话多层Token成本 接入 •智能体性能分析,首Token延迟,单Token生成时间等 AgentLoop-Agent评估与持续优化 • Playground支持Agent + LLM两种模式 • Agent-as-a-Judge真实效果评估 •实验计划管理&多版本记录基线对比• A/B Test实验智能分析报告 •内置15+经典评估器模板+自定义•支持在线持续评估、离线跑批评估 • Playground Agent在线实验代替人工抽检•变更必过回测门禁,主动拦截80%+故障 • Memory记忆沉淀让Agent更了解用户 • Prompt / Skill管理与动态更新 •数据驱动Prompt/Skill优化•Badcase定向修复+回测验证 •基于Agent真实轨迹自动提取技能经验•构建数据飞轮,智能体越用越聪明 •数据驱动替代经验驱动,每次优化有据可依 •上下文智能注入,Agent自主积累经验•观测→评估→调优→部署闭环飞轮 特征提取与降维智能质量筛选& •线上真实数据自动采集与标注 •数据资产越用越丰富,形成壁垒 全域智能运维平台STAROps 为Agentic Ops奠定产业底座:从语义统一到能力度量 开源根因分析(RCA)评测基准集&白皮书 开源UModel&通用语义标准倡议(USS) https://github.com/alibaba/UnifiedModel 需要产生可观测数据的系统架构贴近真实 全面覆盖与系统各要素相关的根因类型:如“流量暴涨”,“CPU利用率太高”, “内存打满”等覆盖影响传播链路如“流量暴涨”→“数据库CPU系统架构真实流量真实 日志与时序数据均需贴近真实特征—— 线下CMDB、CICD流程、自建中间件、特殊业务应 微服务、AI应用、移动端应用/实例/接口、HTTP/ ECS/VPC/SLB/RDS/OSS/ACK/AC/Kafka/… Cluster/Pod/Node/Deployment/Service/I 消息/数据库/大模型调用用、企业运维SOP/知识库 ngress/… AI时代效果为王Agent Infra助力企业聚焦效果,决胜智能时代的新一轮增长 谢谢 谢谢 谢谢 谢谢