行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

从构建、部署到规模化运行：加速企业Agent工程化

2025-08-27 李国强阿里巴巴话唠

Agent在企业落地趋势

预计到2026年，70%的企业将在生产环境中运行AI Agents，40%的企业应用将在2026年底嵌入AI Agents。
预计到2026年，全球Agentic AI支出将达到2019亿，同比增长141%。

企业构建Agent时的挑战/痛点

架构复杂：智能体架构依赖多，开发框架多，运行环境隔离性要求高。
治理协作：多智能体治理和协作难度大。
运维复杂：智能运维复杂，问题发现慢，修复难。
效果评估：Agent效果是关键，但运行是黑盒，效果评估难，不知道如何优化。

阿里云AgentInfra解决方案

AgentRun：覆盖智能体开发构建-运行-治理-运维-优化全周期。
- 构建：AgentRun提供开源开放的开发模式，包括Agent构建组件、沙箱及服务。
- 部署：支持快速构建和部署智能体。
- 治理：提供智能体治理安全合规功能。
- 协作：支持多人多智能体协作。
- 观测：提供可观测性能力，覆盖性能告警分析、Token成本分析等。
- 优化：提供Agent进化论，助力智能体构建进化数据飞轮。
STAROps：全域智能运维平台，实现从被动响应到智能自治。
- 智能助手：通过自然语言完成查数、日志分析、告警诊断和根因定位。
- 长期任务：支持面向巡检、日志洞察、告警聚合和应用守护的异步任务。
- 数字员工：支持自定义职责、权限、工具、Skill、MCP和运维知识。
- 运维世界模型：统一接入跨域可观测数据，构建实时运维上下文。
- AI友好工具链：连接查询、诊断、脚本、云产品OpenAPI和企业工具。
HiClaw：多Agent协作与治理方案。
- 产品定位：直接面向企业，作为企业的Agent团队，采用Manager-TeamTL-Workers协作架构。
- 核心能力：多Human，多Agent协作；面向未来的无限扩展能力；企业级Skill/MCP安全统一管理；开源开放的开发模式。
- 使用形态：开源单机版极速验证；多Agent协同云上企业版；阿里云独立产品半托管、开箱即用、解放生产力。
Agent进化论：AgentLoop
- 全栈观测实践：LoongSuite开源框架，深度集成主流Agent，全栈数据无侵入采集。
- 效果评估与实验：用实验替代人工抽检，Agent-as-a-Judge驱动真实效果评估。
- 调优与自进化：Agent调优与自进化双路径，驱动智能体越用越聪明。

基于RocketMQ的异步协作架构

AI Agent驱动的异步化新挑战：传统互联网应用和AI 应用的对比，AI应用的特点，异步事件驱动新特性。
LiteTopic：AI场景的轻量事件载体，差异化订阅，消费端线程池非阻塞模型。
基于RocketMQ的异步Agent会话网关：传统方案的瓶颈，基于LiteTopic 实现异步会话网关优化后的方案。
RocketMQLiteTopic落地实践：AI场景下限流的需求与挑战，AI场景下限流的需求与挑战，OpenClaw RocketMQ Channel 协议设计，OpenClawRocketMQChannel应用场景。

从构建、部署到规模化运行加速企业Agent工程化李国强|阿里云智能云原生应用平台产品负责人 Agent在企业落地趋势 $2,019亿 2026年全球Agentic AI支出预测同比增长141%Gartner WorldwideAI Spending Forecast 2026.01 70%的企业会在生产环境中运行AI Agents 40% 企业应用将在2026年底嵌入AI Agent（2025年仅不到5%）Gartner The Future of Agentic AIin Enterprise Applications Google Cloud AI Agent Trend 2026 企业构建Agent时的挑战/痛点多智能体如何治理协作复杂架构运维问题发现慢，修复难如何洞察智能体运行稳定成本可控如何效果评估和持续优化智能体架构依赖多如何快速构建部署 Agent弹性高，依赖多，成本不可控，如何洞察运行状态，及时发现问题，从运维与运营多个视角进行管理智能体进一步带来系统的复杂性。如何用智能化的方式保证新兴智能业务的延续性 Agent效果是关键，但运行是黑盒，效果评估难，不知道如何优化多智能体成为企业落地趋势，如何进行统一的治理及管控，以及提高多人多智能体协同效率智能体开发框架多，依赖多，运行环境隔离性弹性要求高，如何快速构建，部署上线验证阿里云AgentInfra覆盖智能体开发构建-运行-治理-运维-优化全周期分论坛议程介绍感谢聆听全域智能运维平台STAROps工程实践分享刘嘉鹏，阿里云智能技术专家 010203可观测智能体STAROps面向AgenticOps的上下文面向长周期AgenticOps的架构04总结刘嘉鹏阿里云智能技术专家 ApacheSkyWalkingCommitter，AlibabaLoongcollectorCommiter，长期深耕可观测性领域。负责阿里云MetricStore时序引擎核心研发，参与海量时序数据存储与查询引擎的设计与优化，对高性能数据处理、分布式系统架构有深入的工程实践。目前专注于STAROps智能运维平台核心工程建设，致力于构建自主监控、分析、自愈的AIOps产品，通过实时多维数据集、AI友好型运维工具链、领域专家经验库三大核心能力，为客户打造7×24自主运维的智能体团队。作为核心工程负责人，主导了Agent安全操作生产环境的工程设计，解决长周期任务执行、人机协同审批及全链路可观测等关键工程挑战。企业运维领域面临的挑战被动响应、效率低工具多、数据散门槛高、依赖深 MTTR平均数小时以上 70%时间维护工具平均使用5+套运维工具监控/日志/链路/事件/变更等系统分散，运维人员多平台切换，跨系统分析困难；运维经验无法固化为可复用能力，新人上手慢，运维依赖个人。查询语句复杂、监控配置繁琐，排查强依赖经验；异常维度多、关联关系复杂，人工排查耗时长、根因定位困难；工具维护成本非常大。规则阈值固化、告警风暴频发、无效告警多、缺乏智能收敛机制；只能事后救火处置，缺少主动巡检、风险预判、智能预警与自愈能力。 AI应用云原生应用大模型、智能体架构、推理服务分布式应用微服务、容器、云服务、Serverless SOA、ESB、数据库、缓存基础架构、数据库全域智能运维平台STAROps 从被动响应到智能自治，7×24小时保障业务连续稳定 STAROps三大核心功能从即时分析到持续守护，构建面向生产系统的Agentic Ops能力智能助手·即时洞察数字员工·专属SRE 长期任务·持续守护通过自然语言完成资源查询、指标解读、日志分析、事件调查和告警诊断等，将复杂查询转化为即时可读的分析结论，帮助用户快速理解系统状态、定位异常原因，降低运维信息获取门槛。围绕运维目标创建跨天、跨周、跨月的异步任务，一次目标对齐，即可把重复巡检和被动排查变成持续自动流程，提前发现风险、收敛告警噪音，推动运维从“事后响应”走向“主动保障”。构建企业专属SRE智能体，可自定义配置职责、权限、工具、技能等，让Agent按企业的流程和规范工作。沉淀专家经验和团队最佳实践，让企业逐步形成可复制、可扩展的智能运维能力。 Kubernetes容器巡检个人Agent与STAROps对比 STAROps=模型+可信上下文+长周期Agent运行面向AgenticOps的上下文复杂的服务拓扑大模型时代的AIOps面临的认知难题 TheCognitiveChallenge for AIOps in the LLM Era 运维领域的语义鸿沟系统拓扑的认知迷宫根因分析的逻辑断链从数据孤岛到智能运维 Trace、Log、Metrics让系统被看见；UModel把运行数据连接成“运维世界模型”；STAROps让智能体完成感知、分析、决策、执行与验证闭环。第二阶段| UModel建立链接第一阶段|数据孤岛从“看见数据”到“理解系统”，再到“安全行动” 数据只是现象模型连接世界智能体完成闭环日志、指标、链路、事件、变更都是局部事实；没有统一实体和关系，AI只能总结信号，难以判断真实系统状态。 UModel把对象、关系、字段语义、存储位置和分析入口组织成图，让AI知道“这是谁、关联谁、数据在哪、该怎么查”。 STAROps叠加Mission、数字员工、ToolService、Skill、Sandbox和HIL，把可观测升级为7x24自主运维控制面。可观测性的下一步，不是接入更多数据，而是把运行事实编译成Agent可理解、可验证、可授权、可行动的世界模型。模型上下文来源UModel UnifiedModel数据融合查询获取日志中存在报错的IP的某个指标，并对这些IP的指标进行异常检测 .lethosts=.logstore with(logstore='test',query='error')|distinct ip|project ip.promql with(query='memory_usage{}')|where labels.up=$hosts.ip|series_anomaly_detect 接收到某个告警事件，查询对应实体跳数5之内实体的事件 .letabnormalEntity=.event with(query='alertType="PodOOM"')|project domain,type,entity_id.letrelated_entity=.topo|graph-call getNeighborNodes('sequence',5)|where__src_entity_id__=$entity.entity_id and__src_entity_type__=$entity.type and__src_entity_domain__=$entity.domain.event|where entity_id=$related_entity.__entity_id__and domain=$related_entity.__domain__andentity_type=$related_entity.__entity_type__ 从Metrics中实时提取出Entity（进程信息），和EntityStore一起构建Graph（进程所属主机），并和存储中的GraphUnion，执行Cypher Query（从进程找到关联的主机、从主机找到关联的EIP），并从EIP日志中查询出这个主机访问的外部IP .letprocess_infos=.promql with(query='ecs_cpu{}')|distinct labels.process|project labels.process.letnodes=.logstore with(logstore='test',query='* | project node_id=__entity_id__,node_type=__entity_type__') ;.letedges=.logstore with(logstore='test',query='* and 172.16.20.9 | project src_id,dest_id,src_type,dest_type,edge_type,src,dest');.letexternal_graph=$edges|make-graph src_id,src_type-->dest_id,dest_type with$nodes onnode_id,node_type.leteips=.topo|graph-join$external_graph|graph-match(src:infra@process)-[contains]->(e:infra@host)->[bind]->(e1:infra@eip)where e1 in (xxx)|project eip.logstore with(logstore='eip_logs',query='* | project _eip_, _external_ip')|where_eip_=$eips.eip|projectexternal_ip 面向长周期AgenticOps的架构 Agent的普遍问题 •控制缺位：多以模型、Prompt、工具为中心，缺少生产级控制面。•职责过重：同时承担推理、状态、权限、工具调用，故障边界不清晰。•无法连续：无法追问，多轮对话经常失忆。•执行高危：Shell、CLI、云API直接暴露，权限和审计风险高。 STAROps总体架构知识的管理 •版本缺失：Prompt、Skill、Agent、Tool缺少统一版本治理。•评估失真：配置漂移会让评估结果不可对齐，无法稳定比较效果。•归因困难：行为变化后，难判断来自模型、Prompt、Skill还是Tool。•灰度困难：能力更新缺少灰度、回滚、热更新机制，迭代风险高。面向评估的动态配置设计面向评估的动态配置设计大脑的无用负载 •上下文爆：工具说明、Skill、文件全量注入，容易撑爆模型窗口。 •选择不稳：工具数量多时，模型注意力分散，难稳定选择正确工具。 •来源割裂：内置工具、远程工具、CLI工具风格各异。 •暴露过量：Agent需要探索能力，但不应默认看到所有能力细节。 •成本升高：上下文越大，推理成本越高，响应稳定性越差。渐进式披露文件系统渐进式披露文件系统 Agent长期运行的挑战 •周期过长：运维任务常跨小时、跨天，不是一次对话能完成。•中断频繁：服务重启、工具失败、HIL暂停、外部重试都会打断链路。•历史膨胀：长持续产生对话、工具结果、日志、证据，历史不断变长。•重跑危险：缺少checkpoint时，失败后只能重跑，容易重复执行。•追踪困难：执行过程不可恢复、不可回放，就难以审计和复盘。 Mission阶段面向容灾设计的长周期任务长周期运行样例长周期会话长周期会话安全风险 •凭证常驻：默认信任本机，AK/SK、profile、kubeconfig长期存在。•执行不信：LLM和Sandbox必须视为不可信执行端，不能接触凭证。•越权风险：写操作需要HIL、黑白名单、权限收敛和失败关闭。•审计缺失：工具调用如果绕过统一网关，就难以追踪和复盘。•代签缺口：云API既要自动化调用，又要避免凭据外溢和越权。 ToolService认证体系总结总结 •生产可控：不把Agent做成单体大脑，而是拆出Gateway、Master、ToolService、Sandbox等工程控制面。•长期可靠：用Mission承接跨小时、跨天任务，支持状态托管、HIL暂停、失败恢复和回放

点击免费查看完整报告

国常会部署加快场景培育和开放推动新场景大规模应用，机构称AI应用迎来业绩兑现拐点，国内AI企业第一梯队公司构建算力到AI应用全链条布局；6G英伟达联手三星等推进6G与AI-RAN建设，机构称2025年为6G标准元年，公司前瞻布局6G通讯高端PCB领域

财联社2025-11-02

从构建、部署到规模化运行：加速企业Agent工程化

Agent在企业落地趋势

企业构建Agent时的挑战/痛点

阿里云AgentInfra解决方案

基于RocketMQ的异步协作架构

你可能感兴趣

从构建、部署到规模化运行加速企业Agent工程化

从精准问答到稳健执行：企业级Agent规模化落地与价值兑现

从精准问答到稳健执行一企业级Agent规模化落地与价值兑现

Hermes Agent 完全技术参考手册：从入门到生产部署

从「能构建」到「建管一体」企业级 Agent 的应用与实践

【电报解读】360亿美元_史上最大私募信贷及芯片融资交易_Anthropic加速购买谷歌TPU_机构称OCS或成TPU必要选项_有望从试验性部署走向规模化商用_这家公司有OCS相关技术布局-20260601

Agent 时代的数据库变革从智能运行到智能资产

从RAG到Agent，打造更聪明的企业智能知识库

【九点特供】NVIDIA Isaac GR00T加速人形机器人从数据采集到实际部署全开发流程，分析师看好这一方案有望使数据获取成本降低90pct，这家公司产..-20260607

从构建、部署到规模化运行：加速企业Agent工程化

你可能感兴趣

从构建、部署到规模化运行 加速企业Agent工程化

从精准问答到稳健执行：企业级Agent规模化落地与价值兑现

从精准问答到稳健执行 一企业级Agent规模化落地与价值兑现

Hermes Agent 完全技术参考手册：从入门到生产部署

从「能构建」到「建管一体」企业级 Agent 的应用与实践

【电报解读】360亿美元_史上最大私募信贷及芯片融资交易_Anthropic加速购买谷歌TPU_机构称OCS或成TPU必要选项_有望从试验性部署走向规模化商用_这家公司有OCS相关技术布局-20260601

Agent 时代的数据库变革 从智能运行到智能资产

从RAG到Agent，打造更聪明的企业智能知识库

【九点特供】NVIDIA Isaac GR00T加速人形机器人从数据采集到实际部署全开发流程，分析师看好这一方案有望使数据获取成本降低90pct，这家公司产..-20260607

从构建、部署到规模化运行加速企业Agent工程化

从精准问答到稳健执行一企业级Agent规模化落地与价值兑现

Agent 时代的数据库变革从智能运行到智能资产