行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

AI Agent的事件驱动架构实践

信息技术 2025-09-16 阿里巴巴 John

01 传统消息队列在AI场景中的局限性 AI业务场景具有更长的响应时间、更复杂的交互和更昂贵的计算资源等特点。传统消息队列难以满足AI场景对大上下文管理、轻量化通信模型和智能化资源调度的需求。

02 Lite-Topic：面向AI领域的新范式 Lite-Topic是RocketMQ面向AI领域推出的新范式，具有轻量化通信模型、轻量级Topic、轻量级订阅和消费分发策略等特点，能够有效解决AI场景中的消息传递和上下文管理问题。

03 优先级Topic：面向AI场景的分级消费策略优先级Topic为实现智能算力调度提供了坚实的基础，能够削峰填谷保护AI算力，最大化AI算力利用率，并实现抢占式分配和按权重分配，确保高优先级任务优先获得宝贵的计算资源。

04 面向AI场景的应用案例 MQ和AI会话网关的续传场景：基于轻量级通信模型，实现会话粒度的消息传递和状态管理，解决会话网关场景中的状态管理和消息传递问题。

简单、轻量、高效：SAE快速部署AI应用实践 SAE提供全托管AI应用解决方案，具有低成本、稳定高可用、简单易用等特点，能够帮助企业快速部署和运维AI应用。

API管理能力再升级 HiMarket：Higress推出AI开放平台助力企业构建私有化MCP/Agent市场 HiMarket是企业级MCP市场的解决方案，能够帮助企业构建私有化MCP/Agent市场，实现API货币化和AI应用开发加速。

AIAgent发展趋势及架构演进 AI Agent的编程范式、核心演进路线和AI原生应用架构不断演进，SpringAIAlibaba、Nacos、RocketMQ等技术和方案为AI Agent的开发和运维提供了有力支持。

基于OpenTelemetry的AI应用可观测性 AI应用可观测性是AI应用开发的重要环节，基于OpenTelemetry的AI应用可观测性方案能够帮助企业实现模型调用全链路诊断、模型生成结果评估和AI全栈统一监控。

LoongSuite:可观测采集套件正式开源 LoongSuite是可观测采集套件，能够帮助企业实现AI应用的可观测性，支持主流Agent框架、A2A协议和MCP可观测等特性。

Apache RocketMQ×AI AI Agent的事件驱动架构实践邹星宇阿里云智能云原生解决方案架构师 01传统消息队列在AI场景中的局限性 02Lite-Topic：面向AI领域的新范式 Contents目录 03优先级Topic：面向AI场景的分级消费策略 04面向AI场景的应用案例 1、传统消息队列在AI场景中的局限性 AI业务场景的新特性更长的响应时间更复杂的交互 •AI应用的的多轮对话持续时间长，历史可达数十轮。•上下文的传输可能达到几十甚至上百M，上下文管理难度更高。•多Agent之间的协同更加复杂。 •和传统互联网应用毫秒级的延时比，AI应用的响应时常基本是分钟级以上。•AI应用一次业务的运行时间不可预测性更高。更昂贵的计算资源更精细化的事件驱动 •因为计算能力有限，异步事件驱动需要更精准的消费速度控制。•分级的事件驱动策略，确保高优先级任务优先获得宝贵的计算资源。 •AI推理依赖昂贵的GPU资源，瞬时高并发流量可能冲击推理服务稳定性，导致算力资源浪费。•任务失败重试的成本更高。 AI时代RocketMQ新特性智能化资源调度轻量化通信模型大上下文管理 •以连续的消息保存上下文•支持超大消息体•顺序、互斥消费保证上下文的完整 •轻量级的资源管理，低开销的资源创建支持海量会话场景•更细粒度的的订阅管理•适用于长时会话、AI工作流和Agent-to-Agent交互等场景 •定速消费•优先级消费•优先级修改•确保在高并发和多租户环境下高效利用资源 2、Lite-Topic：面向AI领域的新范式轻量化通信模型： •百万级队列支持：RocketMQ支持在单个集群中高效管理百万级Lite-Topic，能够为海量并发会话或任务提供独立Topic，并且保障性能无损。•轻量化资源管理：RocketMQ队列的创建和销毁极其轻量和自动化，系统可按需自动创建与回收Lite-Topic（如客户端连接断开或TTL到期时），避免资源泄漏和手动干预，显著降低使用复杂度和成本。•大消息体传输：RocketMQ可处理数十MB甚至更大的消息体，充分满足AIGC场景中常见的庞大数据负载的传输需求，如大量上下文的Prompt、高清图像或长篇文档等。•顺序消息保障：通过顺序消费，确保推理结果流式输出到客户端的顺序性，保障会话体验连贯流畅。轻量级Topic： •基于百万队列的方案，本质上是一个个queue•从全局上来看，一个轻量级Topic不会存在于每一个broker上，在分配和发送时像顺序Topic的发送一样要做queue的hash•Queue的消息是某个broker专属的，一个轻量级topic的发送在只会到一台broker，而不是轮询发送轻量级订阅： •消费组group的概念被弱化•订阅关系粒度更细，以client_ID维度维护•新增互斥（Exclusive）消费模式•没有订阅关系不一致导致的各种消费问题•TTL到期后自动删除订阅关系消费分发策略： •客户端发起读请求不再指定topic，而是broker根据client_ID识别订阅关系，并返回多个topic的多条消息 •引入类似epoll机制的topicreadyset，在pop请求处理时直接访问就绪的topic •当订阅上线、新消息发送、消息ACK后仍有消息、order lock释放时往topicreadyset进行add操作 3、优先级Topic：面向AI场景的分级消费策略大模型服务在资源调度上，普遍面临两大核心挑战 •负载不匹配：前端请求突发性强，而后端算力资源有限且相对稳定，直接对接易导致服务过载崩溃或算力资源浪费。 •无差别分配：在实现流量平稳后，如何确保高优先级任务优先获得宝贵的计算资源，成为提升整体服务价值的关键。优先级Topic为实现智能算力调度提供了坚实的基础 •削峰填谷保护AI算力：RocketMQ天然具备“流量水库”的作用，能缓存突发请求，使后端AI模型服务根据自身处理能力，基于类似滑动窗口模式自适应消费负载均衡，避免系统过载或资源浪费。 •定速消费，最大化AI算力利用率：RocketMQ支持定速消费能力，可为消费者组group设置消费quota。开发者可灵活定义AI算力的每秒调用量，在保障核心AI算力不过载的前提下，最大限度提升吞吐量。•抢占式分配：当高价值任务（如VIP用户请求、关键系统分析）进入系统时，可将其标记为高优先级消息。RocketMQ确保这些消息被优先消费，让宝贵的算力资源优先服务于最关键的任务。•按权重分配：在共享算力池场景下，可依据各业务请求的实时执行状态设置请求消息优先级，调整请求执行的先后顺序，既保障整体吞吐效率，又防止个别租户因资源饥饿而无法获得算力。优先级Topic： •多队列：对应优先级定义，不同优先级对应不同队列•队列选择：对应调度（存取策略），优先从高P队列取数，依次进行队列选择策略： •永远从高到低依次选择•概率模式，当前普通消息的pop其实也在按概率选择队列，只不过每个队列概率相等，对于优先级队列来说，高优先级的被筛选到的概率更高 4、面向AI场景的应用案例 MQ和AI会话网关的续传场景 AI会话网关： •会话消息的收发管理、session维护，统一不同的接入渠道 MQ作用： •AI应用通过消息句柄（业务标识）进行回复（发消息），一次回答可以回复多条，网关机器接收结果（收消息）•网关到应用之间，使用通用的HTTP协议•AI应用处理耗时较长，不适合同步等待，通过MQ中转，本质上是一种典型的异步推理场景 MQ和AI网关的会话续传场景 •使用缓存维护tag集合，并实现租约机制•预创建若干Consumer Group，用于分配独立的消费身份•将请求带上身份信息，消费时使用tag进行过滤•每次接入新的租户，重复上述过程•在group和tag上额外做很多业务无关的设计 MQ和AI网关的会话续传场景现有MQ方案的问题会话网关场景特点： •有状态：浏览器/APP和网关之间是SSE/WebSocket等连接,会话是有状态的•智能应用发送消息时，虽然可以将原始request标识带上，但MQ传统的消费模式不能保证消息被对应机器接收•网关机器在收到response时，可能找不到对应SSE连接 MQ和AI网关的会话续传场景基于轻量级通信模型轻量级通信流程 •网关机器在发起请求时带上身份标识，并开始订阅该身份标识对应的消息（无需预创建group、topic）•智能应用根据请求的标识，发送对应的消息（同样无需预创建）•网关机器各自接收属于自己的response消息续传场景 •网关机器在发起请求时带上当前request的session，并开始订阅该session对应的消息•智能应用回复对应session的消息（同样无需预创建）•网关机器各自接收自己负责处理的session的消息•在网关机器下线/宕机时，端上重连，新的网关机器可以动态订阅session的消息，自动恢复session。 MQ和AI网关的会话续传场景代码实现生产者方案优点 •支持会话量级的Topic•资源的轻量管理：发送时自动创建；会话结束时，无连接TTL时长后自动删除。•会话粒度的订阅控制：可服务节点连接的会话订阅对应的轻量级Topic。可简单新增和取消订阅。•顺序性：轻量级Topic上消息顺序性消费者 THANKS 简单、轻量、高效：SAE快速部署AI应用实践赋能企业安全高效构建部署AI智能体应用奇卫 Serverless应用引擎技术专家 01AI应用发展趋势及企业痛点 Contents目录 02SAE在AI应用时代的定位 03SAE全托管AI应用解决方案 04SAEAI应用市场 AI应用发展趋势及企业痛点01 AI应用爆炸式增长全球每天新增AI智能体数量：10000+ 2026年将有80%企业部署AI智能体（Gartner预测）托管AI智能体数量同比增长：600%+AI智能体实例数量：100000+ Dify社区版服务：2000套+ 大模型+AI智能体开发平台双驱动企业实际落地AI应用的痛点运维复杂度高成本不可控安全合规风险开源平台性能差 •本地部署复杂且维护成本高，需要频繁升级版本•需要自己管理应用的版本发布•周边配套不完善：没有配套的治理、可观测体系，事前事后无法及时发现并定位问题 •各组件（如：Worker、Plugin、数据库等）参数非最优配置•管控面与数据链路耦合，高并发无法保证稳定性•数据源存储格式单一，推理服务需要大量的计算资源，资源分配不均会导致性能瓶颈 •资源错配，要么业务低峰期闲置烧钱，要么业务高峰期瞬间被打满，影响业务•人力维护投入大 •流量防护弱，很容易被穿透•数据隐私与合规性管理困难企业真正需要的是：开箱即用的开发体验+生产级的性能、稳定性及安全保障 02 SAE在AI原生应用领域的定位不做开发平台的替代者，而是做它们的“护航舰” 03 SAE全托管AI智能体解决方案 Serverless（AI）应用引擎托管AIAgents方案优势安全保障持续迭代低成本稳定高可用简单易用 •一分钟创建AI应用，无需任何额外配置•默认集成全链路监控，保证系统稳定性•无需关系底层资源，按需弹缩资源 •全链路提供防护策略：Ddos防护，Web防护墙，流量防护，云安全中心。•VPC内独立部署，数据不出安全域，保证数据绝对安全 •SAE默认具备灰度发布，分批发布，镜像加速，Pod粒度监控，保证Dify进行安全二次开发•Dify版本更新快，通过SAE可安全兼容升级。 •按需按量付费，潮汐流量弹性使用，无需冗余保证资源•支持多种规格资源，并提供闲时计量资源类型，提供更低成本的算力 •配置化，支持三AZ部署，默认支持智能化可用区，实例粒度的自动化迁移•默认支持负载均衡与健康检查联动保证无损上下线降本增效-低成本托管AI应用套件低成本 •推出Besteffort，轻量版算力，让业务享受到云算力的让利。•无需扩缩，就可以用闲置能力支持业务的低峰，成本降低80%。•专业版免费提供全链路的无侵入式监控和微服务治理能力。灵活+性能 •一键部署及版本升级：Dify，Jmanus，OpenManus，Airflow等成熟框架•支持K8syaml，kubectl快速部署任何的开源AI框架•性能优化：参数调优、控制面与数据面分离•无厂商绑定稳定高可用–多可用区部署架构全套微服务治理-无损上线通过无损上线，避免应用尚未启动完成就承接正常流量导致实例被打挂，通过延迟注册和小流量预热实现扩容时流量无损。 •流量缓慢增加，但Dubbo2.7.4.1以下版本存在服务预热不生效问题•Fastjson/Jetty低版本没有开启并行类加载•JVMJIT编译问题引起cpu飙高•日志异步化 SAE方案VS开源自研的优势：1.无需投入研发2.稳定性有保障2.白屏化使用，体验更简单3.完整的可观测能力全套微服务治理-无损下线 SAE方案VS开源自研的优势：1.延时更短2.稳定性兜底3.无需投入研发全套微服务治理-端到端的全链路灰度发布通过全链路灰度发布，白屏化配置规则，实现精准灰度能力，比传统多环境部署的方案大幅降低了运维和机器成本。适用场景 ◼调用链中因个别/部分应用新上线，需要精准用户灰度验证价值 ◼控制最小爆炸半径◼无需重新搭建一整套新环境，降低部署运维和硬件成本◼能覆盖七层流量到四层微服务接口、方法的灰度 Agent启动加速-默认具备镜像加速普通容器启动慢根因：1.容器启动之前，OCIV1标准的镜像下载和解压耗时大2.应用启动仅依赖6.4%的镜像数据 DADI镜像加速方案：转化镜像格式、OnDemand read（按需加载启动容器）运维配套–自定义弹性

点击免费查看完整报告

你可能感兴趣

AI Agent的事件驱动架构实践

你可能感兴趣

基于大语言模型的AI Agent架构及金融行业实践

AI驱动下的可观测平台架构升级实践

2-4 毛咏伟 - AI驱动下的可观测平台架构升级实践

AI时代企业数据基建升级路线图：面向Agent与大模型的数据基建指南与最佳实践

曾禹飞-增强AI能力的Agent实践RAG与Tool Use的协同效应