您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [阿里巴巴]:AI Agent的事件驱动架构实践 - 发现报告

AI Agent的事件驱动架构实践

信息技术 2025-09-16 阿里巴巴 John
报告封面

Apache RocketMQ×AI AI Agent的事件驱动架构实践 邹星宇 阿里云智能云原生解决方案架构师 01传统消息队列在AI场景中的局限性 02Lite-Topic:面向AI领域的新范式 Contents目录 03优先级Topic:面向AI场景的分级消费策略 04面向AI场景的应用案例 1、传统消息队列在AI场景中的局限性 AI业务场景的新特性 更长的响应时间 更复杂的交互 •AI应用的的多轮对话持续时间长,历史可达数十轮。•上下文的传输可能达到几十甚至上百M,上下文管理难度更高。•多Agent之间的协同更加复杂。 •和传统互联网应用毫秒级的延时比,AI应用的响应时常基本是分钟级以上。•AI应用一次业务的运行时间不可预测性更高。 更昂贵的计算资源 更精细化的事件驱动 •因为计算能力有限,异步事件驱动需要更精准的消费速度控制。•分级的事件驱动策略,确保高优先级任务优先获得宝贵的计算资源。 •AI推理依赖昂贵的GPU资源,瞬时高并发流量可能冲击推理服务稳定性,导致算力资源浪费。•任务失败重试的成本更高。 AI时代RocketMQ新特性 智能化资源调度 轻量化通信模型 大上下文管理 •以连续的消息保存上下文•支持超大消息体•顺序、互斥消费保证上下文的完整 •轻量级的资源管理,低开销的资源创建支持海量会话场景•更细粒度的的订阅管理•适用于长时会话、AI工作流和Agent-to-Agent交互等场景 •定速消费•优先级消费•优先级修改•确保在高并发和多租户环境下高效利用资源 2、Lite-Topic:面向AI领域的新范式 轻量化通信模型: •百万级队列支持:RocketMQ支持在单个集群中高效管理百万级Lite-Topic,能够为海量并发会话或任务提供独立Topic,并且保障性能无损。•轻量化资源管理:RocketMQ队列的创建和销毁极其轻量和自动化,系统可按需自动创建与回收Lite-Topic(如客户端连接断开或TTL到期时),避免资源泄漏和手动干预,显著降低使用复杂度和成本。•大消息体传输:RocketMQ可处理数十MB甚至更大的消息体,充分满足AIGC场景中常见的庞大数据负载的传输需求,如大量上下文的Prompt、高清图像或长篇文档等。•顺序消息保障:通过顺序消费,确保推理结果流式输出到客户端的顺序性,保障会话体验连贯流畅。 轻量级Topic: •基于百万队列的方案,本质上是一个个queue•从全局上来看,一个轻量级Topic不会存在于每一个broker上,在分配和发送时像顺序Topic的发送一样要做queue的hash•Queue的消息是某个broker专属的,一个轻量级topic的发送在只会到一台broker,而不是轮询发送 轻量级订阅: •消费组group的概念被弱化•订阅关系粒度更细,以client_ID维度维护•新增互斥(Exclusive)消费模式•没有订阅关系不一致导致的各种消费问题•TTL到期后自动删除订阅关系 消费分发策略: •客户端发起读请求不再指定topic,而是broker根据client_ID识别订阅关系,并返回多个topic的多条消息 •引入类似epoll机制的topicreadyset,在pop请求处理时直接访问就绪的topic •当订阅上线、新消息发送、消息ACK后仍有消息、order lock释放时往topicreadyset进行add操作 3、优先级Topic:面向AI场景的分级消费策略 大模型服务在资源调度上,普遍面临两大核心挑战 •负载不匹配:前端请求突发性强,而后端算力资源有限且相对稳定,直接对接易导致服务过载崩溃或算力资源浪费。 •无差别分配:在实现流量平稳后,如何确保高优先级任务优先获得宝贵的计算资源,成为提升整体服务价值的关键。 优先级Topic为实现智能算力调度提供了坚实的基础 •削峰填谷保护AI算力:RocketMQ天然具备“流量水库”的作用,能缓存突发请求,使后端AI模型服务根据自身处理能力,基于类似滑动窗口模式自适应消费负载均衡,避免系统过载或资源浪费。 •定速消费,最大化AI算力利用率:RocketMQ支持定速消费能力,可为消费者组group设置消费quota。开发者可灵活定义AI算力的每秒调用量,在保障核心AI算力不过载的前提下,最大限度提升吞吐量。•抢占式分配:当高价值任务(如VIP用户请求、关键系统分析)进入系统时,可将其标记为高优先级消息。RocketMQ确保这些消息被优先消费,让宝贵的算力资源优先服务于最关键的任务。•按权重分配:在共享算力池场景下,可依据各业务请求的实时执行状态设置请求消息优先级,调整请求执行的先后顺序,既保障整体吞吐效率,又防止个别租户因资源饥饿而无法获得算力。 优先级Topic: •多队列:对应优先级定义,不同优先级对应不同队列•队列选择:对应调度(存取策略),优先从高P队列取数,依次进行 队列选择策略: •永远从高到低依次选择•概率模式,当前普通消息的pop其实也在按概率选择队列,只不过每个队列概率相等,对于优先级队列来说,高优先级的被筛选到的概率更高 4、面向AI场景的应用案例 MQ和AI会话网关的续传场景 AI会话网关: •会话消息的收发管理、session维护,统一不同的接入渠道 MQ作用: •AI应用通过消息句柄(业务标识)进行回复(发消息),一次回答可以回复多条,网关机器接收结果(收消息)•网关到应用之间,使用通用的HTTP协议•AI应用处理耗时较长,不适合同步等待,通过MQ中转,本质上是一种典型的异步推理场景 MQ和AI网关的会话续传场景 •使用缓存维护tag集合,并实现租约机制•预创建若干Consumer Group,用于分配独立的消费身份•将请求带上身份信息,消费时使用tag进行过滤•每次接入新的租户,重复上述过程•在group和tag上额外做很多业务无关的设计 MQ和AI网关的会话续传场景 现有MQ方案的问题 会话网关场景特点: •有状态:浏览器/APP和网关之间是SSE/WebSocket等连接,会话是有状态的•智能应用发送消息时,虽然可以将原始request标识带上,但MQ传统的消费模式不能保证消息被对应机器接收•网关机器在收到response时,可能找不到对应SSE连接 MQ和AI网关的会话续传场景 基于轻量级通信模型 轻量级通信流程 •网关机器在发起请求时带上身份标识,并开始订阅该身份标识对应的消息(无需预创建group、topic)•智能应用根据请求的标识,发送对应的消息(同样无需预创建)•网关机器各自接收属于自己的response消息 续传场景 •网关机器在发起请求时带上当前request的session,并开始订阅该session对应的消息•智能应用回复对应session的消息(同样无需预创建)•网关机器各自接收自己负责处理的session的消息•在网关机器下线/宕机时,端上重连,新的网关机器可以动态订阅session的消息,自动恢复session。 MQ和AI网关的会话续传场景 代码实现 生产者 方案优点 •支持会话量级的Topic•资源的轻量管理:发送时自动创建;会话结束时,无连接TTL时长后自动删除。•会话粒度的订阅控制:可服务节点连接的会话订阅对应的轻量级Topic。可简单新增和取消订阅。•顺序性:轻量级Topic上消息顺序性 消费者 THANKS 简单、轻量、高效:SAE快速部署AI应用实践 赋能企业安全高效构建部署AI智能体应用 奇卫 Serverless应用引擎技术专家 01AI应用发展趋势及企业痛点 Contents目录 02SAE在AI应用时代的定位 03SAE全托管AI应用解决方案 04SAEAI应用市场 AI应用发展趋势及企业痛点01 AI应用爆炸式增长 全球每天新增AI智能体数量:10000+ 2026年将有80%企业部署AI智能体(Gartner预测) 托管AI智能体数量同比增长:600%+AI智能体实例数量:100000+ Dify社区版服务:2000套+ 大模型+AI智能体开发平台双驱动 企业实际落地AI应用的痛点 运维复杂度高 成本不可控 安全合规风险 开源平台性能差 •本地部署复杂且维护成本高,需要频繁升级版本•需要自己管理应用的版本发布•周边配套不完善:没有配套的治理、可观测体系,事前事后无法及时发现并定位问题 •各组件(如:Worker、Plugin、数据库等)参数非最优配置•管控面与数据链路耦合,高并发无法保证稳定性•数据源存储格式单一,推理服务需要大量的计算资源,资源分配不均会导致性能瓶颈 •资源错配,要么业务低峰期闲置烧钱,要么业务高峰期瞬间被打满,影响业务•人力维护投入大 •流量防护弱,很容易被穿透•数据隐私与合规性管理困难 企业真正需要的是:开箱即用的开发体验+生产级的性能、稳定性及安全保障 02 SAE在AI原生应用领域的定位 不做开发平台的替代者,而是做它们的“护航舰” 03 SAE全托管AI智能体解决方案 Serverless(AI)应用引擎托管AIAgents方案优势 安全保障 持续迭代 低成本 稳定高可用 简单易用 •一分钟创建AI应用,无需任何额外配置•默认集成全链路监控,保证系统稳定性•无需关系底层资源,按需弹缩资源 •全链路提供防护策略:Ddos防护,Web防护墙,流量防护,云安全中心。•VPC内独立部署,数据不出安全域,保证数据绝对安全 •SAE默认具备灰度发布,分批发布,镜像加速,Pod粒度监控,保证Dify进行安全二次开发•Dify版本更新快,通过SAE可安全兼容升级。 •按需按量付费,潮汐流量弹性使用,无需冗余保证资源•支持多种规格资源,并提供闲时计量资源类型,提供更低成本的算力 •配置化,支持三AZ部署,默认支持智能化可用区,实例粒度的自动化迁移•默认支持负载均衡与健康检查联动保证无损上下线 降本增效-低成本托管AI应用套件 低成本 •推出Besteffort,轻量版算力,让业务享受到云算力的让利。•无需扩缩,就可以用闲置能力支持业务的低峰,成本降低80%。•专业版免费提供全链路的无侵入式监控和微服务治理能力。 灵活+性能 •一键部署及版本升级:Dify,Jmanus,OpenManus,Airflow等成熟框架•支持K8syaml,kubectl快速部署任何的开源AI框架•性能优化:参数调优、控制面与数据面分离•无厂商绑定 稳定高可用–多可用区部署架构 全套微服务治理-无损上线 通过无损上线,避免应用尚未启动完成就承接正常流量导致实例被打挂,通过延迟注册和小流量预热实现扩容时流量无损。 •流量缓慢增加,但Dubbo2.7.4.1以下版本存在服务预热不生效问题•Fastjson/Jetty低版本没有开启并行类加载•JVMJIT编译问题引起cpu飙高•日志异步化 SAE方案VS开源自研的优势:1.无需投入研发2.稳定性有保障2.白屏化使用,体验更简单3.完整的可观测能力 全套微服务治理-无损下线 SAE方案VS开源自研的优势:1.延时更短2.稳定性兜底3.无需投入研发 全套微服务治理-端到端的全链路灰度发布 通过全链路灰度发布,白屏化配置规则,实现精准灰度能力,比传统多环境部署的方案大幅降低了运维和机器成本。 适用场景 ◼调用链中因个别/部分应用新上线,需要精准用户灰度验证 价值 ◼控制最小爆炸半径◼无需重新搭建一整套新环境,降低部署运维和硬件成本◼能覆盖七层流量到四层微服务接口、方法的灰度 Agent启动加速-默认具备镜像加速 普通容器启动慢根因:1.容器启动之前,OCIV1标准的镜像下载和解压耗时大2.应用启动仅依赖6.4%的镜像数据 DADI镜像加速方案:转化镜像格式、OnDemand read(按需加载启动容器) 运维配套–自定义弹性