让Agent走向规模化落地 Agent规模化落地:比微服务、数据库更复杂的全新挑战 治理:安全合规 弹性:能承载、体验好、成本低 运维:高可用 •微服务:行为可枚举、边界清晰;•数据库:未授权访问与恶意输入•Agent:代人行事,行为不可预测。 •微服务:同质无状态,Cattle模型•数据库:同质有状态,偏Cattle模型•Agent:异构有状态、自主性,Pet模型 (成本&效率) •微服务:单机高并发,服务模型:1服务对N用户•数据库:存算分离,分别扩容•Agent:单机单用户,服务模型:1Agent对1用户 核心维度 核心维度 权限策略 网络可达性 声明与定义 水平扩展上限 冷启动速度 内容安全防护 身份凭证 成本灵活性 故障恢复 版本管理 弹性需要解决的三大关键点 冷启动速度:从20s至60ms 冷启动速度如何从秒级压缩到60ms? 传统冷启动链路:资源准备(100ms+)→MVM创建(20ms+)→镜像下载(20s+)→内核启动(100ms+)→容器创建(20ms+)→服务启动(3s+) 逐阶段消除: 内核优化:全栈锁优化资源池化:消除资源准备耗时:宿主机资源提前池化,启动时直接获取镜像加速:消除镜像下载耗时:按需加载+就近缓存快照恢复:跳过全部初始化:将已Ready沙箱制作快照,恢复时直接跳过MVM/内核/容器/服务启动 水平扩展:突破控制面规模上限 如何突破规模上限? •宿主机创建沙箱无外部依赖,单机100并发,最高上千实例,可水平扩展 •自研调度器,无K8sAPI Server、etcd、调度器等瓶颈 多资源池+两级调度: •一层锁资源池,二层池内装箱,分片调度,不寻求最优解•调度器无状态、横向扩容、高度并发 成本灵活:核心需要解决计算、存储的成本问题 成本有哪些构成? •计算:按会话/用户分配资源->浪费最严重->弹性扩缩/休眠唤醒•存储:用量不固定->浪费难评估->按需使用•网络:天然按量计费 微服务时代为什么弹性扩缩容使用不多? •风险高:弹不出来•收益低:缩容收益不大Agent场景下,这两个前提都变了:闲置浪费太大(收益大)→必须做→关键门槛:"速度"和"成功率" 扩缩容->休眠恢复技术演进 •微服务:人工-> HPA->CronHPA-> EHPA•Agent:触发->规则->自动暂停恢复 计算成本解决方案:自动休眠恢复 特性: 全态覆盖:内存+文件系统实现方式:通过VM快照冻结进程、dump内存、同步磁盘,完整保存整个执行现场。计费:暂停时计算资源停止计费,仅收取快照存储费用。 唤醒速度: 暂停:秒级恢复:毫秒级恢复 触发机制: 手动触发空闲自动暂停,请求自动唤醒定时任务触发IM消息通道触发 运维:以Agent为中心 Agent运维对象不再只是镜像、配置、实例,还要同时管理标准镜像、Skill、Plugin、网络策略、权限策略和运行态 传统服务运维模型需要升级 •Agent比微服务更异构且生命周期更独立•环境变更、资产变更和状态变更都会影响正在运行的Agent•故障恢复和状态监控需要比传统服务更细粒度的日志、轨迹与运行态观测 运维—Agent Way:从一只到一万只的运营中枢 以模板化分层架构为核心——模板定义Agent是什么,实例是模板的运行态。基于此提供批量创建、灰度发布、暂停恢复、下线的全生命周期管理。 Agent生命周期时间线 基于模板创建和管理Agent实例 批量创建 运维层 选模板→一次创建上百只,模板升级实例自动跟随⚡模板+ Labels 灰度发布 1%→10%→全量,暂停/继续/一键回滚🐀🐀滚动更新+状态持久化,升级不丢上下文 暂停/冻结→恢复按Labels /实例筛选后一键操作🔒主动干预高风险或低负载Agent实例 下线/删除重试对账🐀对账兜底,不留幽灵实例 治理:从入到出的四层防护体系 治理目标:安全合规——让Agent在授权范围内行事,行为可审计,威胁可拦截。四层体系(由外到内): Agent Runtime沙箱规模化落地场景 极致弹性:毫秒级冷启动,秒级数万并发创建虚拟机级强隔离支持精细化管控、凭证透明注入 全场景支持:浏览器、代码解释器、手机、OSWorld、WAA、SweBench、自定义沙箱多方式接入:API、SDK、CLI、E2B、MCP大规模并发:每分钟数十万并发创建 自动休眠唤醒故障自愈,checkpoint恢复版本管理,skill分发兼容K8s API管理,大规模运维能力零信任安全,出入站管控 THANKS