AI智能总结
大语言模型服务管理的实践分享 王夕宁/马元元阿里云 演讲嘉宾 王夕宁 阿里云容器服务技术研发负责人 阿里云容器服务Kubernetes及Service Mesh技术研发负责人,拥有100多项相关领域的国际技术专利,专注于Kubernetes/云原生/服务网格等领域。曾在IBM研发中心工作,担任资深架构师和技术专家,主导和参与了一系列SOA中间件和云计算领域的产品研发,并曾担任中国研发中心专利技术评审委员会主席。出席过行业内多个技术大会,包括Kubecon、InfoQ、ArchSummit、IstioCon和 云 栖 大 会 等。同 时,著 有 畅 销 书《Istio服务网格解析与实战》。 1.LLM服务管理的特征与挑战2.应对思路与方案3.现有的技术基础之上扩展支持4.MSM:用于管理GenAI/LLM工作负载的统一方式 目录CONTENTS LLM服务管理的特征与挑战PART 01 流量请求调度Traffic Request Scheduling Ø由于GenAI/LLM模型的⾃回归特性,LLM推理请求的有效服务⾯临不可预测的执⾏时间的挑战。ØLLM服务系统⼤多采⽤先进先出(FCFS)调度,遭受⾏⾸阻塞(head-of-line)问题。 v基于历史数据和模型特性,训练出一个代理模型,用于预测每个推理请求的序列长度。v利用代理模型的序列长度预测的推测最短作业优先(SSJF)调度器。 应对思路与方案PART 02 SSJF调度器-引入Token长度预测器 •输出Token长度(N)决定了请求的执行时间(T),因为T = C + K×N, •K是生成一个标记的延迟,•C是模型服务系统的开销,包括DNS查找、代理、排队和输入标记化。•K取决于模型优化技术(例如,量化)和执行环境(例如,硬件),对于所有输入都是相同的。 •输出Token长度决定执行时间(线性关系) 智能工作负载优先级调度 智能工作负载管理–流量调度管理套件 •通过限制并发中请求的数量,防范服务突然过载。•超出此限制的任何请求将进入队列,并根据它们的优先级在有能力提供服务时予以处理•用于根据重要性调度请求,同时确保应用遵守并发限制。 •优先处理工作负载,保障关键用户体验路径•使用权重公平排队,根据业务价值和请求紧急程度调整资源分配,来实现应用程序的优雅降级 流量调度管理套件 统一的流量请求调度器统一的策略资源定义及控制器 •自适应调整请求速率限制,保护服务不受过载和级联故障的影响•通过细粒度标签识别单个用户,根据业务特定标签控制爆发能力和填充速率;•限制每个用户或全局并发中请求的并发量; •基于闭环反馈来逐步增加系统的工作负荷或请求量,而不是瞬间施加大的负载。•能够帮助系统逐步适应增加的负荷,从而确保系统在负载增加过程中仍然稳定运行,并最大限度地减少对系统的冲击。 •使用全局令牌桶和智能请求排队,根据重要性安排请求•和限流不同,若请求速率超过限制,此时请求不会被直接拒绝,而是进入一个优先级队列,在保证请求速率始终在限制内的同时对请求进行优先级调度。 •通过缓存成本高昂的操作,防止对按使用付费服务的重复请求,•减轻对受限服务的负载,提升应用程序性能并降低成本 基于现有技术还是从零开始? 通过扩展插件增强AI服务管理 现有的技术基础之上扩展支持PART 03 声明式API支持增强AI服务管理 LLM请求路由 LLM请求路由 LLM请求路由 •自动完成HTTP到HTTPS协议升级•自动配置model、stream以及API_KEY。 LLM请求路由 根据用户身份动态调整后端模型 LLM请求路由 按比例在多个Provider之间分发流量 LLM请求安全防护 LLM请求安全防护 多种安全模型:基于入口网关、sidecar以及基于出口网关应用无感 •Sidecar作为策略执行点。•适用于三方业务•链路简单,可执行敏感信息检测、HTTPS发起、API_KEY轮换能力等 LLM请求安全防护 多种安全模型:基于入口网关、sidecar以及基于出口网关应用无感 LLM请求安全防护 以入口网关模型为例:入口网关作为策略执行点。使用ASMSecurityPolicyAPI对请求进行校验,防止未经授权客户端访问LLM服务。 LLM请求安全防护 API_KEY管理 通过LLMProvider配置 •可以实现流量无损的API_KEY轮转。•API_KEY保存在网关内存中(基于网关的安全模型),客户端无法感知,防止泄漏。 LLM请求安全防护 LLM请求可观测 可观测–Log、Metrics、Trace,兼容OpenTelemetry标准 基于服务网格原生Telemetry资源定制 监控指标 访问日志增强 •自定义访问日志字段•支持查看请求级别的token消耗情况、请求model•动态配置,范围灵活 •Prompt_tokens•Completion_tokens维度•请求源信息•目标Provider•Model原生指标增强 ModelServiceMesh:用于管理GenAI/LLM工作负载的统一方式PART 04 Model ServiceMesh=ServiceMesh+ModelServicePipeline 案例分享–简化版GenAI示例:ChatQnA THANKS




