行业研究公司研究宏观策略财报招股书会议纪要中央经济工作会议低空经济 DeepSeek AIGC 大模型

王夕宁-大语言模型服务管理的实践分享

信息技术2024-11-172024AI研发数字峰会AiDD北京站福***

AI智能总结

LLM服务管理的特征与挑战

GenAI/LLM服务管理面临传统网络流量管理所不具备的独特挑战，主要体现在：

流量特性：请求/响应大小差异大（多模态流量大），处理时间不可预测（毫秒级到分钟级），请求成本需动态调整。
调度难题：模型自回归特性导致执行时间不可预测，传统FCFS调度存在行首阻塞问题。

应对思路与方案

提出应对策略包括：

SSJF调度器：引入Token长度预测器，根据预测的Token长度（N）决定执行时间（T=C+K×N），实现推测最短作业优先调度。
智能工作负载优先级调度：通过令牌桶和WFQ调度器，根据业务价值和紧急程度调整资源分配，实现优雅降级和流量控制。
流量调度管理套件：提供统一的流量请求调度器、策略资源定义及控制器，支持优先级管理、速率限制、并发控制、渐进式负载增加等功能。

现有的技术基础之上扩展支持

通过扩展服务网格技术增强AI服务管理：

插件化增强：通过模型网格代理的请求信息转换、自定义日志与监控指标、提示词预处理、DLP数据丢失预防等插件市场能力。
声明式API支持：利用Istio原生API（LMRoute、LMProvider）实现LLM请求路由和外部服务管理。
LLM请求路由：支持外部HTTP服务管理、用户身份动态模型选择、多Provider流量分发。
LLM请求安全防护：提供基于入口网关、sidecar、出口网关的多安全模型，支持JWT身份校验、API_KEY管理、敏感信息校验、全链路TLS/mTLS等。
可观测性增强：基于服务网格原生Telemetry，支持自定义访问日志、监控指标（Prompt_tokens、Completion_tokens等）和链路追踪。

Model Service Mesh: 用于管理GenAI/LLM 工作负载的统一方式

提出Model Service Mesh（MSM）概念，整合服务网格（Service Mesh）和模型服务流水线（Model Service Pipeline）：

架构：数据面通过AI Workload Proxy实现服务编排，控制面通过MSM Controller进行流量、安全、可观测性规则配置。
案例：以ChatQnA为例，展示如何通过MSM简化GenAI工作负载管理，实现基于服务网格的流量、安全、可观测性规则配置和服务编排部署。

大语言模型服务管理的实践分享王夕宁/马元元阿里云演讲嘉宾王夕宁阿里云容器服务技术研发负责人阿里云容器服务Kubernetes及Service Mesh技术研发负责人,拥有100多项相关领域的国际技术专利,专注于Kubernetes/云原生/服务网格等领域。曾在IBM研发中心工作,担任资深架构师和技术专家，主导和参与了一系列SOA中间件和云计算领域的产品研发，并曾担任中国研发中心专利技术评审委员会主席。出席过行业内多个技术大会，包括Kubecon、InfoQ、ArchSummit、IstioCon和云栖大会等。同时，著有畅销书《Istio服务网格解析与实战》。 1.LLM服务管理的特征与挑战2.应对思路与方案3.现有的技术基础之上扩展支持4.MSM:用于管理GenAI/LLM工作负载的统一方式目录CONTENTS LLM服务管理的特征与挑战PART 01 流量请求调度Traffic Request Scheduling Ø由于GenAI/LLM模型的⾃回归特性，LLM推理请求的有效服务⾯临不可预测的执⾏时间的挑战。ØLLM服务系统⼤多采⽤先进先出（FCFS）调度，遭受⾏⾸阻塞（head-of-line）问题。 v基于历史数据和模型特性，训练出一个代理模型，用于预测每个推理请求的序列长度。v利用代理模型的序列长度预测的推测最短作业优先（SSJF）调度器。应对思路与方案PART 02 SSJF调度器-引入Token长度预测器 •输出Token长度（N）决定了请求的执行时间（T），因为T = C + K×N， •K是生成一个标记的延迟，•C是模型服务系统的开销，包括DNS查找、代理、排队和输入标记化。•K取决于模型优化技术（例如，量化）和执行环境（例如，硬件），对于所有输入都是相同的。 •输出Token长度决定执行时间（线性关系）智能工作负载优先级调度智能工作负载管理–流量调度管理套件 •通过限制并发中请求的数量，防范服务突然过载。•超出此限制的任何请求将进入队列，并根据它们的优先级在有能力提供服务时予以处理•用于根据重要性调度请求，同时确保应用遵守并发限制。 •优先处理工作负载，保障关键用户体验路径•使用权重公平排队,根据业务价值和请求紧急程度调整资源分配,来实现应用程序的优雅降级流量调度管理套件统一的流量请求调度器统一的策略资源定义及控制器 •自适应调整请求速率限制,保护服务不受过载和级联故障的影响•通过细粒度标签识别单个用户,根据业务特定标签控制爆发能力和填充速率;•限制每个用户或全局并发中请求的并发量; •基于闭环反馈来逐步增加系统的工作负荷或请求量，而不是瞬间施加大的负载。•能够帮助系统逐步适应增加的负荷，从而确保系统在负载增加过程中仍然稳定运行，并最大限度地减少对系统的冲击。 •使用全局令牌桶和智能请求排队，根据重要性安排请求•和限流不同，若请求速率超过限制，此时请求不会被直接拒绝，而是进入一个优先级队列，在保证请求速率始终在限制内的同时对请求进行优先级调度。 •通过缓存成本高昂的操作，防止对按使用付费服务的重复请求，•减轻对受限服务的负载，提升应用程序性能并降低成本基于现有技术还是从零开始？通过扩展插件增强AI服务管理现有的技术基础之上扩展支持PART 03 声明式API支持增强AI服务管理 LLM请求路由 LLM请求路由 LLM请求路由 •自动完成HTTP到HTTPS协议升级•自动配置model、stream以及API_KEY。 LLM请求路由根据用户身份动态调整后端模型 LLM请求路由按比例在多个Provider之间分发流量 LLM请求安全防护 LLM请求安全防护多种安全模型：基于入口网关、sidecar以及基于出口网关应用无感 •Sidecar作为策略执行点。•适用于三方业务•链路简单，可执行敏感信息检测、HTTPS发起、API_KEY轮换能力等 LLM请求安全防护多种安全模型：基于入口网关、sidecar以及基于出口网关应用无感 LLM请求安全防护以入口网关模型为例：入口网关作为策略执行点。使用ASMSecurityPolicyAPI对请求进行校验，防止未经授权客户端访问LLM服务。 LLM请求安全防护 API_KEY管理通过LLMProvider配置 •可以实现流量无损的API_KEY轮转。•API_KEY保存在网关内存中（基于网关的安全模型），客户端无法感知，防止泄漏。 LLM请求安全防护 LLM请求可观测可观测–Log、Metrics、Trace,兼容OpenTelemetry标准基于服务网格原生Telemetry资源定制监控指标访问日志增强 •自定义访问日志字段•支持查看请求级别的token消耗情况、请求model•动态配置，范围灵活 •Prompt_tokens•Completion_tokens维度•请求源信息•目标Provider•Model原生指标增强 ModelServiceMesh:用于管理GenAI/LLM工作负载的统一方式PART 04 Model ServiceMesh=ServiceMesh+ModelServicePipeline 案例分享–简化版GenAI示例：ChatQnA THANKS

点击免费查看完整报告