AI智能总结
汪喆字节跳动 汪喆 公司职位字节跳动云原生架构师 专注于云原生调度策略方向,在在离线混部、统一调度等方向有大规模集群下的实战与落地经验。目前就职于字节跳动,主要参与云原生资源效能方向的工作;Katalyst开发者。 集群资源运营 目录 时间序列预测与资源画像 时序预测在效能提升中的应用 未来展望 集群资源运营 提 升 部 署 密 度 弹 性 伸 缩 , 分 时 复 用 潮 汐 混 部在 离 线 常 态 混 部H PAV PA 资 源 超 分规 格 推 荐 提 升 有 效 利 用 率 资 源 稳 定 性 真 实 利 用 率 调 度重 调 度 拓 扑 感 知 调 度减 少 集 群 资 源 碎 片 集群资源运营 时间序列预测与资源画像 时间序列预测 应用的负载往往具有周期性:如何衡量序列的周期性强弱?如何结合序列的频域信息和时域信息,更好地对序列进行预测? 在线(短期)数据预测:如何对一个负载不同的数据分布模式进行预测? 应对更多的用户场景:开箱即用的算法模块 时间序列预测 ATFNet ATFNet主要包括三部分:1. T-Block从时域获取局部依赖性 2. F-Block从频域获取全局依赖性 3. The Dominant HarmonicSeries Energy Weighting根据输入序列的周期性动态调整时域和频域模块的权重 "ATFNet: Adaptive Time-Frequency Ensembled Network for Long-term Time Series Forecasting."arXivpreprint arXiv:2404.05192(2024) 时间序列预测 Q1.实际系统的工作负载数据包含不同的工作负载模式和数据分布漂移 A1.首先将预测问题定义为时间序列的在线区间预测问题(OnPred-Int)。然后提出了一种集成策略,结合各种基本预测模型以适应不同的工作负载模式。 Q2.为了保证SLA,负载预测的结果尽可能比真实值稍高一些 "IPOC: An Adaptive Interval Prediction Model based on Online Chasing and Conformal Inference for Large-Scale Systems."Proceedings of the 29th ACMSIGKDD Conference on Knowledge Discovery and Data Mining. 2023. 时间序列预测 分解集成思想 基于传统统计预测方法,利用分解集成预测思想优化,开箱即用,适配更多用户场景。 资源画像 资源画像对上层提供统一的抽象资源/接口,便于应用对接。 对下可以与ByteBrain服务(开箱即用,输入历史数据,输出预测结果)以及时序预测系统(内部AI系统),获取预测结果。 时序预测在效能提升中的应用 时序预测在效能提升中的应用 时序预测在效能提升中的应用-动态超分 热插拔 通 过w e b h o o k拦 截 并 修 改 节 点 资 源 完 成 超 卖 , 不 入 侵k u b e r n e t e s系 统 。可 在 生 产 集 群 热 插 拔 。 动态超分 基 于 负 载 的 时 序 预 测 数 据 实 现 更 精 确 的 超 分 比 预 测 ,结 合 实 时 数 据 对 异 常 负 载 进 行 校 正 。 干扰检测能力增强 增 加 节 点C P U l o a d、 内 存 回 收 速 率 等 干 扰 检 测 维 度 ,提 供 禁 用 调 度 、 驱 逐 等 多 种 干 扰 缓 解 措 施 。 时序预测在效能提升中的应用-动态超分 Overcommit webhook 通过拦截kubelet上报请求,修改节点可用资源总量,实现业务无感的资源超分 portrait controller资源画像,基于时序预测服务生成工作负载的时序预测数据 katalyst agent 单机资源管理agent,基于节点实时监控指标计算超分比,并上报至集群。 overcommit controller 基于应用画像计算节点超分比,结合节点上报的实时数据对异常场景进行校正。 时序预测在效能提升中的应用-动态超分 通过负载/应用的时序画像预估节点负载 时序预测在效能提升中的应用-动态超分 时序预测在效能提升中的应用-真实负载调度 真实负载调度 原 生 策 略 基 于 资 源 申 请 量 调 度 , 不 感 知 实 际 负 载 , 无 法 调 节 集 群 负 载 水 位 。 时序预测数据 结 合 应 用 长 周 期 时 序 预 测 数 据 与 节 点 短 周 期 时 序 预 测 数 据 , 提 升 负 载 调 度 计算 准 确 性 。 对接其他资源运营能力 配 合 规 格 推 荐 、 超 分 等 其 他 运 营 手 段 , 保 证 集 群 负 载 稳 定 性 。 时序预测在效能提升中的应用-真实负载调度 l通过应用的时序预测数据计算节点长周期的时序负载,规避未来可能出现的负载高峰。l通过节点短周期的时序预测数据,感知当前节点负载状况,规避节点异常负载场景。l通过scheduler-plugin进行插拔,兼容更多资源运营场景。 时序预测在效能提升中的应用-智能HPA 时序数据预测 根 据 时 序 序 列 预 测 数 据 , 针 对 有 时 间 周 期 规 律 的 应 用 解 决业务流量突发,资源扩缩容响应滞后问 题 免运维 传 统 的H PA和c r o n H PA需 要 面 对 弹 性 滞 后 以 及 配 置 复 杂 问 题 , 因 此I H PA(智 能H PA)应 运 而 生 。 数据驱动 基 于 历 史 维 度 的C P U、内 存 等 资 源 用 量 或Q P S、时 延 等 业 务 指 标 ,结 合 时 序 推 荐 推 荐 算 法 训 练 副 本 数 推 荐 模 型 。 时序预测在效能提升中的应用–智能HPA lIHPA Resource:智能HPA提供的声明式API,面向用户管理弹性策略 lIHPAController:主要进行弹性管理,包括metrics管理、弹性策略应用等 lByteBrain:主要进行预测分析和预测算法管理 lHPAResource:IHPAController基于用户配置的IHPA Resource自动生成的K8sHPAResource,用来执行弹性策略 时序预测在效能提升中的应用-智能HPA 资源收益节约45% •由于集群规模和负载规模持续变大,配置HPA的成本持续升高,并且对运维人员来说,确保众多负载的每日刷新是一个挑战,并且使用传统HPA造成的扩容不及时会导致业务有损,oncall增加,使用了IHPA能力后,HPA配置成本降低了90%,因为弹性不及时导致的oncall下降了60%。 •通过使用IHPA能力,在某业务线进行应用,该业务线的工作负载下的平均利用率基本在20%左右,通过使用IHPA能力,在闲时缩容,保持了平均50%利用率的水平,该业务线的2.3W核应用通过使用IHPA之后,波谷期间保持在1W核左右,在波峰时为2W核左右,每天核时由55W核时-> 30W核时,节约了45%的资源。 运维收益成本降低90% 时序预测在效能提升中的应用–规格推荐 智能规格推荐 基 针 对 指 定 工 作 负 载 , 结 合 历 史 资 源画 像和 实 时 资 源利用 率状 况,给 出合理的 规 格 推荐 。 资源画像 基 于 历 史 维 度 的CPU、内 存 、磁 盘、网 络资 源消 耗, 训 练迭 代资 源画 像模型 , 用 于 规 格 推 荐 。 可 以 预 测 负 载 资 源 需求 趋 势。 资源规格自动修正 基 通 过W e b h o o k (自定义 网 络回 调), 根 据 推 荐 规 格 修 改服务 发布时的r e q u e s t值, 提 升 集 群装载 率 。 时序预测在效能提升中的应用–规格推荐 Resource-Recommend-Controller 基于pod的历史运行数据和资源画像进行最优规格计算,并给出优化建议 OOM-Recorder 记录pod的历史OOM信息,作为规格计算的输入 Resource-Webhook Mutating Admission Webhook,在pod创建和更新时自动调整规格 Flavor-Analyzer 规格推荐的CR,用户可以apply该CR,从而触发规格推荐controller执行 时序预测在效能提升中的应用-规格推荐 应用收益 Controller治理,各类add-on controller (如daemon controller、hpacontroller等)作为内部集群的重要组件,资源占用量较大且稳定性要求高,通过规格推荐这些服务的实例规格主要可以获得的收益是包括两方面:资源收益&运维收益 408->0 3.1Wcore 5k->0 天级OOM报警数下降408 (占比6%)-> 0 天级资源相关报警数由5k (占比75%)-> 0。 未来展望 常态混部 异常检测 服务质量体系 社区开源 感谢大家观看