AI智能总结
讲师简介 2017年华南理工大学硕士毕业后,加入联想数据中心部门负责故障预测等工作。2019年加入虎牙直播,在质量,效率和成本三个方面落地AIOps。涉及异常检测,多维度根因定位,时序预测,智能弹性和大数据算力调度等相关工作。 郑健彦 HUYA基础保障部AIOpsleader -亮点介绍&案例背景-基于AI预测的日常弹性-业务容量模型-基于容量模型的赛事弹性-边缘算力智能弹性 亮点介绍 •什么是智能弹性AI-HPA?•科学计算一年流量最高的时刻需要准备的算力资源•保证在线服务在7*24h下不过载•一键对所有服务预扩容到所需的容量 案例背景 •在直播场景下,流量呈单峰结构 案例背景 基于AI预测的日常弹性(AI-HPA的常规模式) 核心实践1 -基于AI预测的日常弹性 为什么需要预测? •标准的HPA是基于指标阈值进行伸缩的,常见的指标主要是CPU、内存。•但是基于指标的伸缩存在一定的时延,这个时延主要包含:采集时延+上报时延+伸缩时延。•当负载的峰值毛刺非常尖锐时,可能会由于HPA的时延造成副本数目无法及时变化,短时间内应用的整体负载飙高,响应时间变慢。 核心实践1 -基于AI预测的日常弹性 Idea:系统在服务指标突增之前进行提前扩容总体架构: 核心实践1 -基于AI预测的日常弹性 •服务的副本数计算公式 max(预测指标,当前指标) >扩容阈值?->扩容max(预测指标,当前指标) <缩容阈值?->缩容 •通过训练和预测生成“AI HPA定时伸缩配置” 核心实践1 -基于AI预测的日常弹性 预测算法:LightGBM支持分位数回归不用处理缺失方便利用特征工程做一些处理 成本:每个分组“取数据+训练+预测“15s完成 典型服务预测准确率:90+% 我理解AI-HPA相对于HPA解决了弹性扩容滞后的问题,是一种成本换质量的方法,如何能利用这个节省成本呢? 核心实践1 -基于AI预测的日常弹性 业务容量模型 保障服务在赛事期间的质量稳定 核心实践2 -业务容量模型 赛事-游戏直播界的“双十一” 如何用最低的算力成本保障赛事期间质量的稳定? •哪些应用是赛事PCU相关的?•应用在特定的PCU下需要多少资源? 核心实践2 -业务容量模型 哪些应用是赛事PCU相关的? 容量模型:PCU与使用核数的关系 •很多核心服务的峰值核数和峰值PCU的线性相关性很强 •应用发版等可能会导致资源使用发生变化(如右图三)这意味着我们不能直接取长时间每天一个点的数据来回归。 核心实践2 -业务容量模型 应用在特定的PCU下需要多少资源? 对总PCU做线性回归,但只考虑赛事那一段 •可解释性:k意味着每观众PCU需要多使用多少核 •是否赛事PCU相关赛事PCU相关应用:相关系数> 0.9对与赛事PCU无关的的服务,k为0,b为高峰期使用核数 核心实践2 -业务容量模型 训练和更新 •更新周期:一周一次•准确率整体准确率为89.35%资源使用top100的应用准确率:90.43% 基于容量模型的赛事弹性(AI-HPA的赛事模式) 核心实践3 -基于容量模型的赛事弹性 总体架构 将容量模型植入AI-HPA,实现根据PCU扩容 将预估PCU和实时PCU输入容量模型,得到预测使用核数,进而得到预测CPU使用率,k8s比较预测CPU使用率和扩缩容阈值,决定是否要扩缩容 •日常小赛事由实时PCU进行扩容(PCU>?赛事AI-HPA模式自动生效)•大赛事配置预估PCU,提前扩容 期望副本数=ceil当前副本数×풎� 周期预测,赛事预测,当前指标期望指标 核心实践3 -基于容量模型的赛事弹性 配置预估的PCU 核心实践3 -基于容量模型的赛事弹性 核心实践3 -基于容量模型的赛事弹性 核心实践3 -基于容量模型的赛事弹性 应对cpu的赛事突增&周期性突增的提前扩容效果 核心实践3 -基于容量模型的赛事弹性 通过精准预估赛事高PCU时所需资源,可以看资源是否充足,且提前和云厂商报备 核心实践3 -基于容量模型的赛事弹性 容量&准确率巡检 核心实践3 -基于容量模型的赛事弹性 核心实践3 -基于容量模型的赛事弹性 容量&准确率巡检 •可视化调整模型•确保整体服务容量模型准确率> 85% •反例: (无容量模型)or(容量模型不准)导致扩容滞后- >服务过载- >影响用户 成果展示3-基于容量模型的赛事弹性 红色竖线处上线了赛事模式,整体的黄金指标质量开始变好可用率:晚高峰时所有黄金指标成功率的最小值的平均(分钟粒度) 成果展示3-基于容量模型的赛事弹性 AI-HPA&容量模型如何影响应用部署架构&节省成本: 1.改变了赛事时中心机房部署架构 增加SET模式->固定SET+AI-HPA赛事模式弹性成本收益:节省SET内非弹性应用的算力 2.改变了日常时的应用架构 日常SET数量缩小一倍 边缘算力智能弹性 核心实践4 -边缘算力智能弹性 边缘算力背景: •边缘算力特点:机器按天/月收费or按小时计费但手续费很高•虎牙部署在边缘机房的业务:信令,音视频相关服务(转码,P2P)等•信令,音视频P2P是高观众PCU相关的业务,转码服务是高主播PCU业务 痛点&问题: •边缘算力保持在一个比较高的水平,利用率低,浪费资源•面临高PCU时资源预估不准 核心实践4 -边缘算力智能弹性 整体架构 弹性思想: •实时监控指标作为兜底(CPU使用率)•业务指标弹性为主信令&音视频P2P->观众PCU音视频转码->主播PCU•按天扩缩 成果展示4-边缘算力智能弹性 信令业务边缘算力智能弹性上线后效果图 微 信 官 方 公 众 号 : 壹 佰 案 例关 注 查 看 更 多 年 度 实 践 案 例