您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[XOps 风向标!GOPS 全球运维大会暨研运数智化技术峰会 2024 · 上海站]:咪咕互娱云游戏平台智能化运维与可观测性实践探索- 周鸣 - 发现报告

咪咕互娱云游戏平台智能化运维与可观测性实践探索- 周鸣

AI智能总结
查看更多
咪咕互娱云游戏平台智能化运维与可观测性实践探索- 周鸣

个人简介 周 鸣 咪 咕 互 动 娱 乐 有 限 公 司运 维 总 监 拥有超过10年以上的IT行业经验,精通各种主流的操作系统、数据库、网络设备和虚拟化技术。在云计算、大数据、人工智能等领域也有深入的研究和实践经验。带领运维团队不断优化和升级企业的IT系统,提高系统的可靠性、安全性和可扩展性,以确保运维工作与企业的业务目标紧密结合,从而推动企业的发展和创新。 云游戏介绍 运维存在问题(背景、困难) 目录 解决思路及取得成效 弱网实验室赋能产品体验优化 云游戏介绍 什么是云游戏 有什么特色 云游戏是什么 p基于ARM/X86架构的安卓、主机游戏的云化 p无需下载和安装,即点即玩 p无平台限制,可以在任何平台和终端进行访问 以云计算为基础,游戏在云端服务器运行,将渲染完毕后的游戏画面压缩编码后通过网络传送给用户,客户端设备只需要基本的视频解码和输入能力,实现即点即玩的游戏理念。 公司介绍 中国移动通信集团有限公司 “咪咕快游”首个电信级云游戏平台 充分发挥中国移动5G+算力网络的技术优势,探索“5G+X”应用创新,打造了全国首个电信级云游戏平台 算网融合能力行业领先 依托中国移动云能力中心覆盖全国、技术领先、规格齐全的算力网络,基于5G大带宽、低时延、广连接特点及5G网络切片QoS保障等技术,打造云、网、边、端一体化分层分级服务及智能编排能力,提供行业领先的算网融合能力 运维存在问题(背景、困难) 云游戏运维平台整体架构 运维痛点问题 01、成本控制:运维任务多、流程繁琐 02、系统复杂:应用系统上下游依赖关系混乱 04、智能化水平低:故障诊断困难,依赖人工经验 03、可观测能力:系统割裂,无统一可观测大屏展示 行业运维领域聚焦构建先进可观测能力 国家和移动集团文件政策 n2024年《政府工作报告》提出“人工智能+“行动,加快形成以人工智能为引擎的新质生产力n2024年中国移动集团工作会指出要深化AI+赋能应用,提高数智化经营水平。将AI深度运用到经营发展全过程、各领域,使AI成为内外部筑基赋能的核心抓手 云游戏运维平台现状,对标可观测存在局限性 l当前运维能力监控、日志数据、性能指标以局部视角,且数据源单一,业务系统多且复杂,缺少对全栈链路调用关系分析,同时在运维自动化能力待提升 业务系统复杂且数据割裂 云游戏平台监控存在盲区 系统运维能力待提升 l现阶段运维系统工具相互独立,监控分析、问题处理、版本变更等运维工作,当前主要以人工和运维工具辅助相结合,影响运维效率 l快游平台涉及众多子系统,涉及服务器多,系统间依赖关系复杂,系统日志数据相互割裂,任何一个系统出现异常无法精准识别 l目前快游客户端、服务端及算力平台在端到端流程中存在监控盲区,缺乏终端核心维度和服务端链路数据采集 日志查询 解决思路及取得成效 客户端可用性,用户体验可观测 n通过收集咪咕快游客户端的性能数据,分析用户旅程、使用版本、热门页面访问、页面路径和会话详情,及时发现并解决启动时间长、卡顿、白屏和崩溃等问题,以提高客户端的可用性和用户体验 记录用户旅程 客户端崩溃,卡顿监控 业务链路追踪,端到端可观测 n用户反馈云游戏出现启动超时、失败和订购失败等场景,业务流程涉及咪咕快游的前端和后端多个系统及服务组件,问题排查需多方协调,导致响应不够及时,影响用户满意度。通过TraceID实现用户端、网络端、服务端及各应用节点的日志数据全链路关联分析,提升故障定位速度和准确性,快速响应并提升用户满意度 业务指标关联 用户端业务页面性能 故障快速定位 4.错误分析 1.错误率告警频繁发生 2.根因下钻辅助分析 全栈性能剖析,代码级可观测 n快游服务组件代码异常或性能瓶颈场景,开发团队通过在测试环境中埋点日志定位,通过使用链路追踪工具,深入服务端底层捕获应用代码数据,基于链路数据进行性能定位分析,快速追踪到具体代码方法的问题根源,提升问题定位的准确率和效率,缩短故障处理时间 系统能力优化,全域可观测 n构建云游戏平台的容量预测和健康度评估体系,实时监控服务器、应用服务和网络流量,基于系统运行指标进行健康度评分,实现系统容量的及时管理和优化,确保平台稳定运行 云游戏平台分析优化 云游戏平台容量预测 优化建议项 G O P S全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会2 0 2 4·上 海 站 业务指标分析,指标可观测 n云游戏性能体验通过关键指标如游戏启动成功率、卡顿时长、RTT时延和首帧加载时间进行衡量,指标涵盖省份、运营商、终端、版本及机房等多维度。为提升异常分析效率,通过数据采集、聚合、规范化,并基于各指标特性进行特征提取和训练,实现高效的异常检测和根因分析 系统告警降噪,事件闭环可观测 内部生产故障案例分享(1/4) 9月14日21:01收到告警,提示小屏OB集群主节点租户线程使用率和CPU使用率告警,以及服务端接口探测等应用异常告警。 内部生产故障案例分享(2/4) (20:55分开始系统监控到gateway-main-beIa*-SNAPSHOT.jar服务出现大量SocketTimeoutException异常,小屏生产业务出现异常) 内部生产故障案例分享(3/4) 可观测平台分析过程 内部生产故障案例分享(4/4) (ob数据库切换为oracle后,UserController.checkTokenTemp接口的错误率逐渐下降,完全切换完成后,此业务接口恢复正常) 故障原因分析:后台奖品导出语句由于OB优化器功能不健全导致内存1-2分钟快速占满,造成数据库快速hung,其他业务无法正常运行;程序设计每间隔3分钟重新发起,造成数据库每3分钟左右就会重复相同的问题场景。 后续优化举措:1、后台复杂SQL重连机制优化。2、隐患SQL自动发现后block机制。3、完善SQL审核机制,梳理服务端复杂SQL语句并完成分析整改 弱网实验室赋能产品体验优化 全力提升边缘场景用户体验 云游戏引领5G娱乐新纪元,然而云游戏也要适配现实存在的低质量网络环境,全力保障非5G环境下用户的游戏体验为打造极致用户体验,咪咕互娱成立弱网实验室 5G云游戏弱网实验室 模拟用户网络条件,发现/复现用户体验问题 问题复现 在各种类型网络条件下进行对标测评,寻找改进空间 行业对标 对面向弱网体验各种技术优改措施进行量化的效果评估 5G云游戏是网络强依赖的应用。用户在地铁、高铁、车库等环境使用云游戏,受到信号覆盖、人流密度、信号干扰、网络拥堵等多种因素影响,会出现网络质量较差或者不稳定等问题。 弱网实验室能力规划 弱网实验室能力现状 T h a n k s 荣誉出品