futureliu(刘庆兴)主讲人:腾讯云智能顾问产品负责人 智能顾问助力客户用好云平台全景图游戏行业治理场景和效果分享CloudQ–全球首款“领域虾”发布010203 目录 01.智能顾问产品全景图 全球首款可视化AI架构治理平台 智能顾问:卓越架构治理 运营端协同 腾讯云专家运营端协同治理 3.7 W+客户已形成卓越架构治理习惯 以架构图为核心上下文,释放AI云上治理实战价值 02.游戏行业治理场景和效果 架构梳理/风险发现/容量管理和多云纳管 游戏运维面临的6大核心挑战 每一个都可能让CTO深夜被叫醒——卓越架构六大支柱维度 卓越运营 可持续性 长线挑战 效率瓶颈 架构技术债越积越多,技术演进跟不上业务 从“看清单”到“看架构” After:6层架构 业务/领域层TPS · MOBA · RPG · SLG ·休闲 软件系统层A游戏· B游戏· C游戏 应用/服务层云服务器·云数据库· COS · CDN 实例层实例-1 ·实例-2 · ... ·实例-5 模块/组件层如OpenClaw,部署在云服务器/容器服务中 代码/脚本层如SKILL,实现模块/组件的源代码 只有清单,没有架构、没有层次、没有关系 层层可下钻,从业务一直穿透到代码 6层架构,看清资源关系与依赖 游戏开服及大版本更新—重保护航 CTO核心关注:怎样让每一次开服都从容不迫? 治理前 高可用建设—混沌演练+预案管理 运维负责人关注:如何从被动救火转向主动防御? 故障注入 验证修复 130+故障原子能力CVM/网络/DB全覆盖 实战案例:某游戏企业新服上线压测+演练 方案设计模拟高并发流量+多类故障场景注入+应用层稳态观测演练场景负载→压力→并发→全链路治理效果提前发现3类性能瓶颈,0线上事故 成本优化—容量治理+资源右移 CTO + CFO关注:如何在保障体验的前提下降本增效? 成本黑洞,资源配置不合理 30% 资源浪费自动扩容替代人工操作 年云费用节省多云纳管+自动弹性 游戏行业客户案例 客户故事:「全栈治理者」如何使用智能顾问 游戏行业客户案例 更多客户案例,沉淀为游戏行业最佳实践 1某头部MMORPG:故障MTTR从15分钟降至3分钟 2某SLG出海大作:5套监控统一为1个可视化平台 TSA卓越架构治理:游戏行业技术支持白皮书 3某FPS竞技游戏:自动扩容替代人工,多云资源零浪费 某休闲游戏工作室:SKILL编排实现全自动故障自愈 腾讯云技术支持团队&TSA官方出品 某二次元手游:全链路可观测覆盖,版本上线零事故 完整接入指南游戏运维最佳实践\行业标杆案例集 某开放世界端游:架构治理6层穿透,定位提速10倍 某棋牌平台:多云纳管+成本优化,年省40%云费用 请联系腾讯云侧接口人获取 4月上线国际站,助力全球化出海更稳 CTO关注:新加坡、硅谷、韩国都有服务器,如何统一管理? 统一数据接入 不同云厂商的指标、日志、链路数据统一采集与标准化,打破数据孤岛 统一治理策略 告警规则、SKILL编排、合规策略跨云统一配置,自动同步生效 统一可视化面板 一个控制台看清全部云资源,跨地域架构拓扑全貌一目了然 03.全球首款ITOM“领域虾”随时随地治理云,Just QIT! CloudQ:一个龙虾管好多云 直连微信、QQ、飞书、钉钉、Slack等IM,Q一下掌握架构最新动态,治理报告一句话导出 CloudQ—Just Q IT! 专业服务只为助力客户用好云! 获取白皮书 开通试用环境体验全栈可视化当前服务免费 卓越架构治理白皮书生成式AI治理白皮书游戏行业最佳实践 全渠道ChatOps一只Q管多云Just Q IT! 共建运维自动化生态让SKILL帮你值夜班OpenClaw开放接入 扫码加群即刻将CloudQ嵌入你的云管理平台 谢谢观看 大模型时代AIOPS技术变革 分享人:刘伟腾讯云华东游戏架构师 ⽬录 CONTENTS AI驱动需求管理智能需求分析与自动化拆解 AI智能开发代码生成、审查与智能辅助 AI驱动发布变更智能风险评估与自动化部署 AI驱动故障处理根因分析、自愈与智能告警 未来趋势与技术前瞻大模型演进与下一代运维架构 FinOps+AI精细化成本控制资源优化与智能成本预测 引⾔:⼤模型重构研发运维 ⼤模型正经历从“辅助⼯具”向“核⼼⽣产⼒”的跨越式进化,通过五⼤技术范式,深度重构研发运维的全链路流程。 RAG检索增强 MCP协议 Function Calling 打破⼤模型知识边界,融合企业私有知识库与实时运维数据,提供精准、上下⽂感知的智能问答与故障诊断能⼒。 标准化⼤模型与外部⼯具的通信协议,实现自然语⾔到运维操作的⽆缝转换,将15-20步⼈⼯流程封装为统⼀API接⼝。 赋予⼤模型“动⼿”能⼒,⽆缝对接现有运维⼯具链与API接⼝,实现从“给出建议”到“⾃动执⾏”的闭环操作。 Skills技能封装 Multi-Agent协同 将运维领域专业知识封装为可复⽤的技能模块,⽀持动态加载与组合调⽤,实现运维能⼒的标准化与规模化复制。 构建多智能体协作⽹络,模拟⼈类专家团队,在复杂故障排查、架构设计等场景中实现自主规划、分⼯与协作。 全链路总览图 AI-DRIVEN FULL LIFECYCLE OVERVIEW 传统痛点与AI解决⽅案对⽐ AI智能解决⽅案 传统需求管理痛点 结构化解析与智能补全 描述模糊与歧义 ⼤模型⾃动解析⾮结构化需求⽂本,提取关键实体与业务逻辑,并基于知识库智能补全缺失的边界条件与异常处理分⽀。 需求⽂档缺乏统一标准,自然语⾔描述常存在语义歧义,导致开发与测试⼈员理解偏差,沟通成本⾼昂。 ⻛险前置识别与拦截 边界与异常缺失 在需求阶段即进⾏逻辑冲突检测、系统依赖分析与安全合规扫描,将潜在风险拦截在开发之前,实现真正的"左移"。 ⼈⼯编写极易遗漏异常场景、⾮功能性需求及系统边界条件,导致系统健壮性难以在设计初期得到保障。 3⻛险识别严重后置逻辑漏洞与架构冲突往往在测试甚⾄上线阶段才暴露,此时修复成本呈指数级上升,严重影响交付周期。 ⾃动化评审与⽤例生成 ⾃动生成多维度的评审意⻅报告,并同步输出测试⽤例草案,⼤幅提升需求评审的效率与最终交付质量。 AI四层能⼒体系 从基础质量保障到完全自动执⾏的智能化演进路径 AI REVIEW ARCHITECTUREAI双层评审流程 Intelligent R&D Pipeline 双层智能评审机制 知识库精准瘦身策略 需求评审(Requirement Review) 高价值数据提纯 剔除冗余历史版本,提取核心架构决策与⾼频故障根因,构建⾼质量向量索引。 基于大模型深度解析PRD文档,自动识别逻辑冲突、边界条件遗漏及非功能性需求缺失。构建需求知识图谱,确保源头设计的完整性。 动态上下文截断基于语义相关性动态计算Token窗口,在保证上下文完整性的同时降低推理成本。 分级检索架构 实现"元数据过滤+稠密向量检索+重排序"的三段式架构,检索准确率提升⾄95%以上。 技术方案评审(Tech Design Review) 对齐企业架构规范与历史最佳实践,自动评估技术选型合理性、系统扩展性及潜在性能瓶颈。输出结构化评审报告与优化建议。 评审效率提升 AI智能开发 三代范式演进 Spec Coding核⼼⼯作流 重塑研发范式,实现从需求到代码的⽆缝转化 Spec-Kit三⽂件体系STANDARDIZED SPECIFICATION FRAMEWORK tasks.md原子任务拆解 design.md requirements.md 系统架构护栏 Given/When/Then验收标准 采用行为驱动开发(BDD)范式,通过标准化的Given/When/Then结构,精确定义业务场景与验收条件。消除自然语⾔歧义,为AI编码提供确定性的目标输入。 确立系统边界、接口契约与技术规范。作为AI生成代码的"架构护栏",强制约束代码结构、安全策略与性能指标,有效防止架构腐化与技术债务累积。 将复杂需求降维拆解为可独立执⾏、可测试的原子级开发任务。为AI Agent提供精确的上下文边界,确保每步生成的代码⾼度聚焦且易于验证。 Given:初始状态When:触发动作Then:预期结果 接口契约数据模型安全规范 CHAPTER 03 AI驱动发布变更 传统运维痛点 繁杂的传统操作链路 操作极其复杂 单次常规运维任务通常需要跨越多个异构系统,经历15-20步繁琐的⼿⼯配置与确认,流程冗⻓且缺乏标准化。 极易产⽣⼈为错误 ⾼度依赖⼈⼯经验与记忆,在疲劳或⾼压状态下,极易出现配置遗漏、参数填错等问题,导致线上故障频发。 执⾏效率低下 串⾏化的⼿⼯操作模式耗时巨⼤,响应速度慢,完全⽆法满⾜现代业务敏捷迭代与海量规模的交付需求。 四层联动架构 端到端智能运维体系的层级流转机制 ⽤户层 MCP SKILLS ARCHITECTURE ⾃然语⾔指令运维⼈员通过对话界⾯输⼊⽇常语⾔描述的运维需求与故障现象。L1 智能体层 意图识别与决策⼤模型解析指令意图,拆解任务步骤,并规划调⽤相应的⼯具链。L2 MCP⼯具层 标准化接口 模型上下⽂协议(MCP)提供统一标准,将⼤模型与各类运维⼯具⽆缝对接。 执⾏层 CI/CD与基础设施底层系统执⾏具体操作,如代码部署、资源扩缩容、故障隔离等。L4 ⼯具封装技术 业务效能提升 效果数据验证 发布耗时降低 CHAPTER 04 AI驱动故障处理 AI-DRIVEN FAULT MANAGEMENT & RESOLUTION 告警风暴痛点与主动感知方案 ALERT STORM PAIN POINTS & ACTIVE PERCEPTION 传统监控痛点 主动感知方案 静态阈值僵化 无阈值动态检测 依赖⼈⼯配置固定阈值,⽆法适应业务流量的周期性波动与动态变化,维护成本极⾼。 基于大模型与机器学习算法,自动学习历史数据特征,生成动态基线,实现自适应异常检测。 多维指标聚类降噪 告警噪音过载 微小的指标抖动极易触发⼤量⽆效告警,形成“告警风暴”,导致运维⼈员产生告警疲劳。 通过拓扑关系与时序相关性分析,将海量告警智能聚类收敛,⼤幅降低噪音,提取核心事件。 根因定位困难 异常主动预警 海量并发告警相互掩盖,缺乏上下文关联,难以在第一时间剥离表象找到真实故障源。 在故障全面爆发前,敏锐捕捉微小异常趋势,实现从“被动响应”到“主动感知”的范式转变。 AIOPS CORE TECHNOLOGY ⽆阈值异常检测 基于STL时序分解的智能判定 STL时序分解模型 ⾃动学习业务周期 摒弃传统静态阈值配置。算法持续摄取历史数据,动态提取并适应业务的⽇、周、月等周期性特征,有效应对业务形态的自然演进与突发流量。 5秒内极速判定 基于高性能流式计算架构,实现毫秒级数据摄取与实时分解计算。从异常指标产生到系统确诊告警,全链路延迟控制在5秒以内,抢占故障恢复黄金时间。 Agent五步排查法 标准化故障定位流程,构建智能运维闭环 智能知识库构建与⽇报⾃动⽣成 INTELLIGENT KNOWLEDGE BASE & AUTOMATED REPORTING ⽇报⾃动⽣成 智能知识库构建 多源异构数据融合 多维指标智能提取 整合历史⼯单、告警⽇志、操作⼿册及专家经验,打破数据孤岛,构建统一运维语料库。 自动对接监控系统API,定时抓取核心业务指标、资源水位及告警统计,确保数据零遗漏。 向量化存储与语义检索 异常事件深度分析 采用先进Embedding模型进⾏知识向量化,⽀持自然语⾔模糊查询,精准匹配历史相似故障。