您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[2024AI研发数字峰会AiDD北京站]:周彩钦-基于GenAI的混合云智能运维实践 - 发现报告

周彩钦-基于GenAI的混合云智能运维实践

AI智能总结
查看更多
周彩钦-基于GenAI的混合云智能运维实践

基于GenAI的混合云智能运维实践 周彩钦联想 演讲嘉宾 周彩钦 联想/混合云产品研发总监 联想混合云产品研发总监,负责联想xCloud产品的研发。在技术研发和团队管理方面拥有丰富的经验,成功带领团队开发了AIOps、云原生平台等前沿产品。通过这些创新,推动了联想智能运维转型,实现卓越运维。 1.联想混合云智能运维发展历程2.GenAI混合云智能运维架构3.GenAI的运维应用场景4.实践经验与展望 目录CONTENTS 联想混合云智能运维发展历程PART 01 联想IT发展历程 联想智能运维发展历程 GenAI混合云智能运维架构PART 02 GenAI混合云智能运维架构-联想xCloud AIOps 联想xCloudAIOps是企业级IT运维智能管理解决方案,以数据驱动的智能分析为脑,以可观测的监控告警为眼,以任务驱动的自动化平台为手脚,实现混合云环境端到端的智能管理。 智能分析平台设计 联想智能分析平台(AIAnalysis)基于判别式AI技术,旨在为xCloudAIOps产品提供传统算法服务支持,涵盖从异常检测、根因分析到成本控制和资源优化的多个智能运维场景,助力企业提升IT运维效率和系统稳定性。 联想智小星(xSpark)-基于GenAI的IT运营智能体 联想智小星(LenovoxSpark)是基于生成式AI的IT运营智能体,可嵌入或集成到xCloudAIOps产品中。全面提升IT运维效率和用户交互体验。 业务价值 GenAI赋能IT运营 依托xCloud产品生态,整合企业IT运营知识和工具,为企业提供一体化的智能运营解决方案 保障数据安全 •支持内部部署,确保企业数据安全•与第三方系统开放式集成 提升运营效率 根因分析效率提升运维研发效能任务执⾏效率18%11%22% GenAI的运维应用场景PART 03 智能运维场景介绍-Gartner •运维场景从业务导向出发,场景分类和业务价值没有本质改变; •结合GenAI技术,应更多关注对技术可行性评估带来的改变和技术实现路线; 总结 联想xCloud AIOps-智能运维场景总览 联想xCloudAIOps秉承“AIasaService,AIEverywhere”的战略,全面整合判别式AI和生成式AI算法,提升智能运维能力。 运维故障解决推荐 方案描述与价值 痛点及挑战 •基于运维大模型,结合RAG技术,结合运维告警信息以及企业内部历史解决方案沉淀,提供定制化的洞察和准确的解决方案建议。•在警报和事件分析中提高了18%的效率,导致响应时间更快,整体系统可靠性得到提升。 •传统的事件诊断通常严重依赖专家领域知识。 •通常需要从各种来源提取不同的数据,导致在识别和解决问题时出现延迟,影响系统性能和用户体验。 GenAIIT自服务-智能运维执行助手 痛点及挑战 方案描述与价值 •智能IT自服务:结合运维插件,用智能体实现用户自服务 •在IT运维中,存在大量重复性任务。 •提高用户自助服务率,减少操作人员的工作量。 •操作人员通常需要执行跨平台查询以满足一个简单的用户请求。 •在常规运维任务执行中提高了22%的效率。 GenAI智能自动化应用场景 痛点及挑战 方案描述与价值 •IT运维经常需要创建和维护各种脚本,用于在不同系统上执行安装、部署和备份等任务。•手动开发脚本大量占用人力开发资源。 •GenAI支持的运维脚本开发,由专用代码模型驱动。 •辅助生成自动化操作脚本:自动生成代码、智能建议和自动填写注释。•运维脚本开发效率提高了11%,降低运维编码门槛。 GenAI智能自动化应用场景 痛点及挑战 方案描述与价值 •辅助RPA脚本的自动生成,同时,模拟人类大脑赋予认知能力,在RPA中起到分析与决策作用,实现更加灵活的智能自动化。 •数字经济带来员工与应用交互的场景数量上涨,对RPA技术需求在不断增长。•RPA低代码配置技术比较僵硬,需要编码判断规则。 GenAI智能可观测性应用场景 痛点及挑战 方案描述与价值 •AI赋能可观测性的全生命周期,提升系统内部的状态、行为和性能等方面的观察、分析和监控的程度。•利用混合AI策略,涵盖事件事前、事中和事后不同阶段,提升运维处置效 •多样化且分散的监控工具,缺乏端到端的监控视图和自助监控。 •传统监控运维,需要大量依赖规则和专家经验,故障排查困难。 事前:健康度评估、指标趋势预测等辅助IT运营风险防控、容量预测辅助资源精准规划、IT运营成本控制,降低故障发生数量;事中:告警智能收敛及解决方案智能推荐等提升IT资源可观测性及告警效率,运维人员实时响应和处理,减少故障持续时间;事后:根因分析、故障定位、影响面分析等辅助运维人员深入了解问题根因,提升运维质量及效率。 GenAI运营数据洞察应用场景 痛点及挑战 方案描述与价值 •大量的数据分散在数据孤岛中,需要快速进行数据挖掘与展示,发现数据的价值以指导运营。 •利用生成式AI技术,打造运营数据查询与分析助手,让用户轻松实现运营数据报表构建与分析洞察。 数据探索性分析 报表配置 数据分析 数据ETL 人工分析数据趋势 一键生成&智能美化 对话式智能分析 推荐图表加入备选后,可一键生成大屏。借助智能主题可进行配色、布局、边框元素的优化。 仅需勾选字段,AI引擎自动推荐字段组合和聚合方式,并用合适的图表进行展示,快速构建图表。 基于决策式AI,对数据进行趋势、对比分析等。利用生成式AI,对话式交互,生成分析报告。 通过拖拉拽配置方式,即可完成数据接入与建模。配置数据查询助手,自动生成查询SQL。 实践经验与展望PART 04 GenAI智能运维应用实践经验–场景与模型选择 •结合GenAI擅长的领域(内容生成/总结,RAG,Code生成等)以及运维实际场景,选择采用合适的GenAI方法。 •开闭源模型各有所长,不同场景选择不同模型。 总结 •数据安全会影响模型的选择(开源/闭源,私有化部署/公有云)。 •构建模型运维追踪体系,通过量化指标定义模型表现,持续优化提升AI场景表现。 GenAI智能运维应用实践经验–工程落地 •AIEverywhere:GenAI嵌入到产品的实际功能场景中,触手可得,发挥价值;•持续运营,效果监测,不断优化(提示词/知识库/Fine Tune等)。•企业为确保生成式AI顺利落地,应协同产品经理和研发团队,推动一体化:包括体验一体化、数据一体化、架构一体化、流程一体化这四个主要方向;•提供统一入口、可扩展、可复用、可组装的一体化架构。 总结 体验一体化 数据一体化 架构一体化 流程一体化 提供一致的连续的用户界面使用体验 设计一体化的技术架构,实现可复用的可组装的平台技术架构 针对用户端到端场景,设计连续的业务流程,打通各组件模块,实现一体化的流程 统一并建立核心数据/权限模型,实现平台数据打通,保证数据一致性 RAG在AIOps领域遇到的挑战与解决方案 智能体在AIOps领域遇到的挑战与解决方案 解决方案 问题描述 •大模型智能体在与人类主导的决策和控制能力存在差距,正确调整业务预期。•场景化的提示工程和意图理解,不存在一个提示工程机制适用于所有业务场景;•收敛智能体任务边界,任务类型单一,指令明确;•限制智能体的自主选择环节,减少可用工具的数量和自助迭代的轮数;•构建自动化的智能体应用评估体系。 智能体应用的体验和准确性差;在“可玩”和“可用”间存在差距。 •加强一体化设计,自研智能运维平台接口的自动注册;•对于行业运维平台,集成适配,简单配置,自动拉取相应工具。 缺乏有效的运维工具接入 GenAI智能运维应用展望 随着GenAI的发展,应用场景将逐渐从嵌入模式,助理模式升级到智能体模式,IT运营智能体将助力企业实现智能卓越运营 THANKS