AI智能总结
从AI愿景到企业实践03简介 第2章 第1章 运用自动化将智能转化为行动力12第3章 第4章 红帽实现自动化与AI的战略之道15 了解更多 以自动化奠定AI成功基石20 简介 从AI愿景到企业实践 AI不再是未来愿景,而是当下要务。各行各业的企业组织都在努力挖掘AI潜力,以期优化决策、实现重复工作自动化、打造个性化体验并推动创新。然而,尽管热情高涨,准备却远远不足。 数据显示,97%的全球高管对AI充满期待并计划将其纳入运维,但仅有2%的高管认为自身企业组织已做好有效部署AI的准备。¹ 阻碍何在?企业级AI的规模化应用面临诸多挑战,其中有三大关键因素值得所有企业组织关注: 1.基础架构就绪度 2.对警报与异常状况的快速响应 3.对AI应用的信心 您的IT基础架构(包括网络、存储、数据、监控、负载均衡器和应用)是否已实现全面互联并针对AI工作负载进行了优化?该架构是否具备自动化与弹性能力,可在整合全部工具的同时支持AI工作流扩展? 您是否已部署自动化响应和修复机制,可在AI和可观测性工具触发事件时解决相关问题? 您是否有信心掌控运行在当前环境中的自动化系统? 2% 97% 的全球高管对AI充满期待并计划将其纳入运维。¹ 认为自身企业组织已做好有效部署AI的准备。¹ 回答这些问题有助于评估您所在企业组织规模化应用AI的就绪程度,同时也能验证其是否已具备支持AI项目的基础技术与治理框架,以及规模化构建和管理这些项目的团队能力。 AI的隐性成本 与传统工作负载不同,AI平台需要强大的计算基础架构、专用硬件、海量数据管道、一致的环境以及严格的合规管控措施。此外,AI工作负载会随着模型重训练、调优和重新部署而快速演变,因而有别于静态应用环境。 IT运维团队需要投入越来越多的时间来诊断并手动响应自动化报告的错误与性能问题。 这些新兴需求造成了多重运维负担――虽然能够通过适当的方法和保障措施进行管控,但最好是在AI部署初期就做好准备。 当前,众多企业组织正面临这样的困境:AI项目最初通常由数据科学家或AI开发人员推动,而随着生成式AI的引入,许多AI项目现已转为由业务部门直接主导。这会将关注重点转向创新实验和业务成果,而非日常运维。 然而,当AI项目从实验室转向实际生产环境时,便会与可用性、扩展能力、成本效益及安全性等现实需求产生冲突。这正是IT运维与自动化团队需要介入的关键阶段,但往往他们的参与为时已晚。 IT自动化创造AI机遇 若要成功实施AI,必须从一开始就整合IT自动化能力。然而,许多IT运维主管、开发运维(DevOps)工程师和站点可靠性工程师(SRE)却发现自己被排除在AI决策圈之外。这是因为他们往往被视为AI解决方案确定后的实施团队。对许多企业组织而言,这无疑会错失良机。 自动化不仅是AI的支持工具,更能够加倍释放AI潜力。数据显示,69%的CEO认为AI可提升运营效率并降低成本,但仍有35%的CEO担忧其基础架构存在局限性。超半数(55%)的CEO认为,需升级现有网络基础架构和运维体系,为应用AI做好准备。¹ IT主管对其AI基础架构的主要担忧包括:¹ 混合环境中的可视性与自动化能力不足。 不具备为AI工作负载提供支持的合适基础架构。 缺失明确的AI安全与治理策略。 需耗费大量时间手动处理性能问题。 第1章 IT基础架构迎接AI挑战 随着AI从试点项目转向业务关键型部署,企业组织亟需重新评估传统IT环境的能力以应对新挑战。 全球基础架构就绪度持续走低,而各企业组织所预计的AI工作负载量却大幅增长。思科2024年AI就绪度指数从6大关键维度评估了企业就绪度:战略、基础架构、数据、治理、人才与文化。报告显示,尽管59%的企业组织承认,必须在1年内完成AI战略部署,否则将面临负面业务影响,但只有15%的企业组织拥有完善的AI基础架构。² 59% 15% 的企业组织承认,必须在1年内完成AI战略部署,否则将面临负面业务影响。² 的企业组织拥有完善的AI基础架构。² 了解AI就绪度缺口 尽管众多企业正在模型开发与AI人才方面投入重金,却因忽视了AI模型部署与规模化所需的基础架构层,导致就绪度缺口产生并持续扩大。 导致AI就绪度缺口持续扩大的关键因素包括: AI基础架构的复杂性 AI基础架构通常由裸机服务器、GPU、网络、高性能存储、混合云环境和边缘部署组合而成,所有这些构成了一个更加复杂的管理和维护环境。 AI的实施成本与资源压力 管理和训练工作负载、推理服务和数据管道需要持续的资源置备、监控及调优。 AI的动态与不可预测性 AI工作负载会随使用情况剧烈波动,因而需要更敏捷的扩展能力。 除上述因素外,基础架构团队还面临双重职责:既要维护现有(且日益老化)的应用,还需部署现代化的AI服务。这不是简单的直接迁移策略可以实现的。大多数企业组织需要维护一个包含以下要素的混合环境: 需满足多样化合规要求的跨系统复杂数据流。 因其重要性而无法弃用的虚拟机(VM)及老旧平台。 用于训练与推理的云端及本地GPU集群。 托管容器化AI管道的Kubernetes集群。 手动或使用碎片化工具链管理如此复杂的架构环境,将导致瓶颈加剧、风险上升,并使团队难以聚焦高价值的创新项目。 警报疲劳与人工干预阻碍了AI应用的进展 对许多IT运维团队而言,由应用、可观测性平台和安全系统产生的警报数量已达到难以管控的水平。人们普遍存在一个误解,认为AI就是自动化。但实际上,团队仍在耗费过多时间调查自动化错误报告、诊断性能下降问题,并跨工具和团队协调补救工作。 这些障碍拖慢了平均解决时间(MTTR),增加了停机可能性,并削弱了依赖AI产出的利益相关者的信心。 事件驱动型自动化助力弥合差距 如果特定警报能够触发预定义的、基于策略的操作,如重启服务、更新工单、扩展资源或调整配置参数,企业组织就能获取所需的敏捷性,以快速一致且精准的方式实时管理AI工作负载。 详细了解事件驱动型自动化 构建可信AI的安全保障体系 有效的AI基础架构不仅关乎运行时间与效率。AI系统正越来越多地参与决策流程,其决策结果对客户信任度、企业声誉及法规遵从性造成的影响可能是正面的,也可能是负面的。IT团队必须制定并执行相关策略以确保: 数据未被发送至未经授权的位置或服务。 AI工作负载在预先批准的使用边界内运行。 变更与更新仅在预设维护期内执行。 始终如一地落实安全与合规规则。 在多个无序扩张的动态环境中,要想实现自动化,遵守安全与合规标准至关重要。而可重复性、可见性与管控力则是关键要求。《健康保险流通与责任法案》(HIPAA)、《通用数据保护条例》(GDPR)、《支付卡行业数据安全标准》(PCI DSS)、《萨班斯-奥克斯利法案》(SOX)等监管标准使得基础架构要求愈发复杂,当AI系统处理敏感数据或受监管数据时更是如此。 自动化技术可显著改善为确保合规而持续进行的流程。通过红帽®Ansible®自动化平台,企业组织可以将合规检查代码化、执行配置基线并自动修复技术偏差,从而确保支持AI的基础架构始终符合不断变化的监管要求。 第2章 以自动化与AI弥合技术鸿沟 AI虽推动了创新的巨大飞跃,却也加剧了众多企业组织面临的技术缺口。随着基础架构日趋复杂、AI工作负载需求不断增长,许多团队正艰难寻求或培养能跟上技术发展的人才。 即便是经验丰富的基础架构团队,在实施AI时也常面临能力困境。这是因为他们不仅需要维护混合环境、管理GPU、处理海量数据和训练集群、实施策略、保障大规模服务稳定运行,同时还需要掌握新兴工具与平台。 在技能缺口和团队承担的任务组合不断扩大的双重压力下,运维效果、治理和创新都面临风险。 IT自动化是应对这些挑战的关键 随着AI平台日益深入业务关键型工作流,IT团队需要能够在技术栈的每一层提供可重复、可管控且可观测的运维能力。这意味着必须超越传统的操作手册、基于工单的响应机制以及容易出错的手动流程。自动化是实现基础架构与AI协调运行的关键。 AI解决方案的效能直接取决于其所依托的基础架构。若缺乏一致的环境、可靠的运行时间及高效的扩展能力,即使最先进的模型也难以发挥作用。自动化能显著提升AI的有效性,如果再集成大规模部署AI所需的可观测性及策略引擎,效果就更加显著。 自动化可通过以下方式帮助团队扩展AI应用: 连接包括网络、存储、可观测性工具、数据仓库和数据库、负载均衡器及AI平台在内的基础架构组件,以创建协调统一的编排系统。 加速训练、调优和推理所需环境的置备。 减少配置漂移以及由临时变更引起的性能不稳定风险。 创建一致的配置,使模型能够在不同环境中可靠地进行训练和运行。 这些能力对于支持混合云或多云环境尤为重要――在这些环境中,工作负载往往跨本地数据中心、私有云与公有云以及边缘位置分布。 保障、治理与管控 AI可能会建议将某项任务或工作流自动化,但这并不意味着该建议符合您内部的标准操作流程。随着基础架构规模的扩展和自动化范围的扩大,企业组织需要执行严格的策略,以确保AI系统(及管理它们的团队)以可预测、合规且注重安全的方式运作。 通过基于策略的自动化,IT团队能够: 制定规则,规定AI相关服务可以在何时、以何种方式扩展或修改。 确保基础架构的变更符合合规与审计要求。 将自动化操作限制在经批准的动作或环境中。 强制实施变更窗口期和访问控制策略。 自动化可强化治理能力,这对金融、医疗和公共部门等受监管环境中正在部署AI的领域尤为重要。在这些行业中,隐私保护、责任明晰和可审计性都是不容妥协的要求。 第3章 运用自动化将智能转化为行动力 AI拥有收集和提炼信息以提供见解的非凡能力,但仅有见解远远不够。企业组织如果想通过AI实现真正的商业价值,必须将其转化为实际成果。而要实现这一点,自动化技术不可或缺。 通过将自动化融入AI工作流,企业组织能够实现“检测-响应-智能分析-执行”这一闭环。这正是面向IT运维的人工智能(AIOps)的核心要义――运用AI生成行动建议,借助自动化技术即时、精准、大规模地执行这些行动。 实现AI基础架构与运维的标准化 支持AI工作负载需要具备可扩展性、可复现性和一致性的基础架构。无论是为训练管道搭建Kubernete集群,还是管理混合环境中的GPU使用,基础架构团队都必须在保障稳定性的前提下快速响应。 集成AI的自动化工具能够通过优化流程、减少手动工作负载来缓解这些瓶颈问题。 IT自动化在AI基础架构编排方面发挥着重要作用,具体体现在: 保持可重复性,确保模型每次都能在干净稳定的环境中训练。 简化跨本地、云和边缘环境的AI基础架构部署。 管理训练和推理所用环境的生命周期一致性。 将AI工作负载集成到现有IT环境中需要数据科学家、开发人员、业务部门和IT运维团队等多方协调。通过建立标准化流程并采用基础架构即代码(IaC)实践,各团队可以协作并简化跨混合云和多云环境的AI解决方案部署。 开启AIOps新纪元 运维成熟度的下一阶段是从自动化警报升级至自动化修复。诸如Splunk、Dynatrace、Datadog等AI可观测性工具,或基于机器学习(ML)的定制系统,能够检测系统的异常行为。但这些工具仍需下游机制来执行智能分析结果。 通过事件驱动型自动化,您可以: 将AI工具作为决策引擎,同时让自动化平台成为执行平面。 基于AI检测到的条件自动触发修复操作。 通过将已知应对方案编码化,加速解决重复性故障。 这将构建一个闭环响应系统,基础架构可根据AI生成的洞察实现自我修复,从而降低MTTR,帮助团队摆脱重复性任务。 稳健执行AI推理 随着AI模型在客户服务、欺诈检测、供应链等领域推动决策制定,建立保障机制至关重要。 自动化可通过以下方式帮助建立并维护AI运维中的信任与监管机制: 严格执行数据访问、使用及模型部署的合规规则。 编排符合内部治理要