您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[谷歌云]:如何利用容器加速 AI 创新:技术领导者指南 - 发现报告

如何利用容器加速 AI 创新:技术领导者指南

信息技术2025-11-27谷歌云郭***
AI智能总结
查看更多
如何利用容器加速 AI 创新:技术领导者指南

如何利用容器加速AI创新:技术领导者指南 帮助您成功运用AI。 简介 AI时代已经到来。您的基础设施准备好了吗?AI正在从根本上重塑行业和竞争格局,技术领导者面临着 以极快的速度交付有影响力的AI解决方案的巨大压力。然而,旨在实现这种创新的基础设施本身往往会成为瓶颈,因为它们复杂、昂贵,并且难以满足现代AI的需求。好消息是,您无需重新设计方法。您现有的容器、 Kubernetes技能和投资,已经为AI工作负载奠定了坚实的基础。借助GoogleKubernetesEngine(GKE),您的团队可以将基础设施转化为战略优势,帮助他们在AI新时代脱颖而出。这本电子书介绍了如何利用现有的Kubernetes投资, 快速将您的基础设施转变为AI创新的高性能引擎。 目录 1.AI的现实检验:五大挑战42. 机会:借助AI和容器将愿景转化为规模 3. 大规模释放AI的潜力是首要事项97 134. 经济高效的AI推理是实现盈利的途径 195.利用无缝基础设施为每个AI角色赋能,助力业务成功 第1章 AI的现实检验:五大挑战 业,释放新功能并加速创新。但这种爆炸式增长也带来了代价,即在成本、性能需求和安全性之间取得平衡的压力不断增大。核心挑战是什么?跟上AI不断发展的步伐,同时应对日益复杂的基础设施。随着AI模型规模的扩大和工作负载的增加,一些关键趋势正在推动技术领导者重新评估其基础设施策略。 升,平台正成为瓶颈。 直接导致错失竞争优势。这会延迟关键产品的上市时间,并造成资源分配效率低下,减少本可用于核心业务计划的宝贵预算。打造可扩缩的机器学习平台,为开发者、科学家、IT运维人员等不同用户提供服务,需要周密的规划和合适的加速器。此外,还需要能够大规模管理流量、提供卓越性价比并确保可观测性的基础设施,同时不会减缓创新或组织敏捷性。 模型大小没有限制,基础设施面临挑战。2 AI模型的规模和智能水平呈指数级增长,公司必须跟上这一趋势。45%的全球企业领导者表示,在评估生成式AI基础设施系统时,高效的可伸缩性是最重要的因素之一。1但这种增长不仅会增加基础设施成本和复杂性,还需要大量的计算能力来训练和运行,迫使企业重新思考如何构建和扩展基础设施。AI模型规模的不断扩大可能会导致成本飙升和巨大的运营负担。 成本效益对于实现AI计划至关重要。3 型复杂性、数据量和人才等因素,利用AI可能会导致意想不到的支出。企业需要能够提供经济高效解决方案的云提供商。不可预见的AI成本可能会影响利润,迫使企业在创新和预算之间做出艰难的权衡。有效的成本管理对于AI项目至关重要,不仅能带来实际的投资回报率,还能降低消耗。 目前,对GPU等硬件加速器的需求严重超过供应,造成了全球硬件瓶颈。据估计,2026年AI系统软件、硬件和服务的支出将达到3,000亿美元。3危机。 这种稀缺性导致开发周期延长、成本增加,并且无法跟上AI快速创新的步伐。要以更少的资源实现更多目标,您需要更智能的方法来最大限度地利用现有硬件并确保未来的容量。 开源生态系统正在不断扩展,避免供应商锁定。5 76% 的技术领导者预计,未来几年开源AI技术的采用率将会提高。4随着新工具、框架和API几乎每周都会出现,企业需要无缝访问,而不会被锁定在专有平台中。合适的基础设施应能实现敏捷性和协作,同时在开源生态系统不断发展的情况下,保障长期投资。 当今的AI挑战: 模型大小没有限制,基础设施面临挑战成本效益对于实现AI计划至关重要紧跟不断扩展的开源生态系统我们正面临AI加速器短缺危机 第2章 机会:借助AI和容器将愿景转化为规模 模地将这些创新变为现实。对于拥有容器专业知识的组织,成功不是从头开始,而是利用现有的DevOps和容器策略,立即为AI计划带来优势。随着AI工作负载的增加,平衡速度、可伸缩性和成本变得至关重要。容器非常适合满足AI的独特需求。它们提供了开发、部署和管 理当今复杂的资源密集型AI/机器学习工作负载所需的统一性、可移植性、可伸缩性和隔离性。GoogleCloud认识到这些优势,并预见到了颠覆性的技术飞跃,因此投入了数年时间来开发一个强大的托管式容器平台,旨在应对这些大的飞跃。鉴于AI工作负载的需求不断演变,GKE处于理想的位置,可以抓住这一机遇,并且能够满足现代AI工作负载的需求。它提供先进的编排和管理功能,同时减少了在扩缩和部署新AI解决方案时面临的运营挑战。 超越基础设施 随着基础设施从原始计算和GPU分时发展到TPU,容器使团队能够立即在现有平台上利用新功能。 编排复杂的工作负载 台团队管理复杂性。这就是为什么Google使用GKE来构建VertexAI等突破性AI产品,并与DeepMind一起推动下一代AI创新。 Kubernetes的可扩展性催生了广泛的工具和框架生态系统,使团队能够灵活地快速创新并适应快速变化的AI环境。 第3章 大规模释放AI的潜力是首要事项 于AI的成功至关重要。有了这个灵活高效的基础,您就可以大规模开发、部署和管理AI解决方案,从而获得竞争优势、加快创新速度、降低运营成本,并能够交付高性能、可靠的AI产品。规模一直是容器主导的技术的演进基础。Kubernetes源于 Google自身的需求,即自动管理其庞大基础设施中的数十亿个容器。如今的AI工作负载要求很高,从训练大型LLM到为数百万用户提供实时推理,计算需求巨大且可能不可预测地激增。传统基础设施往往难以满足这些动态扩缩需求,导致出现瓶颈、利用率不足或成本高昂的过度预配。容器为扩缩提供了必要的基础,而GKE通过智能、简化的编排功能进一步增强了这一优势,即使是最严苛的AI工作负载也能轻松应对。您的扩缩需求只会不断增长,而GKE旨在满足这些需求。 GKE为大规模AI奠定了基础。 GKE可帮助您的团队缩短上市时间、减少训练时间、克服硬件限制并优化成本。随着模型变得越来越复杂,将工作负载分布到数以千计的加速器上的能力将成为一项竞争优势。这正是GKE的设计初衷,Autopilot模式让您无需具备深厚的Kubernetes经验,即可快速创新。 GKE正在打破记录,支持多达 65000个节点,并且还在不断增加5 前沿的AI模型需要前所未有的规模,数以万计的AI加速器芯片需要并行工作。凭借业界领先的规模,GKE可帮助组织缩短训练时间,并突破数万 亿参数模型的界限。如今,上市速度至关重要,GKE可为您提供所需的规模,让您能够更快地进行创新,并获得关键的竞争优势,不仅能满足您当前的需求,还能满足您未来的AI需求。 JamesBradburyAnthropic计算主管 GoogleCloud,2024年,65,000个节点,并且还在不断增加:GoogleKubernetesEngine已为万亿参数AI模型做好准备 提升性能,降低成本。 解锁巨额节省和更快的吞吐量。GKE同时支持NVIDIAGPU和CloudTPU,让您可以灵活地为每个工作负载选择合适的加速器。无论使用GPU还是TPU进行训练,GKE都能简化大规模优化性价比的过程。结合内置的自动化和可观测性,这些选项可显著节省成本并加快训练速度,直接提高您的投资回报率。 案,Moloco将机器学习训练时间缩短了多达90%。” Moloco机器学习总监 大规模AI训练意味着许多团队和工作负载需要争夺同一有限的加速器 池。GKE通过原生支持Kueue和动态工作负载调度器 (DWS) 来消除瓶颈。这些功能共同使团队能够公平地共享昂贵的资源、高效地排队作业,并利用额外的容量。这有助于提高训练效率并降低成本,同时不会因资源争用而减缓创新速度,或导致员工因压力过大而倦怠。 降低高达85%LiveXAI选择GKE作为其AI智能体的坚实基础。 公司简况: 类似人类的体验,让企业能够在各种平台上实现强大的客户互动。 11 他们需要: 一个强大的解决方案,可帮助他们快速提升能力,并在安全且高性能的全球基础设施上大规模部署和运行容器化应用。 他们选择了: GKE的平台编排功能,在NVIDIAGPU上训练和部署经过优化的AI工作负载,同时利用GKE与分布式计算和数据处理框架的灵活集成。特别是,GKEAutopilot可让您轻松地将应用扩展到不同的客户,尤其是在为有大量实时客户互动的品牌构建多模态AI智能体的情况下。GKEAutopilot管理Kubernetes集群的底层计算,无需LiveXAI进行配置或监控。 降低客户支持成本85%降低总拥有成本50%加快产品上市速度25%运营成本降低66% 这意味着,LiveXAI可以实时为客户提供个性化体验,包括无缝的客户支持、即时的产品推荐和减少退货。 观看视频 第4章 经济高效的AI推理是实现盈利的途径 持续性和重复性的成本所在。随着用量的增加,这些成本可能会迅速失控。容器化为高效AI推理提供了固有的优势,包括可移植性、一致 性、动态扩缩、弹性以及资源效率。不过,即使使用容器,大规模AI模型也会带来新的挑战。例如,巨大的容器映像可能会导致冷启动延迟飙升。为了弥补这一缺陷,团队常常过度预配资源,以处理不可预测的负载,但这又会加剧冷启动问题,导致资源利用率不足和不必要的成本。推理历程的不同阶段会带来不同的成本挑战。 GKE为经济高效的推理奠定了基础。 部署生成式AI推理会带来独特的复杂性。首先,您需要为自己的应用场景选择合适的加速器。在这一旅程的评估阶段,您应该评估所有加速器选项的优缺点。进入生产环境后,您需要对流量进行负载均衡、大规模地使用真实流量来管理价格表现、监控性能,以及调试出现的任何问题。GKE的新推理功能专为克服这些障碍而构建。 30%60% 服务费用降低 功能的更快交付。 为推理工作负载选择合适的加速器和模型服务器,并设置扩缩,可能是一项复杂而耗时的任务。GKEInference快速入门通过基准、GPU和TPU 兼容性指南以及预配置的扩缩建议,简化了这一过程。很快,我们将与GeminiCloudAssist集成,提供更快、更智能的部署和优化,缩短新AI赋能应用的价值实现时间。 利用AI感知推理网关提升用户体验并降低成本。 LLM的请求模式变化很大,通常会导致长尾延迟和计算利用率低下。这会直接影响用户体验,并导致推理成本不必要地增加。传统网关不支持为低秩自适应 (LoRA) 等热门参数高效微调 (PEFT) 技术路由基础设施,而这些技术对于在推理过程中通过模型重用优化GPU效率至关重要。 新的GKE推理网关提供AI感知型负载均衡,可实现最佳路由。它还支持LoRA,使您能够将多个模型映射到同一底层服务,从而提高效率、降低推理成本并提供出色的用户体验。 们很高兴看到GKEInferenceGateway在开源中实现了经过优化的负载均衡和可扩展性。GKE推理网关的新功能可以帮助我们进一步提升客户推理工作负载的性能。” GKE的Autopilot模式让您无需具备深厚的Kubernetes专业知识,即可更快地构建和部署应用。GoogleSRE为KubernetesPod请求的资源提 供支持,显著减轻了第2天的运维负担。GKE自动扩缩和节点自动预配功能可无缝利用SpotGPU和TPU,可降低成本高达90%6,并在需要时回退到按需实例。 随着Moloco的广告业务呈指数级增长,扩展我们的基础设施是一项巨大的挑战。GKE的自动扩缩功能让工程团队能够专注于开发,而无需在运维上投入大量精力。” 公司简况: HubX凭借世界水平的专业知识和尖端技术,构建了高度可扩缩的移动应用,其中包括Nova、Davinci和Momo。HubX的三款应用跻身全球活跃 用户最多的生成式AI移动应用之列,而所有这些应用都运行在GoogleCloud上。他们需要: HubX而言,优化是一项平衡之举,需要考虑推理延迟、规模和成本。 他们选择了: GKE等熟悉的平台 - 让他们的团队能够以敏捷、快速且可扩缩的方式构