AI智能总结
定位信息 近年来,生成式人工智能,包括大型语言模型(LLMs)和视觉模型,已成为人工智能领域的一项变革性技术,推动着各行各业的创新。然而,无论是用于训练、微调还是推理,部署这些模型都面临着巨大的计算挑战。 在 GenAI 中,数据的规模令人震惊。像 Llama 3.1 这样的模型,使用定制的 GPU 集群(拥有 3930 万 GPU 小时)训练了超过 150 万亿个 token,说明了巨大的计算需求。当依赖云服务时,这种训练可能极其昂贵。假设在 AWS P5 实例H100 系统上运行,不考虑训练数据的存储需求,云成本将超过 4830 万美元。组织必须仔细评估部署策略,权衡本地基础设施的总拥有成本(TCO)与云服务。 GenAI模型通常在两个关键阶段运行:训练和推理. 训练涉及处理海量数据集——通常以数十万亿个token为单位衡量——需要长时间投入大量计算资源。推理虽然单次请求的计算密集度较低,但要求在大规模下提供持续的低延迟响应,尤其是在用户需求增长时。无论是长时间的训练还是高吞吐量的持续推理,本地基础设施提供显著优势资本支出(CapEx)的固定性质,加上对专用GPU的优化利用,使得本地部署随着时间的推移成为更具成本效益的选择。相比之下,云成本与使用量线性增长,这使得它们非常适合短期或突发工作负载,但对于持续的生成式AI操作则经济上效率低下。 组件成本分析:本地部署与云部署 在决定为生成式AI模型选择本地部署还是云部署时,理解相关的成本至关重要。每种方法都伴随着独特的财务影响,这些影响可能对公司预算和运营效率产生重大影响。 本地部署成本 本地基础设施涉及服务器、GPU、存储以及冷却和空间等物理基础设施的高前期成本。这些系统必须定期维护,且电力和软件许可等持续费用会增加拥有总成本。然而,该模式提供了成本的可预测性和随着时间的效率,特别是对于基础设施利用率持续较高的稳定、长期AI工作负载。成本包括: GPU 实例成本:这包括 GPU 实例本身的成本,具体成本因所需 GPU 的类型和数量而异。 内存和存储成本:支持GPU实例所需的内存和存储成本也应考虑。功耗和冷却成本:GPU实例的功耗和冷却要求会影响所有权总成本。 成本分析范围 虽然拥有总成本可能包括众多因素——例如操作系统和应用软件许可、补丁管理、网络成本、it人员配备、区域网络差异以及软件栈维护——但为了本白皮书的目的,我们将分析范围限定于基础设施成本(主要是计算硬件)以及电力和冷却费用。这种简化使得可以在典型的吞吐量高的ai工作负载下,对本地部署和云部署进行集中比较,但需要注意的是,现实世界的部署可能会产生本分析范围之外的其他额外成本。 计划在论文的未来更新中包含一个更全面的花费分解,其中包括这些附加变量。 云部署成本 云基础设施通过按需付费定价和管理服务提供灵活性,减少了前期资本支出。然而,由于数据传输、存储、检索和使用计费,成本可能会迅速上升。长期承诺提供折扣,但限制了灵活性,而可变的工作负载和供应商锁定使成本预测复杂化。对于动态或短期工作负载,云仍然具有优势,但对于持续使用,如我们的分析所示,它通常比本地部署更昂贵。 成本分析范围 对于这项分析,我们将领先的云服务提供商—亚马逊云服务(AWS)、谷歌云平台(GCP)和微软Azure的拥有总成本(TCO)与联想的本地基础设施进行比较,特别关注服务器采购、功耗和散热。为了保持一致性和简洁性,我们排除了辅助云成本,例如与托管服务(例如AWS Bedrock)、数据存储(AWS EBS或S3)或数据传输相关的成本。相反,我们基于类似EC2的实例的每小时计算定价进行比较。我们评估了按需定价和通过1年和3年节省计划提供的折扣率,并将这些直接与本地基础设施运行的每小时成本进行比较。 注意事项 无论是本地部署还是云部署都呈现出不同的成本结构,需要仔细考虑。本地解决方案需要大量的前期投资和持续的运营成本,而云部署提供了灵活性,但也引入了意外费用、供应商锁定和长期承诺的风险。本地部署也提供了对敏感数据更大的控制权,因为所有存储和处理都保持在组织自己的网络边界内。相比之下,云环境由于第三方数据处理和共享基础设施,可能会带来更高的隐私风险,使得法规遵从和数据主权变得更加复杂。理解这些因素对于做出与组织财务能力和战略目标相一致的决定至关重要。 比较本地部署与云成本 我们将针对三个核心场景和一个具有代表性的七种服务器配置评估TCO。此分析侧重于GenAI工作负载中常用的三种关键GPU类型:NVIDIA H100、H200和L40S。对于每个现场联想服务器配置,我们确定了云提供商(如AWS和GCP)提供的等效云实例。 我们为等价服务器提供了三种不同的比较案例。为简洁起见,在本节中我们只发布了服务器1的计算结果。其他所有服务器的计算和图形都在附录. 案例1:盈亏平衡点分析案例2:拥有成本及随时间推移的节省案例3:小时利用率阈值 案例1:盈亏平衡点分析 本场景标识了盈亏平衡点——即云基础设施累计成本与本地基础设施总投资相等的那个时间点。在此之前,云解决方案可能更具成本效益。在此之后,本地基础设施能带来更大的长期节省。 以服务器1为例,即联想ThinkSystem SR675 V3,配备8块NVIDIA H100 NVL 94GB PCIe Gen5 GPU。该服务器的云等效产品是亚马逊EC2 P5实例(p5.48xlarge),提供相同的8块NVIDIA H100 GPU,以及192个vCPU和2048GiB内存。本次分析我们关注单台服务器配置,而非满架配置,从而实现更聚焦和实用的TCO比较。 云实例按需成本:98.32美元/小时(撰写时)1年预留实例成本:77.43美元/小时预估本地电力及制冷成本:约0.87美元/小时(服务器+暖通空调为0.15美元/千瓦时)本地总系统成本:约833,806美元(未考虑销售折扣) 为了计算盈亏平衡点——即使用云服务的总成本等于本地基础设施总成本的工时数——我们将比较两种成本模型: cloud_cost = 98.32 * xonprem_cost = 0.87 * x + 833806 为求盈亏平衡点,我们将两个方程设为相等: 98.32 * x = 0.87 * x + 833,806.00 求解 x: x ≈ 8556 小时 所以,盈亏平衡点大约在8,556小时时达到或11.9个月关于使用。超过这一点,操作本地基础设施比继续使用云服务更具成本效益。绘制这两个方程式,我们可以直观地看到盈亏平衡点和节省区域。 对于同一台服务器,我们可以在AWS节省计划中的折扣小时费率上重复盈亏平衡计算,而不是使用按小时的成本: 1年预留实例成本:盈亏平衡点:x = 833,806.00 / (77.427 - 0.87) ≈ 10,890小时 ~ 15.13个月3年预留实例成本:盈亏平衡点:x = 833,806.00 / (53.945 - 0.87) ≈ 15,710小时 ~ 21.82个月(略少于2年) 这些更长的盈亏平衡点表明,虽然保留价格提供了更低的每小时云费率,在本地的基础设施在长期持续使用中仍然更具成本效益. 案例2:拥有总成本和随时间节省的成本 假设本地服务器具有5年的运营寿命,此场景比较了随时间的总成本。它量化了使用本地基础设施而不是云服务所实现的年度和累计节约。5年寿命意味着我们让服务器完全折旧,没有回收价值。这意味着当你购买比如一个NVIDIA H100 GPU时,你将其购买成本分摊到其使用寿命上。为了理解长期成本影响,我们计算了在云和本地基础设施上连续运行系统5年的总成本(每天24小时)。这有助于量化典型服务器生命周期内的累计节约。 假设: 连续运行:5年内每天24小时,5年总时长:24 × 365 × 5 =43,800小时 成本计算: 云5年成本:cloud_hourly × 43,800本地5年成本:onprem_base_cost + (onprem_hourly × 43,800)节省:cloud_cost_5yr - onprem_cost_5yr 以服务器1 ThinkSystem SR675 V3为例,它配备了8颗NVIDIA H100 NVL 94GB PCIe Gen5,以及等效于云端的Amazon EC2 P5实例(p5.48xlarge),后者拥有8×NVIDIA H100 GPU。 在本地成本:$833,806 + (0.87 x 43800) = $871,912云成本:$98.32 * 43800 = $4,306,416.00五年总节省:$ 3,434,504 以下图形说明了年節省和累积成本差异在5年期间,在本地和云部署之间,强调本地基础设施随着时间的推移而持续使用的财务优势。 考虑到1年储蓄计划成本: 五年节省计划云成本:$77.427 * 43800 = $3,391,302.6五年总节省:$2,519,390.6 图6. 在使用本地服务器与云年计划对比时的服务器1节省额度 考虑3年储蓄计划的成本: 5年云成本=$53.94547 x 43800=$2,362,811.59 5年总节省:$1,490,899.59 案例3:小时利用率阈值 这个情景决定了每天的最少小时数一个系统必须在使用中,使得在5年期内,本地基础设施的成本效益才能超过云服务。这将有助于组织评估他们的使用水平是否证明了在本地基础设施上的资本投资。为简化起见,此分析假设100%系统和 GPU 利用率在活跃时段,代表一种典型的高需求场景推理工作负载其中GPUs始终保持繁忙状态。虽然实际使用情况可能有所不同,但这一假设有助于定义一个明确的盈亏平衡点,并作为低利用率场景下成本比较的参考点。 我们先计算持续运行(5年,每天24小时,共计43,800小时)云和本地部署的五年总成本。然后,我们计算使用率: 使用率 = 本地部署五年成本 / 云端五年成本 这个比率反映了本地和云成本相等的時間比例。要找到每日阈值: 每日阈值(小时)= 使用率 × 24 示例: 本地化5年成本 = $1,000,000 云端5年成本 = $4,000,000 使用率 = 1,000,000 / 4,000,000 = 0.25 日阈值 = 0.25 × 24 = 6小时/天 解释如果您的系统运行超过每天在云端6小时,则比在购买的本地服务器上运行相同的作业负载更昂贵。这项分析特别适用于具有常规、中等工作负载的组织,这些组织不全天候运行,但仍需要可预测且经济的性能。 从上述关于服务器 1 每小时云成本的计算中,我们可以计算使用率如下: $871,912 / $4,306,416 = 0.2025 日阈值 = 使用率 x 24 = 4.93~ 5 小时每天。 同样适用于1年和3年储蓄计划: 一年云成本:($871,912 / $3,391,302.6) x 24 = 6.17 小时每天 三年成本:($871,912 / $2,362,811.59) x 24 = 8.86 ~ 9 小时每天 从以上计算我们可以推断,由于AWS Savings Plans(如1年和3年预留定价)相较于按需定价提供了更低的每小时费率,它们提高每小时利用率阈值 在本地基础设施更具成本效益的情况下。换句话说,在折扣云定价下,你必须运行系统每天更多小时为了证明购买本地硬件的成本是合理的。 结论 结论 这项分析突显了在生成式人工智能时代,云基础设施和本地基础设施的战略使用案例之间存在的明显区别。云平台提供了无与伦比的灵活性和可扩展性,使其非常适合短期需求,例如模型实验、微调或动态工作负载。然而,随着使用变得持续和可预测,由于持续的计算费用、数据传输费和存储成本,云成本可能会大幅增长。 相比之下,本地部署需要更大的前期投入,但能提供显著长期成本节约,尤其是当资本性支出被摊销后。盈亏平衡点的概念至关重要——超过这个门槛,本地基础设施