人工智能效率差距: 从拥有成本危机到优化成本与性能 Dave McCarthy研究副总裁,全球基础设施研究,云计算和边缘服务,IDC 沃伦·德·利马研究经理,IDC 目录 点击任何标题即可直接跳转到该页面。 IDC观点 生成式AI的兴起以及支持它们的巨型模型,对传统云基础设施构成了根本性的架构挑战。尽管通用云工作负载优先考虑可扩展性和多租户性,AI工作负载却提出了新的、极端的需求,这些需求揭示了重大的低效率问题。这种转变迫使对基础设施进行完全重新评估,将成功的定义从单纯的资源访问转向整个系统的效率。 这些新的工作负载在架构上与旧应用不同。训练大型模型需要大量专门加速器集群,如GPU和TPU,它们必须并行工作并持续通信。这反过来又要求一个极宽带、低延迟的“织物”,其比标准云以太网更健壮,因为主要瓶颈往往是网络本身。 此外,这些模型需要由PB级的数据集喂养,需要高性能的存储系统以不可思议的速度流式传输数据,以避免昂贵的加速器闲置。该基础设施还必须服务于两个截然不同的目的:人工智能训练的长期、单一任务以及人工智能推理的短暂、实时、突发性请求。 尝试在传统或通用云基础设施上运行这些苛刻的工作负载,会形成一个显著的“AI效率差距”——即AI技术栈的理论性能与实际性能之间的差异。由此产生的一系列低效问题,导致了全面的总拥有成本(TCO)危机。 组织面临着昂贵的专用加速器的巨额成本,而且问题更加严重,因为端到端的人工智能工作负载需要的不仅仅是加速器。关键组件,如数据预处理和前端用户体验,主要运行在标准计算上。推理引擎通常连接到记录系统(如企业数据库),这些系统也依赖于标准计算基础设施。 当整个环境——包括专用计算、标准计算、网络和存储——由不同的非优化服务拼接在一起时,由此产生的碎片化系统引入了显著的操作复杂性。仅仅管理这种复杂性就成为了成功的头号障碍,而在一个组件中任何一个瓶颈都可能导致整个GPU集群停止运转。 这项TCO危机的关键要素是资源的严重浪费。当GPU空闲时——等待从存储中获取数据或从缓慢的网络获取其他GPU的更新——它仍然处于开启状态且完全付费。加速器集群30%的利用率并不只是意味着项目缓慢;它意味着在该基础设施上每花费的每一美元就有70美分被浪费。这个效率差距代表了一个巨大的财务损耗,使得AI项目在规模上经济上难以持续。 这一经济现实从根本上改变了组织必须定义和衡量其AI平台成功的方式。简单的可用性、虚拟机配置速度或每虚拟机小时的成本等旧指标已不再足够。新指标包括加速器利用率、总训练时间、训练模型的总成本、推理每美元性能和性能每瓦特。成功不再仅仅是获得1000个加速器的访问权限;它关乎有效使用这1000个加速器的经济可行性。 前进的道路是采用一种新的AI基础设施模式,直接解决TCO危机。这种模式必须与计算、网络、存储和软件的整个堆栈集成;设计并优化为一个单一、统一的系统,以消除瓶颈。它必须具有系统意识,这意味着软件和编排层理解底层硬件拓扑结构,以智能地放置工作负载,最大化数据本地性,并提高利用率。 最后,这种方法必须进行成本优化。通过使用集成和意识型堆栈,组织可以显著提高资源利用率,这是管理AI巨大TCO的唯一可持续方式。AI基础设施的未来不在于购买更强大的部件,而在于构建更智能、更全面、不浪费任何资源的系统。 在这篇白皮书 IDC对1,317名高级AI决策者进行了全球调查,以探讨AI基础设施趋势,包括架构决策、商业效益、技术挑战以及组织如何衡量成功。本IDC白皮书分析了此次调查结果,并提出了最大化AI基础设施投资的道路。 情况概述 人工智能工作负载可以分为四个阶段(见图1)。 四个AI工作负载阶段 思考一下你们所有的AI工作负载,其中有多少百分比处于以下阶段:训练、推理、模型优化和创新工作台? 定义人工智能工作负载的四个阶段: •训练:通过向模型提供大量数据集进行教学的过程,需要大规模、紧密耦合的集群在长时间内运行。 •推断:使用训练好的模型对新数据进行预测的过程,其特征是实时、低延迟的请求。 •模型优化:该阶段包括微调、量化、蒸馏等步骤,以提高训练模型的部署效率,平衡性能、成本和准确性。 •创新工作台:实验阶段,数据科学家和研究人员探索新架构、测试假设、原型化模型,需要灵活和按需获取资源。 调查受访者报告称,推理已成为最大的AI工作负载。这是因为它代表了不断、高量应用训练模型以交付实时商业价值的过程。虽然训练是计算密集型、昂贵且通常定期发生的事件,推理却是每次AI应用程序使用时都会持续进行、扩展应用的阶段。 大规模的实际应用推动了推理的统治地位;一旦训练完成,单个模型便能够服务数十亿用户的查询,其中每个聊天机器人回复或推荐都是一个独立的推理事件。这些小型、频繁请求的总量最终使训练所需的总体计算时间相形见绌。AI在生产中的普及放大了这一需求,尤其是在生成式AI的增长背景下,执行一个完整的LLM回复需要处理许多标记,导致每个查询的推理工作量更长且更复杂,所有这些都需要实时、低延迟的性能。 大多数调查受访者(见图2,下一页)确认云基础设施是人工智能工作负载的首选选项。云可以独特地提供: •按需访问专用硬件:云基础设施提供按需访问专用硬件,这对于现代人工智能工作负载至关重要。开发团队无需承受大量资本开支购买、冷却和维护强大的GPU和TPU,而是可以立即配置这些资源,只需支付使用的计算时间。这种能力使研究人员能够快速扩展到大型集群进行密集的训练任务,然后缩小到零,使实验和开发周期比使用静态的本地数据中心更快、更具成本效益。 •巨大的弹性与可扩展性:人工智能开发需要巨大的弹性和可扩展性,这只有云能可靠地提供。在训练尖端模型时,计算需求可能会激增,需要数百个互联互通的处理器数周;云可以即时提供这种临时规模。一旦模型被部署用于实时使用(推理),云平台会利用自动伸缩组根据用户流量高峰动态调整资源,确保全球范围内低延迟和高可用性,无需持续、手动的基础设施管理。 •毗邻AI模型和开发工具:云服务提供商确保与人工智能模型和集成开发工具的紧密连接,构建高效、全流程的MLOps生态系统。这些平台提供托管服务,处理数据标注、模型追踪和流程编排的复杂性,抽象化基础设施管理。 人工智能工作量分配 以下哪些人工智能或机器学习工作负载是在本地还是云上部署的? 尽管云是大多数AI工作负载的首选平台,但在某些情况下,在本地或边缘部署AI是可取的。 对于处理现实世界物理系统的应用,将人工智能处理功能更靠近数据源可以帮助解决与以下相关的要求: •对延迟敏感的应用程序:延迟是机器人、预测性维护等实时人工智能工作负载的关键因素。自主系统必须以毫秒级速度做出反应,以确保安全、防止设备损坏或维护生产质量。将大量传感器数据(例如,来自工业机器人或机器传感器的数据)发送到遥远的云端进行处理,并等待返回指令,将引入无法接受的网络延迟。在边缘部署人工智能模型确保亚毫秒级决策,实现即时的异常检测、安全路径校正以及在必要时立即停机,这是无法通过中央云计算基础设施保证的。 •法规遵从与数据主权:对于许多组织来说,数据居留法或内部安全政策规定,敏感运营数据不能离开公司的物理场所。国防、金融以及某些制造业等行业通常将运营日志、专有工艺数据和视频流视为高度受限的知识产权。在公司内部或边缘部署人工智能,确保这些敏感信息保持在安全的、受控的环境中,并符合监管要求(如GDPR)。此外,边缘部署还允许人工智能系统在偏远地点,即使云连接较差或不存在,也能独立运行。 •数据迁移成本:边缘设备产生大量原始的连续数据(例如,高分辨率视频流或高频率传感器读数)。由于高网络带宽需求和云服务商的数据出口费,将所有这些原始数据传输到云端进行处理的成本通常非常高。通过在边缘本地进行AI推理,公司可以对原始数据流进行过滤和分析,仅将少量高度压缩的洞察或总结警报发送到云端。这种策略大幅减少了传输的数据量,从而显著降低了云传输成本并节省了带宽。 云服务提供商通过创建一个无缝扩展其核心服务到客户位置的混合云连续体,来满足对本地和边缘AI部署的需求。他们提供安装在本地但运行原生云软件、API和服务的高级硬件设备。 这为运行需要超低延迟或必须遵守数据驻留规定的AI工作负载提供了一个一致的环境,实际上是将公共云的一小部分带到了数据源附近。 人工智能投资正在各种指标上取得切实、可衡量的成功。拥抱人工智能的组织现在正报告出显著的、积极的成果,这些成果从根本上重塑了它们的运营和市场表现。 根据调查结果,最大的直接回报是提升了员工的效率。有显著比例的组织——28.9%的受访者——经历了劳动生产力的大幅提升,报告显示平均改善了14.4%。这意味着员工在乏味的、重复性的任务上花费的时间更少,而在复杂、战略性的工作上花费的时间更多。 28.9%受访者中有很大一部分人的劳动力生产率得到了显著提升。 这种效率提升不仅超越了个人工作者,还扩展到了整个运营领域。近三分之一的受访者,即31.8%,见证了他们运营流程速度的提升,报告平均提高了10.1%。这种加速,通过自动化工作流程和优化资源配置,直接转化为更快的上市时间和增强的生产能力。 人工智能也提升了领导力和治理水平。决策效率大幅提升,有28.7%的受访者观察到平均提高了11.7%。人工智能驱动的分析和预测为领导者提供快速、全面的洞察,使他们能更快、更有信心地作出基于数据的决策,推动业务发展。 最终,这些内部改进对最终用户产生了强烈共鸣。最以人为本的好处是客户满意度和体验的改善。超过四分之一的组织——28.3%的受访者——报告了该关键领域平均提升了14.1%。他们通常通过人工智能驱动的个性化、智能代理的24小时响应以及预测服务来实现这一目标,从而巩固客户忠诚度,推动重复业务。 今天,大多数评估人工智能工作负载效率的关注点在于理解技术成本的影响。突出计算图3(见下文)资源、数据存储和数据管理对TCO计算的影响最大。其后依次是软件许可和订阅以及数据管道的开发和维护。 图3 对总拥有成本的影响 以下哪项对贵组织人工智能项目的总拥有成本(TCO)贡献最大? 然而,许多组织发现很难量化他们人工智能投资的真正价值和有效性,因为成功率指标通常分为两大难以协调的类别:高级业务成果和详细的性能指标。简单地部署模型并不等同于成功;衡量成功需要一种结构化的方法来定义和跟踪这两类指标。 商业指标关注人工智能的战略影响,将模型性能转化为明确的财务或运营效益。组织在将模型输出直接关联到这些大规模结果上面临挑战。 技术指标主要关注人工智能模型本身的质量和性能。虽然这些对于数据科学家来说是必不可少的,但对于商业利益相关者来说,它们往往缺乏直接意义,这使得证明继续投资变得困难。 在许多情况下,衡量成功所面临的挑战与人工智能堆栈的限制有关。它代表了组织希望衡量的顶级指标,但却是图4(见下文)无法做到这一点,因为这些限制。 衡量人工智能的成功 您有哪些三件事情因为人工智能堆栈的限制而无法衡量? 尽管不是行业标准,但“每美元的智能”可以被看作是将有用智能交付给最终用户的单位总成本。LMArena体现了这一概念,因为其排名系统与可用的价格数据相结合,促使人们直接比较一个模型的测量效用和其价格。 与它相似的指标是“好产率”,它衡量的是人工智能系统有用的或有价值的输出,而非其原始处理速度。 •在大型模型训练(如LLM)的背景下,这个指标通常被称为ML生产力Goodput。它衡量的是大规模、长时间运行训练任务的真正效率。 •在人工智能推理(即向用户提供模型)的背景下,吞吐量是一个以用户为中心的指标,它将性能与服务质量相结合。 人工智能的低效影响 大多数组织,尤其是54.3%的受访者,经常或有时在其基础设施中频繁或有时使用多个AI框架(如TensorFlow、PyTorch或JAX)或多个硬件平台(如来自不同供应商的GPU、专用AI加速器或CPU)。这种拼凑的方法通常是不同团队基于历史项目或特定模型需求独立选