人工智能效率差距:从总拥有成本危机到优化成本与性能
核心观点
生成式AI的兴起对传统云基础设施提出了根本性挑战,导致AI工作负载在通用云上运行时出现显著的效率差距,即理论性能与实际性能之间的差异。这种低效问题引发了全面的总拥有成本(TCO)危机,主要体现在资源浪费、操作复杂性和成本增加等方面。
关键数据和研究结论
- AI工作负载阶段:AI工作负载可分为四个阶段:创新工作台、模型优化、训练和推理。调查显示,推理是最大的AI工作负载(67.1%),其次是训练(24.7%)。
- 云基础设施偏好:大多数受访者(64.3%)将云作为AI工作负载的首选平台,主要原因是按需访问专用硬件、毗邻AI模型和开发工具、巨大的弹性和可扩展性。
- 本地和边缘部署:对于需要超低延迟或遵守数据驻留规定的应用,本地或边缘部署是可取的,云服务提供商通过混合云连续体满足这一需求。
- AI成功衡量:AI投资带来的主要回报包括提升员工效率(28.9%)、加速运营流程(31.8%)、改善客户满意度(28.3%)和提升决策效率(28.7%)。
- 衡量成功挑战:组织在衡量AI成功时面临的主要挑战是技术指标与业务成果的协调,需要新的指标如“每美元的智能”和“好产率”。
- AI低效影响:使用多个AI框架或硬件平台的碎片化方法影响了92%的组织的效率,导致成本增加、复杂性和性能下降。
- 预算浪费:训练阶段是预算浪费最大的部分,主要原因是闲置硬件和资源利用效率低下。
- 解决挑战措施:组织正在优先考虑采用云优化工具、实施模型优化技术、与人工智能服务提供商合作以及提升技能证书。
- 未来运营和业务障碍:组织预计在未来两年内面临的主要障碍是控制AI成本(32.6%)、衡量和展示清晰的回报率(29.8%)以及AI/ML人才短缺(31.5%)。
解决方案建议
- 简化AI堆栈:通过整合框架和硬件到受管理、可互操作的系统中,消除碎片化带来的浪费。
- 总拥有成本优化:从前期、静态的定价模型转变为全面成本可视线系统,采用动态工作负载调度和按消耗计算的计算资源模型。
- 消除浪费:实施遥测,主动跟踪闲置计算时间和效率关键绩效指标,利用实时监控和自动扩展功能。
- 现代化数据基础设施:采用专为现代AI训练和推理设计的高吞吐量、高并行性需求的AI专用存储和网络解决方案。
结论
缩小AI效率差距需要全面策略,同时处理总拥有成本、简化碎片化的AI堆栈、通过严格的测量消除浪费,并现代化数据基础设施,以将AI的原始潜力转化为持续的商业价值。