您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[标普全球]:规模化AI架构:网络 - 发现报告

规模化AI架构:网络

信息技术2025-05-30标普全球�***
AI智能总结
查看更多
规模化AI架构:网络

简介执行摘要图6:人工智能工作负载的基础设施实践的有效性图 4:多云编排正成为一个关键的基础设施需求洞察4:人工智能工作负载管理受益于网络分割。目录启示关于作者图 2:拥有最先进 AI/ML 用例的功能区域图 3:制造、公用事业和医疗保健/生命科学领域的 AI 应用区域洞察2:领先组织利用多样化的基础设施进行人工智能;网络策略必须反映这一点。图5:网络/网络安全基础设施技术合作伙伴的关键能力洞察三:延迟、带宽和可用性塑造了人工智能领跑者的网络策略。洞察3:延迟、带宽和可用性塑造人工智能领跑者的网络策略洞察4:人工智能工作负载管理受益于网络划分方法论图1:参与者的人口统计学细分洞察2:领先组织利用多样化的基础设施发展人工智能,网络战略必须体现这一点洞察 1:网络规划应该预见需求,而不仅仅是对当前用例做出反应洞察1:网络规划应当预见需求,而不仅仅是应对当前用例。 在规模上构建AI:网络 | 2spglobal.com/451research 1617 方法论来源:S&P全球市场情报公司451研究AI规模研究,由威瑞森委托。spglobal.com/451research图1:参与者的人口统计学细分简介执行讨论板区域北美 10 医疗保健/生命科学 8 北美 5 零售/批发欧洲亚太10制造这份报告探讨了网络连接。它具体研究了AI领导者如何设计他们的网络连接策略以成功实施AI计划,以及在此过程中所面临的一些挑战。第二份报告将探讨AI的安全影响,第三份将讨论高管在整个研究过程中确定的一般最佳实践。生成式AI的魅力吸引了高管的兴趣,他们将其视为提升效率、巩固竞争优势的变革性技术。充足的资金和高管的背书使得AI的快速实验成为可能。当前的主要挑战是从这些实验阶段过渡到全面运营部署。本报告是三部曲系列报告的第一部分,旨在向那些成功大规模在生产中应用AI的领先组织的高管寻求建议,重点关注他们获得的最佳实践和洞察。本报告呈现的见解来自对已成功大规模实施人工智能的组织中负责人工智能计划的高级管理者的全面访谈和同行小组讨论。这些互动包括对人工智能和IT基础设施决策者的15次深入访谈,以及一个有30名参与者的高级管理人员讨论论坛。该研究的所有参与者都专门参与了管理和实施其组织用于人工智能工作负载的IT基础设施。参与者分布在美国、英国、新加坡、澳大利亚、瑞典、德国、丹麦和日本。本报告由S&P全球市场情报451研究开发,并由威瑞森委托。 314一对一访谈# 行业# 地区# 行业10 金融服务业8 欧洲5 医疗保健/生命科学 46 亚太 5 金融服务业零售/批发制造工具工具其他 执行摘要spglobal.com/451research“人工智能驱动的自动化最小化人工努力,降低运营成本,同时提高准确性和速度。”我们扩展人工智能的关键业务驱动力是改善和增强客户体验、运营效率和加强风险管理。许多受访者对人工智能的渴望超越了内部能力,扩展到面向外部的应用程序。值得注意的是,许多参与者正在投资人工智能以增强客户服务互动。参与者强调的其他人工智能用例包括简化销售流程、实施个性化营销策略和推动产品创新。[我们的设计错误是]没有考虑到延迟和带宽需求。大型模型需要传输 terabytes。在当前的基础设施中运行LLMs将不可能,因为缺乏足够的非拥塞带宽来单独支持RoCEv2。组织对参与人工智能有明显兴趣,而那些走在前列的组织正在投资各种生成和模式识别模型。参与该研究的执行人员和实践者都敏锐地意识到了这项技术所蕴含的机会,尤其是在效率和成本降低方面,以及在某些情况下顶线增长。由研究参与者提及的AI应用场景通常集中在优化功能性任务,如需求预测、合规性和流程自动化。此外,增强数据洞察力以及对改进决策的支持似乎是对许多AI倡议的持续驱动因素。这种侧重反映了来自451 Research 的企业之声:AI与机器学习,2025用例调查,该研究发现,在企业目标评估中,生成式人工智能在提高运营效率方面最为一致。一项明确的研究结论是,基础设施是实现这些目标的主要障碍,计算能力(例如GPU可用性)并非唯一的资源限制。随着组织有意义地踏上他们的AI之旅,他们意识到他们需要增强的网络资源。绝大多数(90%)高管讨论板参与者预计在接下来的12到24个月内对他们的网络基础设施进行改变,其中71%预计进行适度或重大的升级。当被问及他们在AI计划中遇到的最大设计错误时,许多受访者指出网络架构的挑战。 高级基础设施/网络安全架构师医疗器械,1,000-5,000名员工,丹麦建筑/网络安全主管银行,20,000-50,000名员工,新加坡人工智能和云主管专业服务,超过50,000名员工,英国建筑/网络安全主管银行,20,000-50,000名员工,新加坡 – 见解4:人工智能工作负载管理受益于网络分割。北美地区的受访者普遍认为他们的AI项目部署流程比其他地区更先进。在1到5的评分标准上,北美组织的部署流程成熟度平均得分为3.0,高于欧洲(2.1)和亚太地区受访者(2.2)。网络规划扩大的挑战可能对发展程度较低的组织更为突出。然而,即使在美国,也没有受访者认为他们的流程已经达到了尽可能先进的状态。–洞察3:延迟、带宽和可用性塑造了人工智能先锋的网络策略。–洞察1:网络规划应当预见需求,而不仅仅是应对当前的使用案例。洞察 1:网络规划应该预见需求,而不仅仅是对当前用例做出反应随着人工智能项目从试点阶段发展到全面生产阶段,推理带来的数据传输需求增加,以及在某些项目中额外的训练,都可能显著消耗网络资源。研究参与者一致认为,确保节点间有效通信需要强大的网络基础设施。许多人指出,在早期的人工智能实验中,高管们忽视了这一挑战。在快速发展的生成式人工智能环境中,组织面临着快速交付项目的压力,许多人启动了相关举措,但并未充分预见未来的网络需求。许多企业的AI发展轨迹将带来进一步的压力。本报告考察了参与者就网络策略提出的四个关键见解:“一旦你开始自动化流程,并且更频繁地和大型语言模型(LLM)对话,你的延迟、你的硬件、你的GPU,所有的一切都会增加。我认为在未来几年,大部分人工智能都将具备主动性,这意味着更多对话,以及模型和工作流程之间的更多交互。”–洞察2:领先的组织利用多样化的基础设施进行人工智能,网络策略必须体现这一点。 高级 GenAI 数据科学家金融服务,>10万员工,美国 16%13%13%spglobal.com/451research图2:具有最先进的AI/ML用例的功能区域IT运维和网络安全客户满意度和客户体验运营和财务(战略规划,财务报告,会计)客户服务,内容创作和数据分析行业特定解决方案劳动力、人力资源和法律(人员配置、排班、合同)供应链管理与优化(订单处理,库存管理)销售营销和广告其他研究参与者认识到下一波人工智能投资将显著增加网络资源压力。这种认识源于承认许多新兴高影响人工智能应用将需要低延迟或边缘计算。当被问及高级人工智能应用时,许多参与者将IT运营和网络安全、客户满意度和体验以及运营和财务视为关键投资领域。在许多情况下,这些职能领域的应用似乎可能将推动传统基础设施的极限。例如,旨在提升客户体验的对话式界面可能比面向内部的应用需要更高的响应水平。一项研究参与者强调,他们计划提供的语音对话人工智能服务的近五秒处理时间,这迫使他们探索新的配置和培训方法以改善响应时间。虽然有些受访者关注广泛的横向用例,但从网络角度来看,最具挑战性的AI应用通常是特定行业的。这在来自制造业、公用事业和医疗保健/生命科学行业的受访者中尤为明显,在那里,满足精确要求的压力正在塑造AI基础设施战略。实时销售数据分析;S&OP[销售和运营计划]和仓库AI项目计划在6-12个月内完成。这些项目的经验将为我们未来的云与本地策略提供参考……一旦我们进入生产优化阶段,边缘计算AI肯定会成为一个考虑因素。Q. 观察以下功能领域,请指出其中包含您最先进的AI/ML用例的三个领域?基准:高管讨论板参与者(n=30)。来源:由威瑞森委托的S&P全球市场情报451研究AI规模化研究。网络安全和基础设施负责人机械制造,1000-5000名员工,德国 26%23% 技术总监来源:S&P全球市场情报公司451研究AI规模研究,由威瑞森委托。专注于模型部署,如同专注于模型训练。制造工具医疗保健/生命科学• 监控控制中的物联网和数据采集 (SCADA)系统• 水管异常检测• 水处理数据流• 物联网,包括产品监控/预测性维护• 客户声音分析• 实时质量控制/生产视觉系统• 实时交通系统• 实时销售分析/销售运营计划• 仓库系统• 制造工艺优化/OEE• 产品创新• 医疗分诊• 图像处理• 医学转录• 医疗器械监测• 患者行为监测• 关照需求评估• 各种视觉系统• 远程病人监测• 药物监测• 药品安全性• 机器人护士助手• 扩展现实系统(例如,AR,VR)• 研发数据分析专业服务,1000-5000名员工,日本研究参与者反复强调前瞻性规划的优势,许多人希望他们能更早地制定一个更具前瞻性的愿景。一个常见的建议是确保组织在人工智能项目的试点和培训阶段考虑到扩大规模和部署。信息技术高级总监医疗保健/生命科学,美国用于败血症和中风分诊的边缘临床人工智能需要计算能力才能快速运行。用于本地GPU计算处理大型图像数据集的图像,而无需使用云;在诊室中进行环境监听和转录。图3:制造业、公用事业和医疗保健/生命科学领域的AI应用为未来18个月配置您的GPU/CPU/存储/内存。10gbs [每秒10吉比特] 应该是网络的最低速度,端到端。IT架构与基础设施副总裁医疗保健,20,000-50,000名员工,美国信息技术总监汽车制造,超过50,000名员工,美国建筑/网络安全主管银行,20,000-50,000名员工,新加坡涉及物联网集成、低延迟的实时质量控制用例。质量控制系统使用人工智能视觉...涉及多重数据源集成的实时运输优化项目。在开始PoC之前,必须考虑运营情况进行规划,并明确生产环境的非功能性需求——例如性能、可用性和安全性。 “比你想象的要多建一些。从人工智能/机器学习管道开始,然后又不得不停下来升级/添加更多物理设备,最终会比你一开始就过度购买的成本更高。”在开发环境中没有问题的响应时间,由于大量数据通过广域网流动,导致可用带宽饱和,在生产环境中变得明显延迟——延迟了数分钟。工程基础设施总监金融服务,>50000名员工,美国许多研究参与者指出,由于在网络架构方面的前期规划不足,项目出现了延误或偏离。一些人指出,过时的技术基础设施以及未能与技术进步保持一致,限制了对AI的适用范围,并导致数据传输出现严重问题。这种缺乏远见常常导致项目在扩展过程中遇到问题,在那时升级变得更加昂贵、缓慢且技术上具有挑战性。网络瓶颈应在初始规划阶段就预料到并加以解决。信息技术战略总监电子制造,>50,000名员工,日本洞察2:领先组织利用多样化的基础设施发展人工智能,网络战略必须体现这一点这种架构复杂性很重要,因为虽然一些受访者有一个简单的网络策略,其人工智能计划位于单个云服务提供商处,但这是个例外而非规则。由于传统投资的结合、隐私愿望、延迟和成本考虑,随着组织增加其人工智能项目的范围并引入新的用例,架构设置也随之扩展。许多有经验的调查参与者指出,云不总是他们人工智能工作负载需求的答案。某个时候,由于规划不力,我们出现了数据溢出。我们积累了大量数据,不得不进行精确的问题解决,‘灭火’,现在回想起来我们感到后悔。可扩展性对于避免数据溢出很重要。信息技术系统/研发负责人制造,20,000-50,000名员工,日本虽然许多组织最初在公共云中尝试了生成式人工智能,但随着他们的发展,他们的工作负载开始跨越各种基础设施场所。数据准备、训练和推理从边缘到近边缘再到核心分布在不同地点。这种复杂性反映在451 Research 的企业之声:AI & 机器学习,基础设施 2024 调查其中受访者报告使用广泛的各种场所进行推理,包括超大规模公共云(61%)、计算设备(46%)、网络运营商