您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[是德科技]:超越瓶颈:人工智能集群组网报告 2025 - 发现报告

超越瓶颈:人工智能集群组网报告 2025

信息技术2025-07-24是德科技文***
AI智能总结
查看更多
超越瓶颈:人工智能集群组网报告 2025

释放人工智能数据中心潜力的趋势、投资和优化策略 电子书 处于十字路口的人工智能 人工智能(AI)是下一代创新的引擎。然而,复杂性的增加意味着对数据中心网络需求的增加。随着人工智能成长为企业战略的核心组成部分,组织必须仔细考虑如何设计、测试和扩展其基础设施。 我们看到的是一个关于紧迫性、独创性和重新定义的故事。这些发现共同构成了下一阶段人工智能基础设施的蓝图:它不仅建立在速度上,而且建立在可扩展的基础上。 这份报告,基于全球Heavy Reading进行的调查与是德科技(KeysightTechnologies)合作,研究了影响2025年人工智能集群网络的关键挑战、技术选择和投资重点。 内容 第1章 全球领导者的主要发现 全球领导者的主要发现 该调查于2025年3月13日至4月11日进行,收集了103名参与者的反馈,其中大部分来自大型电信和云服务提供商。受访者主要是网络规划、工程和IT领域的资深专业人士。值得注意的是,72%的受访者在年收入超过10亿美元的公司工作。 近90%的受访者表示计划扩大或维持当前的基础设施投资,该行业显然正在加速实现更高的容量、更低的延迟和更高的运营效率。 然而,在运营商为增长做准备的同时,他们也面临着从现有网络基础设施中获取更多资源的压力。 了解更多: 与是德科技一起探索有关扩展、优化和验证AI基础设施的见解。 我们正在进入这样一个阶段:性能提升不仅要依赖于新的基础架构,还要通过对已有基础架构更智能的协调。 索人工智能数据中心的解决方案 第2章 更智能的AI扩展策略 更智能的AI扩展策略 实施人工智能数据中心基础设施的最大挑战 克服关键部署挑战 随着人工智能应用的加速,数据中心运营商面临着更快、更智能、更高效的扩展压力。然而,几个长期存在的障碍正在减缓进展⸺每一个障碍都需要战略关注和创新。 预算限制⸺59%的组织正在努力获得扩展人工智能基础设施所需的资金,特别是考虑到计算、冷却和电力的高成本。 总之,这些挑战凸显了对更高效的扩展策略的需求,以平衡性能、成本和人才之间的发展。 基础设施限制⸺55%的受访者强调了现有基础设施的局限性,这可能是由于缺乏处理大规模人工智能工作负载的灵活性和吞吐量,从而造成了性能和容量的瓶颈。 技术人员短缺⸺对具备人工智能专业知识的工程师、网络架构师和数据中心专家的需求远远超过了当前的人才储备,51%的受访者认为这是一个关键的技能缺口。 更智能的AI扩展策略 随着需求的增加,运营商正在采取灵活的策略来适应新兴的人工智能工作负载和流量模式。Agentic AI、DeepSeek和Grok 3因其对更快速处理和自适应网络的需求,正在重塑基础设施决策。 扩展人工智能数据中心的首要策略 : 51%正在规划基于云的AI集成 49%优先考虑更高性能的GPU 45%正在投资新的软件架构 45%正在升级网络硬件 这些结果揭示了一种平衡:企业热衷于在保持敏捷性的同时提高计算能力。Agentic AI的迭代推理能力尤其推动了架构和互连方法的变革。 了解更多: 了解Keysight如何实现AI优化网络的实际部署。 我们不仅仅是在扩展容量;我们还在重新设计人工智能计算的架构。 是德科技AI基础设施电子书 第3章 打破网络瓶颈 打破网络瓶颈 随着人工智能模型的规模和复杂性的增长,底层网络结构正在被推到极限。运营商不仅仅是在最大限度地提高当前的速度,他们还在评估下一代解决方案。 调查结果显示,运营商明显转向更高的带宽。虽然400G仍然是人工智能和云数据中心的主流标准,但800G甚至1.6T的采用率仍在上升,以满足大规模训练和推理的需求。 了解更多: 了解任意波形发生器如何支持3.2T的448 Gbps接口。 观看3.2T演示 数据还显示了基于以太网的解决方案的趋势,特别是像超以太网和软件定义网络(SDN)这样的较新架构。不过,像InfiniBand/NVLink这样的高性能选项仍然有立足之地。 考虑用于AI/ML工作负载的网络技术: 49%正在评估以太网/ROCEv2 38%正在评估InfiniBand/NVLink 超以太网:专为人工智能和高性能计算(HPC)打造 作为AI和HPC的专用互连标准,超以太网(Ultra Ethernet)正在获得越来越多的关注。与传统以太网不同,Ultra Ethernet重新定义了协议栈,以提供AI所需的精度、速度和可扩展性。 •面向AI和HPC的全栈设计 Ultra Ethernet是一种垂直集成架构,从物理层到传输层都进行了优化,以实现并行、同步和确定性性能。 •低延迟,可靠的AI性能 Ultra Ethernet具有超低延迟和零数据包丢失,可通过先进的调度和流量整形确保大规模实时、可预测的数据传输。 了解更多: •全行业的影响力和影响范围 了解为什么近60%的受访者会考虑Ultra Ethernet。 已有58%的运营商在评估Ultra Ethernet。它以开放、基于标准的高性能架构,并且不存在厂商锁定,对InfiniBand和RoCEv2构成挑战⸺使其成为下一代AI数据中心的有力竞争者。 发现AI数据中心集群的可扩展策略 超越瓶颈:人工智能集群网络报告2025|11 为了优化人工智能网络性能,运营商正在将硬件升级与软件层面的微调相结合。这种多管齐下的方法反映了有效扩展人工智能基础设施的复杂性,以及最大化当前基础设施与未来投资的重要性。 优化人工智能网络性能的策略: 61%的公司在追求网速升级 43%正在使用实验室集群测试 27%的组织正在对交换机进行正面比较评估 随着人工智能加速器的倍增,网络不再是主干⸺而是瓶颈或突破口。 测试更智慧,不必更费力 使用AI优化的验证工具来模拟大规模集群。 人工智能网络基准白皮书 第4章 反映现实的仿真 反映现实的仿真 随着人工智能数据中心的能力、复杂性和容量的不断提高,真实世界的流量仿真越来越被视为在现实条件下验证性能的关键。仅仅依靠组件级验证已经不够了⸺运营商需要模拟系统级的实际人工智能流量模式,以确保基础设施能够跟上步伐。 为什么仿真很重要 验证真实世界的行为 仿真弥补了实验室条件和生产现实之间的差距。通过复制AI工作负载在节点、协议和故障条件下的行为,运营商可以更清楚地了解其基础架构在压力下的表现。 实现可靠的测试可重复性 一致性是网络验证的关键。仿真技术使运营商能够在测试周期中重现相同的流量模式、错误条件和同步挑战,从而确保问题能够被准确识别、有效解决并可靠验证。 提高部署前的信心 仿真有助于在扩展或升级 AI 集群之前识别隐藏的瓶颈、不兼容性或边缘故障,从而降低生产中出现问题的风险,缩短推出时间,并保护投资回报率。 测试挑战阻碍优化 尽管人们对人工智能工作负载仿真的重要性日益达成共识,但运营商在扩展人工智能工作负载仿真时仍面临重大障碍。这些结果凸显了迫切需要更智能、更一致的解决方案,以满足现代人工智能环境中不可预测的高吞吐量需求。 56%的人表示缺乏标准化的基准工具和设备 56%努力重现真实世界的人工智能工作负载 50%的人指出缺少专业能力强的工程师 49%的报告结果因供应商特定的优化而产生偏差 了解更多: 了解先进的仿真器如何帮助确保可扩展和可靠的人工智能网络。 仿真弥补了理论性能与生产实际之间的差距。 可拓展性与优化白皮书 超越瓶颈:人工智能集群网络报告2025|15 第5章 创新与成本压力 创新与成本压力 人工智能基础设施可能正在迅速扩张,但资金限制仍是一个主要问题。运营商显然正在转变观念⸺不仅仅是建造更多,而是建造更智能。调查结果突出表明,与资本密集型升级相比,优化驱动战略更受青睐。优化人工智能数据中心基础设施的最大好处反映了这一趋势 : 将优化视为竞争优势 运营商越来越多地将优化的基础设施视为战略差异化因素。人工智能数据中心的性能、敏捷性和响应能力的提高直接转化为市场优势,从而实现更快的创新并增加客户价值。 随着人工智能应用的发展,在不同负载和模型之间保持性能一 致 已 不 再 是 可 有 可 无 的 事情。运营商正在寻找测试解决方案,以确保工作负载在SLA阈值内可预测地运行,而不受规模或模型行为的影响。 战略调整:智能基础设施测试 优化AI基础设施的主要收益⸺基础设施优化(62%)、工作负载可靠性(59%)、竞争优势(43%)、以及能效提升(41%)⸺凸显出战略方向的明显转变。AI运营商不再仅仅依赖对新硬件的高额投入,而是更加倾向于通过创新且可持续的方式,最大化现有资源的价值。他们意识到,更佳的性能、敏捷性与响应力,能够加速创新并创造更高的客户价值。 单靠性能已不足以取胜。成功如今取决于具备弹性、高效且可持续的AI网络⸺而这正是通过更智能、基于仿真的验证实践所实现的。 这些偏好共同表明,一个智能化基础设施测试的新纪元正在到来。在这里,目标不仅仅是“ 更快 ”,而是凭借现有资源走得“ 更远 ”。组织的关注点已从单纯的扩展规模,转向如何实现更智慧的扩展。 了解更多: 通过真实世界的演示,探索验证人工智能网络的基本原理。 注册参加训练营 从限制到优势 AI基础设施的演进正在加速,运营商正积极投入于更快、更智能、更具韧性的网络策略。随着数据中心架构不断演变,以支持更复杂的AI模型,Ultra Ethernet与真实场景仿真等创新技术将成为成功的关键。 行业的首要任务⸺效率、可靠性与灵活性⸺明确指向一个未来:性能提升不仅依赖于新的投资,更依赖于对现有基础设施的创新利用。 是德科技很荣幸能够以面向下一代智能高性能AI网络的测试解决方案,助力这一转型。这些洞察正在成为演进标准、智能设计实践的基础,并最终推动一个更加可扩展的AI未来。 探索5大成熟策略,优化和扩展人工智能数据中心 人工智能正在重塑每各行各业,但随之而来的是复杂的流量模式、不稳定的工作负载和强烈的性能需求。这本电子书揭示了如何克服这些挑战,并构建可扩展的人工智能优化数据中心。 获取电子书