AI智能总结
新机遇、前所未有的需求以及迫切的创新,正塑造着以太网数十年来最为重要的转型。人工智能(AI)的进步意味着无处不在的更多以太网我们很高兴推出我们的首份年度影响力报告,追踪数据中心网络和高速以太网(HSE)市场的最新趋势、需求和发展动态。凭借与全球相关企业超过二十年的以太网测试经验,我们的突破性工作涵盖了与超大规模公有云服务商、数据中心提供商、电信运营商、企业、政府和军方、网络设备提供商以及全球芯片组原始设备制造商的合作。我们的见解和预测基于在塑造高速以太网市场的交易、战略和创新中的宝贵视角。这包括思博伦在2023年全球范围内支持的340个高速以太网客户合作项目,其中超过25%涉及400G和800G项目。随着所有人的目光都聚焦在人工智能(AI)的力量和前景上,或许从未有过如此大的压力去更快行动、突破速度界限,并在这个市场中不遗余力地追求每一个可用的竞争优势。传统的数据中心北-南流量策略正在迅速让位于东-西策略,以服务于急剧扩大的市场基础。利益相关者正在开辟新路径,并涉足未经证实的领域,试图从现有技术中挤出更多容量以提高性能。如今,变化的速度正超越标准更新的能力。企业没有等待未来的发展就取得了进步,而电信运营商也摒弃了传统策略,以在客户雄心勃勃的部署周期中与他们并肩作战。在思博伦首份涵盖这一动态市场的报告中,我们自豪地呈现了对关键驱动因素、市场影响以及我们对未来预测的全面审视。Aniket Khosla,思博伦有线产品管理副总裁迈向一个新的时代高速以太网 内容概览高速以太网市场动态数据中心与人工智能(AI)网络演进数据中心网络市场洞察电信运营商有线网络企业有线网络高速以太网市场演进关于思博伦 461318222526 高速以太网市场动态高速以太网市场更新端口速度持续演进,各级速度的采用率依然强劲,甚至10G和25G在中小企业和5G基站部署中仍保持稳定需求。超前于传统需求曲线,市场已着眼于1.6T以太网,以期最早于明年就能抓住由人工智能驱动的机遇。(我们的配套报告《让1.6T以太网的思想变为行动》详细介绍了这个动态发展的生态系统的现状。)来源:Dell 'Oro Group由SEM(搜索引擎营销)长尾效应和5G基站部署带动的稳定需求预计在2024-2026年间出货的端口数量由运营商边缘网络和中小型企业持续驱动的需求最初由超大规模公有云服务商的更新周期带动,随后是大型企业、二级和三级云服务提供商以及大型电信运营商(IP核心升级)带来的增长浪潮。最初由超大规模公有云服务商对AI的支持所驱动的增长10/25G> 90M预计在2024-2026年间出货的端口数量> 65M预计在2024-2026年间出货的端口数量> 40M预计在2024-2026年间出货的端口数量> 42M100G400G800G来源:以太网联盟Ethernet Alliance 70+百万预计交易量将激增至240+2024年至2026年间的端口出货量。早期需求由超大规模公有云服务商不断增长的对AI的支持所驱动预计在2024-2026年间出货的端口数量> 8.5M1.6TE4百万2023年HSE端口出货量 10/25GCell Site成熟市场网络技术成熟度1.6T 以太网数据中心流量预计的指数级增长正在推动1.6T以太网的研究。尽管IEEE802.3dj标准将于2026年最终确定,但2024年的基线功能使得芯片、光组件和收发器的早期开发成为可能。思博伦影响力报告 企业 & 中央数据中心400G对基于以太网的标准IP网络(用于人工智能和高性能计算)的需求日益增长,最初的重点是放在基于融合以太网 的 远 程 直 接 内 存 访 问(RoCEv2)上,并预计将逐 步 向 新 的 超 以 太 网 传 输(UET)标准发展。用于人工智能(AI) 和高性能计算(HPC)的以太网 400G采用趋势正在从超大规模公有云服务商转向大型企业、二级和三级云提供商以及大型电信运营商,用于IP核心升级。大型企业将400G视为具有前瞻性的技术,它提供了一条更简单且成本更低的路径,以实现向800G及更高传输速率的升级。 800G最初的部署将由超大规模公有云服务商引领,以通过提供51.2Tbps的交换机来支持 数 据 中 心 的 人 工 智 能 。800G提供更高的带宽、更低的时延、更高的能效以及更多的连接,使数据中心互联 在 未 来 数 年 内 具 备 前 瞻性。 数据中心与人工智能(AI)网络演进严酷的气候。数几百英尺深的海底。为了追求前所未有的性能和效率,竞争激烈的行业是否会无所不至?数据中心是先进高速以太网(HSE)解决方案的关键市场,这是由支持日益增长的人工智能(AI)流量和网络需求的必要性所驱动的。人工智能的影响不容小觑,它正在彻底改变数据中心和互联技术,其影响力已超越了传统云应用。超大规模公有云服务商面临着满足激增需求的巨大压力。短短几年间,大型语言模型的规模已从OpenAI的GTP-3的1750亿个密集参数增长到如今的万亿级别(GTP-4的参数量预计达到1.76万亿)。集群规模每两年增长四倍。网络带宽已达到每个加速器超过1Tbps的水平。 思博伦影响力报告可持续性/功耗模型,由以太网联盟(EthernetAlliance )提供持续进步12年带宽增长80倍支持人工智能(AI)是一项巨大的工程,如今,各参与方在数据中心上的投入已超过过去两年整个5G市场的总和,2024年的投资额预计将达到1160亿美元。增长规模令人惊叹,分析师估计,2024年将有超过220万个图形处理单元(GPU)用于数据中心的人工智能处理,每个GPU的成本在1.5万至4万美元之间。Dell’Oro预测,数据中心的资本支出将从2023年的2600亿美元增长至2028年的5000亿美元以上。为了实现可持续发展目标和保持盈利能力,对人工智能数据中心进行有效且高效的能源管理至关重要。麦肯锡公司预测,到2030年,数据中心的耗电量将达到35吉瓦,足够为2620万个家庭供电。电力研究所(EPRI)预计,到2030年,数据中心将消耗美国4.6%至9.1%的电力。EPRI还发现,“每次ChatGPT请求耗电2.9瓦时,人工智能查询所需的电力是传统谷歌查询的10倍。”由此产生的巨大冷却需求正激发着创新,如建设水下数据中心设施、将数据中心设在北欧的冰雪中、限制GPU的功耗、使用绿色编码,甚至回归使用小型语言模型。*注:EPRI,《为智能供电:分析人工智能与数据中心能源消耗报告》(2024年5月28日) 22xtotal powerincreasevs 2010Meta正在购置350,000个GPU以扩建其集群,其新建的Llama3训练集群将容纳24,576个GPU。这相当于每个机架配有16个GPU,每个集群配有1,536个服务器机架。[来源:Meta]Amazon正在将每个UltraScale集群的规模扩大至20,000个Nvidia H100 GPU。[来源:Nvidia]ByteDance预计在2023年期间将总共接收100,000个Nvidia A100和H800GPU。[来源:Data Center Dynam-ics]Google’sAI专注于人工智能的A3超级计算机正在集成约26,000个Nvidia H100Hopper GPU。[来源:HPC wire]Oracle的OCI超级集群在4,096个计算裸金属实例中扩展至多达32,768个NvidiaA100 GPU。[来源.Oracle]Microsoft微软目前已拥有超过60万个GPU,并计划到2024年底将规模扩大至180万个。[来源:Forbes] 生成式人工智能(GenAI)正迅速成为数据中心资源和工作负载的主要消耗者。生成式人工智能(GenAI)对数据中心和工作负载的影响如此之大,以至于超大规模公有云服务商必须采取两种策略之一:要么构建一种架构,能够既能处理当前云和企业工作负载,也能处理人工智能工作负载(谷歌的做法),要么彻底重新设计人工智能数据中心。人工智能(AI)对数据中心网络设计的影响 8一种名为“后端网络”的新型网络应运而生,其唯一目的是处理GPU之间的数据传输。虽然传统的前端以太网网络必须扩展以容纳庞大的模型训练数据集,但后端网络才是承受由处理新数据集的人工智能推理工作负载不断升级的主要部分。这些后端数据中心训练工作负载需要大量的GPU或其他xPU硬件加速器来扩展人工智能计算集群。数据中心提供商必须发展其架构,以应对每两年增长十倍的人工智能流量,以及管理模型参数快速增长所需扩展到数万个加速器GPU学习节点。 在大型GPU集群中连接这些加速器节点需要一个后端数据中心网络结构,这与主要用于连接通用服务器的传统前端网络有所不同。后端基础设施需要一个独立、可扩展、可路由的网络,以互联数千甚至数万个xPU,从而支持人工智能(AI)训练和推理。极高的吞吐量:以处理计算密集型和数据密集型工作负载;极低的时延:通过多个节点快速处理工作负载;零丢包:以降低时延;大规模可扩展性:以在数千个节点间处理数十亿个参数。为了支持人工智能(AI),后端网络结构需要提供以下特性: 思博伦影响力报告将每台GPU训练结果产生的大象流(Large Elephant Flow)传输量发送到集群中的所有其他GPU进行归约增加网络带宽,以处理大量的数据交换极低且确定的时延以及无损数据包传输,这对于时延敏感的前端推理至关重要,同时可防止后端GPU超时和同步问题分布式训练工作负载需要并行技术来跨节点同步东西向数据多种AI流量模式,包括AlltoAll、RingAllReduce、AllGather、Broadcast等更多模式这些需求要求新的AI数据中心设计满足特定要求,例如:数据中心架构示例Spine-Leaf 网络架构正被采用以满足人工智能训练和推理中普遍存在的东-西流量后端网络需求。这一架构将传统的数据中心三层拓扑结构扁平化为两层结构,提供了更高的带宽利用率、更大的可扩展性、更低的时延、可预测的网络时延以及并行性。Spine层包括用于路由和转发的交换机,这是网络的骨干。Leaf层包括用于连接计算节点(GPU、CPU等)和存储系统(SSD、HDFS等)的交换机。人工智能后端网络作为一个高性能、可扩展且可靠的网络基础设施运行,经过优化以处理人工智能工作负载的苛刻要求,确保高效的数据处理、模型训练和推理。 10Gartner公司,预测分析:全球AI网络结构,纳雷什·辛格,2024年4月29日。GARTNER是高德纳公司和/或其关联公司在美国的注册商标和服务标志在此经过许可方可使用。版权所有。“人工智能(AI)网络架构的支出预计将达到113.3亿美元,并在2028年之前以27.1%的年均复合增长率增长。”⸺GARTNER® 思博伦影响力报告数据中心仅仅通过增加更多机架来满足这些需求是不切实际的。相反,必须采用全新的数据中心架构。2023年期间,领先的数据中心提供商将资本支出增加了6%至13%,以建设人工智能基础设施(xPU集群)和xPU互联架构,从而满足这些需求。鉴于人工智能训练对时延和丢包的零容忍,以及大量数据在大象流中交换,数据中心架构正在不断发展,以实现后端网络xPU集群之间的高带宽东西向流量。无损以太网的发展,带来了先进的流量控制、改进的拥塞处理以及先进的流量遥测技术,这些技术提升了现代交换机的功能。迄今为止,用于人工智能训练的高速网络一直是基于专有、无损的InfiniBand的远程直接内存访问(RDMA),但现在人们越来越关注将以太网(一种被广泛采用的开放标准)用于此用途。与InfiniBand相比,以太网降低了成本和复杂性,并且没有可扩展性的限制。以太网的发展进展包括:支持基于融合以太网的RDMA(RoCEv2),它能够在以太网设备上实现直接内存访问,从而提高性能并降低CPU利用率。 11N V I D I A 的 新 S p e c t r u m - X 以 太 网 网 络 平 台,该平台包括其Spectrum-X系列以太网交换机和Blue