AI智能总结
合 跨数据中心、电信和企业网络的高速以太网的未来 汇聚新时代 以太网 新的机遇、前所未有的需求和迫切的创新正在定义以太网有史以来最为重大的转变。 我们荣幸地介绍我们的首份年度影响报告,追踪数据中心网络和高速以太网(HSE)市场最新的趋势、需求和发展。 拥有超过二十年的以太网测试经验,我们的突破性工作涵盖了与全球各利益相关方的合作,包括公共云超大规模提供商、数据中心提供商、服务提供商、企业、政府和军事机构,以及全球范围内的网络设备提供商和芯片OEM厂商。 我们的见解和预测基于塑造高速以太网市场的发展交易、策略和创新所带来的宝贵视角。这包括Spirent在全球2023年支持的340项高速以太网(HSE)客户互动,其中超过25%的互动涉及400G和800G技术。 AI 的进步意味着更多的以太网 , 无处不在 当所有目光都集中在人工智能的力量和潜力上时,或许从未有过更大的压力要求加快速度、不断拓展速度的边界,并 relentless地追求市场中每一分竞争优势。 传统自北向南的数据中心策略正迅速让位于旨在服务于急剧扩大的市场基础的自东向西方法。利益相关方正在探索新的路径并涉足未验证的领域,以从现有技术中榨取出更多的容量以提高性能。如今,变化的速度已经超过了标准跟进的能力。企业不再等待未来的发展来取得进步,电信运营商也抛弃了传统的策略,在雄心勃勃的部署周期中满足客户的需求。 在Spirent首份涵盖这一动态市场的报告中,我们自豪地呈现了对关键驱动因素、市场影响以及未来趋势的全面分析。 Aniket Khosla, Spirent 有线产品管理副总裁 里面有什么 461325电信服务提供商有线网络 18关于 Spirent 26企业有线网络 22高速以太网市场势头数据中心和 AI 网络演进数据中心网络市场洞察高速以太网市场演进 高速以太网市场势头 高速以太网市场更新 端口速度继续演变,各速度级别均表现出强劲的采用率,即使在中小企业(SMEs)和5G基站部署中,10G和25G的速度仍然保持着稳定的市场需求。市场在传统需求曲线之前就已经开始展望1.6T以太网,以便尽快抓住由AI驱动的机会,预计最早明年就能实现这一目标。(我们姊妹报告,)将想法转化为 1.6 T 以太网的行动“详细说明了这个动态发展的生态系统的当前状态。) 成长的浪潮最初由超大规模者然后刷新周期大型企业,第 2 层和第 3 层云服务提供商& 大型电信公司服务提供商( IP 核心升级) 70+百万HSE 港口在 2023 年发运 最初由增长驱动由 hyperscalers支持 AI 240+百万港口在 2024 年至 2026 年之间发货。 螺旋冲击报告 网络技术成熟度 用于 AI 和 HPC 的以太网 1.6 T 以太网 预计数据中心流量将呈指数级增长,推动1.6T Ethernet的研究。尽管IEEE 802.3dj将于2026年最终确定,但2024年的基线功能已经能够促进硅、光学组件和收发器的早期开发。 初始部署将由超大规模数据中心主导,以支持数据中心内的AI应用,并利用可提供51.2Tbps带宽的交换机。800G技术提供了更高的带宽、更低的延迟、增强的能源效率以及更多的连接数,为数据中心互连在未来几年内做好了充分准备。 Adoption正从云超大规模提供商转向大型企业、第二和第三层级的云提供商以及大型电信公司,以进行IP核心升级。大型企业认为400G技术具有前瞻性,能够提供一条向800G及以上传输速率转换的更简单且成本更低的道路。 Growing 对于人工智能和高性能计算(HPC)的标准以太网基础IP网络需求的增长最初集中于基于合并以太网(Converged Ethernet)的远程直接内存访问(RDMA,Remote Direct Memory Access,RoCEv2),并预期将逐步演进至新的超以太网传输(Ultra Ethernet Transport,UET)标准。 数据中心和 AI 网络演进 严苛的环境。数百英尺深的海底。竞争行业是否会为了追求前所未有的性能和效率而不惜涉足任何地方? 数据中心是先进高速以太网(HSE)解决方案的关键市场,这主要是由于需要支持不断增长的AI流量和网络需求。人工智能的影响不容忽视,因为它从根本上改变了数据中心和互连的方式,超越了传统云应用程序的影响。 大型云计算服务商面临巨大的压力以应对需求激增。仅仅几年时间,大型语言模型从OpenAI的GTP-3的1750亿密集参数增长到现在的万亿级别(GTP-4估计有1760亿参数)。集群规模每两年增长四倍。网络带宽已超过每加速器1Tbps。 支持人工智能是一项巨大的努力,伴随着同等规模的成本。各参与者在过去两年中在数据中心的支出已超过整个5G市场,预计2024年的投资将达到1160亿美元。 Meta正在收购350,000块GPU以扩建其集群,并且他们的新Llama3训练集群配备了24,576块GPU。这相当于每个机架有16块GPU,每个集群包含1,536个服务器机架。[来源:Meta] Dell 'Oro 预计数据中心资本支出将从 2023年的 2600 亿美元增加到 2028 年的 5000亿美元以上。 Google 的专注于 AI 的 A3 超级计算机正在整合约 26, 000 个 Nvidia H100 Hopper GPU 。HPC 电线] 增长的规模令人惊叹,分析师估计,到2024年,用于数据中心AI处理的图形处理单元(GPUs)的出货量将达到超过220万台,每块GPU的成本范围从1.5万至4万美元。 亚马逊正在每个 UltraScale 集群中扩展到 20, 000 个 Nvidia H100 GPU 。 [来源 :Nvidia] 有效的AI数据中心电力管理对于实现可持续发展目标和维持盈利能力至关重要。麦肯锡公司预测,到2030年,数据中心的电力消耗将达到35吉瓦,足以供应2620万家庭用电。美国电力研究协会预计,到2030年,数据中心将消耗美国总电量的4.6%至9.1%。*此外,美国电力研究协会还发现,“每条ChatGPT请求消耗2.9瓦时电,人工智能查询的耗电量估计是传统Google查询的10倍。” 甲骨文OCI Supercluster 在 4, 096个计算裸机实例上扩展到多达 32, 768个 Nvidia A100 GPU 。 [来源:Oracle] 字节跳动据估计 , 在 2023 年期间 , 总共将接收 100, 000 个 Nvidia A100 和 H800 GPU 。 [来源:数据中心动态] resulting 需求推动了诸如建设水下数据中心设施或将其定位在北欧国家的冰中、限制 GPU、采用绿色编码,甚至回归使用小型语言模型等创新。 Microsoft据估计 , 已经有超过 60万个 GPU , 计划到 2024 年底扩大到180 万个。福布斯] * EPRI , Powering Intelligence : 分析人工智能和数据中心能耗报告(2024 年 5 月 28 日) 不懈的进步 在 12 年内增加80 倍带宽 AI 对数据中心网络设计的影响 数以万计的管理模型参数的快速增加。 GenAI 正在成为数据中心资源和工作负载的快速增长的消费者。 一种称为 “后端网络 ” 的新网络已经发展起来 , 其唯一目的是处理 GPU 之间的数据移动。 尽管传统的前端以太网络必须扩展以处理大量模型训练数据集,但后端网络则承受着来自针对新数据集进行AI推断工作的不断上升的工作负载的压力。这些后端数据中心的训练工作负载需要多种GPU或其他xPU硬件加速器来扩大AI计算集群。 的影响如此之大,以至于超大规模提供商必须要么构建一种新的单一架构以处理当前的云和企业工作负载以及AI(谷歌的方法),要么彻底重新架构AI数据中心。 数据中心提供商必须进化其架构以应对每两年增长十倍的AI流量,并适应加速器GPU学习节点的扩展。 为了支持 AI , 后端网络结构需要提供 : 将这些加速器节点连接到大型GPU集群需要一个后端数据中心网络架构,这与主要用于连接通用服务器的传统前端网络有所不同。 极高的吞吐量处理计算密集型和数据密集型工作负载 极低延迟通过多个节点快速处理工作负载 零数据包损失以降低延迟 大规模可扩展性用于数千个节点上的数十亿个参数 后端基础设施需要一个单独的、可扩展的、可路由的网络来连接成千上万甚至数十万的xPUs,以支持AI训练和推理。 数据中心架构示例 脊叶网络体系结构东向西流量在AI训练和推理中的后端网络需求中被采用,这正在将传统的三层数据中心拓扑结构扁平化为两层架构,以提高带宽利用率、增强可扩展性、降低延迟、实现可预测的网络时延和并行处理。主干层包括用于路由和转发的交换机,是网络的基础骨架。叶层包括连接计算节点(GPU、CPU等)和存储系统(SSD、HDFS等)的交换机。AI后端网络作为高性能、可扩展且可靠的网络基础设施运行,专门优化以应对AI工作负载的需求,确保高效的数据处理、模型训练和推理。 “AI 网络结构支出有望达到 113.3亿美元 , 到 2028 年复合年增长率为 27.1% 。- GARTNER® 这些需求要求新的 AI 数据中心设计满足特定要求 , 例如 : 发送大型象形流流量将每个 GPU 训练结果输出到集群中的所有其他 GPU 以进行协调 增加网络带宽处理大量交换的数据 惊人的低和决定性的延迟并且需要实现无丢包的数据传输以满足对延迟敏感的前端推断需求,并防止后端GPU超时和同步问题。 分布式培训工作负载需要并行技术来跨节点同步东西数据 多种 AI 交通模式包括 AlltoAll 、 RingAllReduce 、 AllGather 和 Broadcast 等 超以太网联合体的形成 数据中心仅通过增加更多的机架无法满足这些要求,因此新的数据中心架构是必不可少的。 (UEC)并且得到了行业对UEC专注于优化以太网用于高性能AI和HPC网络架构的支持。UEC正在协作制定Ultra Ethernet Transport(UET)规范,旨在通过以太网现代化RDMA(远程直接内存访问)操作,并优化其适用于AI和HPC工作负载。 在2023年,领先的数据中心提供商将资本支出(Capex)增加了6%至13%,以构建AI基础设施(xPU集群)和xPU互连 fabric,以满足这些需求。 鉴于AI训练对延迟和包丢失的容忍度低,且存在大量流量在大型大象流中交换,数据中心架构正在演进以支持backend网络xPU集群之间的高带宽东西向traffic。 NVIDIA 的新 Spectrum - X 以太网具备其Spectrum-X系列以太网交换机和BlueField-3超级NIC的网络平台。Spectrum-X为数据中心提供了与Nvidia的InfiniBand技术相比的以太网替代方案。 到目前为止,用于AI训练的高速网络主要是基于专有的、无损的InfiniBand的远程直接内存访问(RDMA),但越来越多的关注转向了开放标准且被广泛采用的以太网。与InfiniBand相比,以太网在降低成本和复杂性方面更具优势,并且没有可扩展性的限制。关于以太网演进方面的进展包括: CISCO 最近引入了 NEXUS 超织物 AI集群解决方案,与Nvidia共同开发,旨在通过以太网网络简化企业AI基础设施。该解决方案包括Cisco的6000系列交换机用于主干和叶节点,提供400G和800G以太网 fabrics 性能。 ARISTA 推出了新的 ETHERLINK AI 平台 支持 RDMA基于以太网融合(RoCEv2),这使得设备之间可以通过以太网进行直接内存访问,从而提高性能并降低CPU利用率。 由 400G 和 800G 以太网脊柱和叶片交换机组成 , 支持新兴的 Ultra Ethernet Cons