百度智能云主编单位: 度小满合作单位: 王佩龙宋飞崔永新陈存利专家指导委员会: 百度智能云编写组李兆彤史磊周磊李兆耕包贵新田晓利李玉双谢伟光陈宁刘楠马建英杨正吉靖万芳芳缪懋魏谦孙鹏甄浩洋邱帅兵多杰伦珠王俊涵高飞李书坤章琬晨徐浩姜涛敖玉龙张向辉联 合 编 写 组: 度小满编写组苏阳张伟建朱凤元张一杜侃汪宁瀚胡东旭 引言 随着 AI 技术的逐步成熟和应用场景的不断丰富,人工智能产业正在迅速发展,AI 相关的产品与服务也在各行业中落地和普及。企业通过人工智能技术提高生产力,进行数字智能化新范式转型的需求也更加迫切。人工智能技术目前已被广泛应用于智慧金融、智能家居、智能医疗、智能交通、智能制造等领域。 大模型技术因其良好的通用性与泛化性,显著降低了人工智能应用的门槛,其溢出效应正在加速推进新一轮的科技革命和社会产业的变革。近期,ChatGPT、文心一言等生成式人工智能应用的出现,使大模型的发展成为 AI 领域最重要的热点趋势,越来越多的科技巨头竞相推出千亿、万亿参数的大模型。而训练超大参数规模的大模型也给智能计算基础设施带来了前所未有的挑战。大模型的训练过程需要数千张 GPU 卡协同计算数周或数月,这就要求智能计算网络能够提供更强大的性能和更高的稳定性与可靠性。因此,提供一种高速、低延迟且可扩展的网络互联方案成为了智能计算领域的重要课题。 通常,大中型政务、金融及企业客户对网络安全与数据隐私保护有着更严格的要求,需要通过私有云建设模式在自有数据中心中构建自主可控的智能计算资源池,为人工智能的创新服务提供底层算力支持。智算网络作为智算中心基础设施的重要组成部分,其选型、设计和建设方案是非常关键的环节,网络架构设计的合理性直接影响智算集群的性能、可靠性与稳定性。智算网络的选型和建设阶段的典型问题包括: 1. 智算网络是复用当前的 TCP/IP 通用网络的基础设施,还是新建一张专用的高性能网络? 2. 智算网络技术方案采用 InfiniBand 还是 RoCE ? 3. 智算网络如何进行运维和管理? 4. 智算网络是否具备多租户隔离能力以实现对内和对外的运营? 本白皮书将分析智算业务对网络的核心需求,深入介绍智算网络的架构设计以及智算中心高性能网络的运维和运营管理方案,并结合典型实践,提供智算网络选型建议,为客户建设面向大模型的智算中心提供网络建设、运维和运营参考。 目录 CONTENTS 02 智算网络方案选型 智算业务对网络的核心需求 01031.1智算业务关键应用场景和案例1.2 智算业务对网络的关键要求 0712172.1InfiniBand网络介绍2.2 RoCEv2网络介绍2.3 InfiniBand和RoCEv2网络方案对比 03 智算高性能网络运维管理 物理网络架构设计 4.1可视化网管系统4.2 高精度流量采集4.3 数据可视化展示4.4 智能化4.5高性能网络运维典型实践2931323333 192022253.1 传统云网络架构承载智算业务存在的挑战3.2 智算网络架构3.3 智算网络可容纳的GPU卡的规模3.4物理网络设计典型实践 05 06 智算高性能网络运营管理 总结和展望 5.1 云平台产品化的多租户能力AI-VPC5.2 InfiniBand网络的多租户方案5.3 RoCE网络的多租户方案5.4 通过RDMA网络提供公共服务5.5高性能网络运营典型实践3536373838 总结和展望推荐阅读4041 01智算业务对网络的核心需求 1.1 智算业务关键应用场景和案例 智能计算是指利用人工智能技术和算法,对海量数据进行分析、处理和挖掘。智能计算已广泛应用于自然语言处理、图像识别、预测分析、金融科技和自动驾驶等场景。基于大模型在自然语言处理领域的出色能力,智能计算为机器翻译、文本分类、文本总结、文本创作、搜索助手、辅助编程、图像视频创作等应用场景提供强有力的技术支持。 智能计算已成为帮助企业提高效率、降低成本、打造核心竞争力所不可或缺的技术能力,其在金融和汽车行业的应用已经非常成熟。例如: ·在金融行业:智能计算应用于风险管理和控制,辅助量化交易、信用评估以及趋势预测,帮助金融机构做出更明智的业务决策。 ·在汽车行业:智能计算为自动驾驶提供高效精准的感知与识别、行驶决策与规划、车辆控制与执行,并不断进行算法优化以提高自动驾驶的安全和可靠性。 1.1.1 金融风控与智能推荐 金融行业历来是数字化与智能化的先驱者,已经将人工智能技术广泛应用于各项业务中,包括智能风控、交易欺诈检测、智能客服、投资决策、信用评估、量化交易等。 金融风控是人工智能技术在金融行业中最典型的应用场景。通过大数据分析、机器学习等技术对金融交易、投资、借贷等活动进行风险识别、评估、控制和监测,对金融风险进行有效识别和预警,以保障金融机构和客户的资产安全,满足监管要求。 在金融风控领域,度小满拥有非常丰富的实践经验。度小满将大型语言模型(LLM)应用于海量互联网文本数据、行为数据、征信报告的解读,将小微企业主的信贷违约风险降低了 25%。而且随着模型的迭代,大模型在智能风控上的潜力还会进一步释放。 除了智能风控领域,度小满基于生成式大模型自主生成新的数据、图像、语音、文本等信息,成为理财师、保险经纪人等金融行业从业人员的得力助手,帮助他们为客户个性化推荐理财、保险产品,大幅提升服务效率和服务体验。 1.1.2 自动驾驶 得益于人工智能技术,自动驾驶技术越来越成熟。自动驾驶的渗透率呈现逐步上涨的趋势。全球知名 IT 市场研究机构IDC 发布的《中国自动驾驶汽车市场数据追踪报告》显示,2022 年第一季度 L2 级自动驾驶在乘用车市场的新车渗透率达 23.2%,L3 和 L4 级自动驾驶的能力也越来越成熟。 在自动驾驶场景中,每车每日会产生 T 级别数据,每次训练的数据达到 PB 级别。大规模数据处理和大规模仿真任务的特点十分显著,需要使用智算集群来提升数据处理与模型训练的效率。 重庆长安汽车股份有限公司在智算领域进行了规模化实践,建设了全新的智能车云平台和专用智算中心。当前计算能力突破 100 亿亿次,支撑自动驾驶的算法自研、虚拟仿真、智能网联等数字服务。智能车云平台提供统一的基础网联、数字产品、AI 决策分析、智能汽车大数据四大平台能力,为用户提供智能化、远程化、个性化的车辆服务,打造更加便捷、高效、安全的车辆使用体验。 1.2 智算业务对网络的关键要求 1.2.1 AI 模型训练和推理的核心是数据计算 在 AI 系统中,一个模型从生产到应用,一般包括离线训练和推理部署两大阶段。 离线训练,就是产生模型的过程。用户需要根据自己的任务场景,准备好训练模型所需要的数据集以及神经网络算法。模型训练开始后,先读取数据,然后送入模型进行前向计算,并计算与真实值的误差。然后执行反向计算得到参数梯度,最后更新参数。训练过程会进行多轮的数据迭代。训练完成之后,保存训练好的模型,然后将模型做上线部署,接受用户的真实输入,通过前向计算,完成推理。因此,无论是训练还是推理,核心都是数据计算。为了加速计算效率,一般都是通过 GPU 等异构加速芯片来进行训练和推理。 1.2.2 AI 模型参数规模不断扩大 随着以 GPT3.0 为代表的大模型展现出令人惊艳的能力后,智算业务往海量参数的大模型方向发展已经成为一个主流技术演进路径。以自然语言处理(NLP)为例,模型参数已经达到了千亿级别。计算机视觉(CV) 、广告推荐、智能风控等领域的模型参数规模也在不断的扩大,正在往百亿和千亿规模参数的方向发展。 1.2.3 大模型训练集群的网络要求 大模型训练中大规模的参数对算力和显存都提出了更高的要求。以GPT3为例,千亿参数需要2TB显存,当前的单卡显存容量不够。即便出现了大容量的显存,如果用单卡训练的话也需要32年。为了缩短训练时间,通常采用分布式训练技术,对模型和数据进行切分,采用多机多卡的方式将训练时长缩短到周或天的级别。 分布式训练就是通过多台节点构建出一个计算能力和显存能力超大的集群,来应对大模型训练中算力墙和存储墙这两个主要挑战。而联接这个超级集群的高性能网络直接决定了智算节点间的通信效率,进而影响整个智算集群的吞吐量和性能。要让整个智算集群获得高的吞吐量,高性能网络需要具备低时延、大带宽、长期稳定性、大规模扩展性和可运维几个关键能力。 (1)低时延 分布式训练系统的整体算力并不是简单的随着智算节点的增加而线性增长,而是存在加速比,且加速比小于 1。存在加速比的主要原因是:在分布式场景下,单次的计算时间包含了单卡的计算时间叠加卡间通信时间。因此,降低卡间通信时间,是分布式训练中提升加速比的关键,需要重点考虑和设计。 降低多机多卡间端到端通信时延的关键技术是 RDMA 技术。RDMA 可以绕过操作系统内核,让一台主机可以直接访问另外一台主机的内存。 实 现 RDMA 的 方 式 有 InfiniBand、RoCEv1、RoCEv2、i WARP 四 种。 其 中 RoCEv1 技 术 当 前 已 经 被 淘 汰,iWARP 使用较少。当前 RDMA 技术主要采用的方案为 InfiniBand 和 RoCEv2 两种。 在 InfiniBand 和 RoCEv2 方案中,因为绕过了内核协议栈,相较于传统 TCP/IP 网络,时延性能会有数十倍的改善。在同集群内部一跳可达的场景下,InfiniBand 和 RoCEv2 与传统 IP 网络的端到端时延在实验室的测试数据显示,绕过内核协议栈后,应用层的端到端时延可以从 50us(TCP/IP),降低到 5us(RoCE)或 2us(InfiniBand)。 (2)大带宽 在完成计算任务后,智算集群内部的计算节点需要将计算结果快速地同步给其他节点,以便进行下一轮计算。在结果同步完成前,计算任务处于等待状态,不会进入下一轮计算。如果带宽不够大,梯度传输就会变慢,造成卡间通信时长变长,进而影响加速比。 (3)稳定运行 由于计算量比较大,分布式训练任务有可能需要数天或数周。在训练期间如果出现网络不稳定的问题,会影响整个训练任务的进度。因为网络故障导致的故障域通常会比较大,轻则需要回退到上一个分布式训练的断点进行重训,重则可能要将整个任务从 0 开始重训。因此,网络稳定性对分布式训练任务十分重要。 (4)大规模 随着数据并行和模型并行技术的不断完善和提升,分布式训练中可以使用千卡或万卡规模的 GPU 来缩短整体训练时长。这就需要智算网络能够具备支持大规模 GPU 服务器集群的能力,并且能具备较强的扩展性,以应对未来更大规模 GPU集群的业务需求。 (5)可运维 在成百上千张GPU卡的智算集群中,集群的可运维性、可管理性是需要重点考虑的维度。整个智算集群的运行状态的可视化,配置变更的白屏化,异常状态和故障的快速感知,是对高智算集群进行高效运维管理的基础。 02智算网络方案选型 要满足智算网络的低时延、大带宽、稳定运行、大规模以及可运维的需求,目前业界比较常用的网络方案是 InfiniBand方案和 RoCEv2 方案。 2.1 InfiniBand 网络介绍 2.1.1 InfiniBand 物理网络设施 InfiniBand网络的关键组成包括Subnet Manager(SM)、InfiniBand 网卡、InfiniBand 交换机和 InfiniBand连接线缆。 (1) InfiniBand 网卡 支持 InfiniBand 网卡的厂家以 NVIDIA 为主。下图是当前常见的 InfiniBand 网卡。 InfiniBand 网卡在速率方面保持着快速的发展。200Gbps 的 HDR 已经实现了规模化的商用部署,400Gbps 的 NDR的网卡也已经开始商用部署。 (2)InfiniBand 交换机 SB7800 为 100Gbps 端口交换机(36*100G),属