您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[百度]:2023智算中心网络架构白皮书 - 发现报告
当前位置:首页/行业研究/报告详情/

2023智算中心网络架构白皮书

信息技术2023-08-17百度胡***
2023智算中心网络架构白皮书

智算中心网络架构白皮书百度智能云度小满百度智能云编写组李兆彤 史 磊 周 磊李兆耕 包贵新 田晓利李玉双 谢伟光 陈 宁刘 楠 马建英 杨 正吉 靖 万芳芳 缪 懋魏 谦 孙 鹏 甄浩洋邱帅兵 多杰伦珠 王俊涵高 飞 李书坤 章琬晨徐 浩 姜 涛 敖玉龙张向辉 度小满编写组苏 阳 张伟建 朱凤元张 一 杜 侃 汪宁瀚胡东旭王佩龙 宋 飞 崔永新陈存利合作单位:联合编写组:专家指导委员会:主编单位: 引言随着 AI 技术的逐步成熟和应用场景的不断丰富,人工智能产业正在迅速发展,AI 相关的产品与服务也在各行业中落地和普及。企业通过人工智能技术提高生产力,进行数字智能化新范式转型的需求也更加迫切。人工智能技术目前已被广泛应用于智慧金融、智能家居、智能医疗、智能交通、智能制造等领域。大模型技术因其良好的通用性与泛化性,显著降低了人工智能应用的门槛,其溢出效应正在加速推进新一轮的科技革命和社会产业的变革。近期,ChatGPT、文心一言等生成式人工智能应用的出现,使大模型的发展成为 AI 领域最重要的热点趋势,越来越多的科技巨头竞相推出千亿、万亿参数的大模型。而训练超大参数规模的大模型也给智能计算基础设施带来了前所未有的挑战。大模型的训练过程需要数千张 GPU 卡协同计算数周或数月,这就要求智能计算网络能够提供更强大的性能和更高的稳定性与可靠性。因此,提供一种高速、低延迟且可扩展的网络互联方案成为了智能计算领域的重要课题。通常,大中型政务、金融及企业客户对网络安全与数据隐私保护有着更严格的要求,需要通过私有云建设模式在自有数据中心中构建自主可控的智能计算资源池,为人工智能的创新服务提供底层算力支持。智算网络作为智算中心基础设施的重要组成部分,其选型、设计和建设方案是非常关键的环节,网络架构设计的合理性直接影响智算集群的性能、可靠性与稳定性。智算网络的选型和建设阶段的典型问题包括:1. 智算网络是复用当前的 TCP/IP 通用网络的基础设施,还是新建一张专用的高性能网络?2. 智算网络技术方案采用 InfiniBand 还是 RoCE ?3. 智算网络如何进行运维和管理?4. 智算网络是否具备多租户隔离能力以实现对内和对外的运营?本白皮书将分析智算业务对网络的核心需求,深入介绍智算网络的架构设计以及智算中心高性能网络的运维和运营管理方案,并结合典型实践,提供智算网络选型建议,为客户建设面向大模型的智算中心提供网络建设、运维和运营参考。 智算中心网络架构白皮书目录CONTENTS智算业务对网络的核心需求01031.1 智算业务关键应用场景和案例 1.2 智算业务对网络的关键要求01智算网络方案选型0712172.1 InfiniBand网络介绍2.2 RoCEv2网络介绍2.3 InfiniBand和RoCEv2网络 方案对比02物理网络架构设计19 2022253.1 传统云网络架构承载智算业务存 在的挑战 3.2 智算网络架构3.3 智算网络可容纳的GPU卡的规模 3.4 物理网络设计典型实践03智算高性能网络运维管理4.1 可视化网管系统4.2 高精度流量采集4.3 数据可视化展示4.4 智能化4.5 高性能网络运维典型实践293132333304智算高性能网络运营管理 5.1 云平台产品化的多租户能力AI-VPC5.2 InfiniBand网络的多租户方案5.3 RoCE网络的多租户方案5.4 通过RDMA网络提供公共服务5.5 高性能网络运营典型实践353637383805总结和展望总结和展望 推荐阅读404106 目录CONTENTS智算业务对网络的核心需求01031.1 智算业务关键应用场景和案例 1.2 智算业务对网络的关键要求01智算网络方案选型0712172.1 InfiniBand网络介绍2.2 RoCEv2网络介绍2.3 InfiniBand和RoCEv2网络 方案对比02物理网络架构设计19 2022253.1 传统云网络架构承载智算业务存 在的挑战 3.2 智算网络架构3.3 智算网络可容纳的GPU卡的规模 3.4 物理网络设计典型实践03智算高性能网络运维管理4.1 可视化网管系统4.2 高精度流量采集4.3 数据可视化展示4.4 智能化4.5 高性能网络运维典型实践293132333304智算高性能网络运营管理 5.1 云平台产品化的多租户能力AI-VPC5.2 InfiniBand网络的多租户方案5.3 RoCE网络的多租户方案5.4 通过RDMA网络提供公共服务5.5 高性能网络运营典型实践353637383805总结和展望总结和展望 推荐阅读404106 6智算中心网络架构白皮书 01 智算业务对网络的核心需求101智算业务对网络的核心需求 1.1 智算业务关键应用场景和案例智能计算是指利用人工智能技术和算法,对海量数据进行分析、处理和挖掘。智能计算已广泛应用于自然语言处理、图像识别、预测分析、金融科技和自动驾驶等场景。基于大模型在自然语言处理领域的出色能力,智能计算为机器翻译、文本分类、文本总结、文本创作、搜索助手、辅助编程、图像视频创作等应用场景提供强有力的技术支持。智能计算已成为帮助企业提高效率、降低成本、打造核心竞争力所不可或缺的技术能力,其在金融和汽车行业的应用已经非常成熟。例如:·在金融行业:智能计算应用于风险管理和控制,辅助量化交易、信用评估以及趋势预测,帮助金融机构做出更明智的业务决策。·在汽车行业:智能计算为自动驾驶提供高效精准的感知与识别、行驶决策与规划、车辆控制与执行,并不断进行算法优化以提高自动驾驶的安全和可靠性。1.1.1 金融风控与智能推荐金融行业历来是数字化与智能化的先驱者,已经将人工智能技术广泛应用于各项业务中,包括智能风控、交易欺诈检测、智能客服、投资决策、信用评估、量化交易等。金融风控是人工智能技术在金融行业中最典型的应用场景。通过大数据分析、机器学习等技术对金融交易、投资、借贷等活动进行风险识别、评估、控制和监测,对金融风险进行有效识别和预警,以保障金融机构和客户的资产安全,满足监管要求。在金融风控领域,度小满拥有非常丰富的实践经验。度小满将大型语言模型(LLM)应用于海量互联网文本数据、行为数据、征信报告的解读,将小微企业主的信贷违约风险降低了 25%。而且随着模型的迭代,大模型在智能风控上的潜力还会进一步释放。除了智能风控领域,度小满基于生成式大模型自主生成新的数据、图像、语音、文本等信息,成为理财师、保险经纪人等金融行业从业人员的得力助手,帮助他们为客户个性化推荐理财、保险产品,大幅提升服务效率和服务体验。1.1.2 自动驾驶得益于人工智能技术,自动驾驶技术越来越成熟。自动驾驶的渗透率呈现逐步上涨的趋势。全球知名IT市场研究机构IDC 发布的《中国自动驾驶汽车市场数据追踪报告》显示,2022 年第一季度 L2 级自动驾驶在乘用车市场的新车渗透率达 23.2%,L3 和 L4 级自动驾驶的能力也越来越成熟。在自动驾驶场景中,每车每日会产生 T 级别数据,每次训练的数据达到 PB 级别。大规模数据处理和大规模仿真任务的特点十分显著,需要使用智算集群来提升数据处理与模型训练的效率。 2智算中心网络架构白皮书重庆长安汽车股份有限公司在智算领域进行了规模化实践,建设了全新的智能车云平台和专用智算中心。当前计算能力突破 100 亿亿次,支撑自动驾驶的算法自研、虚拟仿真、智能网联等数字服务。智能车云平台提供统一的基础网联、数字产品、AI 决策分析、智能汽车大数据四大平台能力,为用户提供智能化、远程化、个性化的车辆服务,打造更加便捷、高效、安全的车辆使用体验。1.2 智算业务对网络的关键要求1.2.1 AI 模型训练和推理的核心是数据计算在 AI 系统中,一个模型从生产到应用,一般包括离线训练和推理部署两大阶段。离线训练,就是产生模型的过程。用户需要根据自己的任务场景,准备好训练模型所需要的数据集以及神经网络算法。模型训练开始后,先读取数据,然后送入模型进行前向计算,并计算与真实值的误差。然后执行反向计算得到参数梯度,最后更新参数。训练过程会进行多轮的数据迭代。训练完成之后,保存训练好的模型,然后将模型做上线部署,接受用户的真实输入,通过前向计算,完成推理。因此,无论是训练还是推理,核心都是数据计算。为了加速计算效率,一般都是通过 GPU 等异构加速芯片来进行训练和推理。图 1. AI 模型训练和推理的核心是数据计算1.2.2 AI 模型参数规模不断扩大随着以 GPT3.0 为代表的大模型展现出令人惊艳的能力后,智算业务往海量参数的大模型方向发展已经成为一个主流技术演进路径。以自然语言处理(NLP)为例,模型参数已经达到了千亿级别。计算机视觉(CV) 、广告推荐、智能风控等领域的模型参数规模也在不断的扩大,正在往百亿和千亿规模参数的方向发展。 01 智算业务对网络的核心需求3:语言模型 :中文语言模型 :多模态模型 :视觉模型ELMo(90M)BERT(340M)ERNIE 1.0(110M)GPT-2(1.5B)ERNIE 2.0(330M)T5(11B)Turing-NLG(17B)GPT-3(175B)PaLM(562B)PaLI(17B)LaMDA(137B)ERNIE 3.0(10B)ERNIE 3.0 Titan(260B)ViT(630M)V-MOE(15B)ViT-G(2B)SwinV2(3B)DALL-E(1.2B)CogView(4B)ERNIE-VILG(10B)Plato-XL(11B),0.050.55505002017201820192020202120222023图 2. AI 模型参数演进1.2.3 大模型训练集群的网络要求大模型训练中大规模的参数对算力和显存都提出了更高的要求。以GPT3为例,千亿参数需要2TB显存,当前的单卡显存容量不够。即便出现了大容量的显存,如果用单卡训练的话也需要32年。为了缩短训练时间,通常采用分布式训练技术,对模型和数据进行切分,采用多机多卡的方式将训练时长缩短到周或天的级别。算力墙储存墙传统训练GPU 0ZELOPs计算量大规模参数GPT-3:314 ZFLOPs175B参数小模型、小样本、单卡训练梯度更新反向计算前向计算 Training Data大模型的变化参数量与计算量激增A100算力312TFLOPS单卡需要32年需要分布式加速千亿参数需要2TB存储单卡现存80GB,放不下需要更多储存空间图 3. 传统训练和大模型的不同分布式训练就是通过多台节点构建出一个计算能力和显存能力超大的集群,来应对大模型训练中算力墙和存储墙这两个主要挑战。而联接这个超级集群的高性能网络直接决定了智算节点间的通信效率,进而影响整个智算集群的吞吐量和性能。要让整个智算集群获得高的吞吐量,高性能网络需要具备低时延、大带宽、长期稳定性、大规模扩展性和可运维几个关键能力。(1)低时延分布式训练系统的整体算力并不是简单的随着智算节点的增加而线性增长,而是存在加速比,且加速比小于 1。存在加速比的主要原因是:在分布式场景下,单次的计算时间包含了单卡的计算时间叠加卡间通信时间。因此,降低卡间通信时间,是分布式训练中提升加速比的关键,需要重点考虑和设计。 4智算