行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

驱动未来：面向大模型的智算网络

信息技术 2024-09-19 陈文智云栖大会洪

大模型的发展历程经历了从标准数据中心网络到超大数据中心网络，再到如今由AI大模型驱动的智算中心网络阶段。大模型参数规模从千亿增长到万亿，并从单模态发展到多模态交互。AI大模型算力对网络提出更高需求，万卡训练能显著缩短训练时间。

当前AI大模型网络实现主要涉及待训练数据传输、Checkpoint数据传输，以及GPU服务器间通过PCIe网卡和GPUdirectRDMA进行数据同步。GPU服务器内部则通过GPU芯片直出进行计算结果同步。

未来网络演进趋势显示，推理应用和领域模型应用将超越大模型训练的规模。大模型正从训练走向部署和落地，模型推理市场兴起，领域模型类型愈加丰富。头部芯片厂商英伟达2024财年40%数据中心收入来自推理业务，网信办备案的领域大模型占大模型总备案数的69%，国内推理服务器占比预计从2023年的41.3%增长到2027年的72.6%。推理场景对算力成本和运营成本的要求远超训练大模型，决定模型训练结果能否落地部署。

观止大模型强化认知能力，提供3B～70B多种模型大小，适用于不同应用场景，曾获NDSS2024杰出论文奖，并在开源模型思维链能力榜单中排名第一。

推理和领域模型对网络提出异构算力按需分配和数据高效互通的需求。网络演进方案包括网络融合支持算力并池灵活调度，以及高性能协议支持数据高效传输。未来智算网络方案需提供网络空间支持数据在各类算力间高效流转，支持商用RoCEv2、自研RDMA协议及TCP/TCP-X接入，并兼容多种商用和自研物理网卡，实现解耦/虚拟网络解耦。

驱动未来:面向大模型的智算网络陈文智浙江大学求是特聘教授，博士生导师，信息技术中心主任2 0 2 4 /09/1 9 AI大模型与数据中心网络的发展历程大模型的发展历程数据中心网络的发展 •标准数据中心网络：互联网驱动，规模超过万台物理服务器•超大数据中心网络：云服务驱动，千万级租户数量，百万级设备数量•大模型智算中心网络：AI大模型驱动，部署超过10万张卡的智算集群 •参数规模从千亿到万亿：ChatGPT（1750亿）到GPT4（约1.8万亿） •从单模态到多模态：语言处理->到图像/视频/语音/文字跨模态交互 AI大模型算力对网络的需求 175B大小的模型下，万卡训练可以显著缩短训练时间[1] AI大模型当前网络实现 •待训练数据传输•Checkpoint数据传输 •GPU服务器之间通常运行PP（流水线并行）/DP（数据并行）策略时，同步中间结果/损失值/梯度等数据•基于PCIe网卡，GPUdirectRDMA •GPU服务器内GPU卡之间主要运行MP/TP（模型并行/张量并行）时，同步计算结果•GPU芯片直出 AI领域的网络未来如何演进？推理应用和领域模型应用将超越大模型训练的规模大模型从训练走向部署、落地模型推理市场开始兴起领域模型的类型将愈加丰富 1.头部芯片厂商英伟达2024财年数据中心有40%的收入来自推理业务； 1.基础模型的训练主要集中在少数头部厂商，垂直领域的模型加速了广大企业的参与和商业化进程2.截止2024年7月30日，网信办备案的领域/行业大模型为136款，占大模型总备案数的69% 2.国内23年的推理服务器占比约为41.3%，预计27年将达到72.6% 观止大模型 3.推理场景对算力成本和运营成本的诉求远超训练大模型，将直接决定模型训练结果能否走向落地部署观止大模型起源浙江大学ARClab实验室，开源版本为Openbuddy，并构建了Openbuddy开源社区。观止大模型强化认知能力，提供3B～70B多种模型大小，适用于不同的应用场景和需求。 ➢2024年03月斩获安全顶会NDSS2024杰出论文奖 ➢艾伦人工智能研究所开源模型思维链能力榜单排名第一 ➢Huggingface开源大语言模型榜单排名前列数据源于：华福证券《算力专题研究二：从训练到推理：算力芯片需求的华丽转身》推理和领域模型对网络的需求：异构算力按需分配，数据高效互通异构算力按需分配需求数据高效互通 •异构GPU之间，CPU跟GPU/CPU之间需要高性能网络传输中间计算结果•CPU跟用户之间需要高性能网络传输输入和输出数据 •推理和领域模型为了提升计算资源利用率和效率，每个任务计算密集型和存储密集型步骤在不同的计算资源上运行•异构资源按任务需求分配推理和领域模型网络演进方案：网络融合，支持算力并池灵活调度推理的规模将超过训练 •超大规模：单卡400G-800Gbps/GPU，千卡无收敛，万卡/十万卡互联•超大带宽：多路径网络技术，乱序/保序•低时延：RDMA & GDR，拥塞控制•持续高可靠：杜绝PFC死锁/风暴，多路径快速切换 •训推一体，算力并池：CPU和GPU间高速互联，不同GPU集群高速互联，CPU跟CPU之间高速互联•一张网设计：统一IP编址，提升网络端口利用率推理和领域模型场景网络演进方案：高性能协议，支持数据高效传输下一代智算网络方案通过提供一个网络空间，支持数据在各种算力之间高效流转支持各类协议栈接入商用RoCEv2、自研RDMA协议以及TCP/TCP-X的接入支持多种商用和自研物理网卡，解耦/虚拟网络解耦谢谢Thank You

点击免费查看完整报告

驱动未来：面向大模型的智算网络

你可能感兴趣

2024面向 AI 智算数据中心网络架构与连接技术的发展路线展望白皮书

2025年面向智算场景的高性能网络白皮书

2024年面向AI大模型的网络使能技术白皮书-6GANA

2024年6G网络面向大模型的分布式学习白皮书

面向AI大模型的智算中心网络演进白皮书（2023年）

金融业 AI 大模型智算网络研究报告

王瑞雪：大模型时代，智算网络性能评测挑战

网络的未来：面向全域有效连接的直连设备技术

深算3号研发进展顺利，面向智算未来

计算机行业周报：AI大模型驱动算力加速，关于智算需求机遇