您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [云栖大会]:驱动未来:面向大模型的智算网络 - 发现报告

驱动未来:面向大模型的智算网络

信息技术 2024-09-19 陈文智 云栖大会
报告封面

驱动未来:面向大模型的智算网络 陈文智 浙江大学求是特聘教授,博士生导师,信息技术中心主任2 0 2 4 /09/1 9 AI大模型与数据中心网络的发展历程 大模型的发展历程 数据中心网络的发展 •标准数据中心网络:互联网驱动,规模超过万台物理服务器•超大数据中心网络:云服务驱动,千万级租户数量,百万级设备数量•大模型智算中心网络:AI大模型驱动,部署超过10万张卡的智算集群 •参数规模从千亿到万亿:ChatGPT(1750亿)到GPT4(约1.8万亿) •从单模态到多模态:语言处理->到图像/视频/语音/文字跨模态交互 AI大模型算力对网络的需求 175B大小的模型下,万卡训练可以显著缩短训练时间[1] AI大模型当前网络实现 •待训练数据传输•Checkpoint数据传输 •GPU服务器之间通常运行PP(流水线并行)/DP(数据并行)策略时,同步中间结果/损失值/梯度等数据•基于PCIe网卡,GPUdirectRDMA •GPU服务器内GPU卡之间主要运行MP/TP(模型并行/张量并行)时,同步计算结果•GPU芯片直出 AI领域的网络未来如何演进? 推理应用和领域模型应用将超越大模型训练的规模 大模型从训练走向部署、落地 模型推理市场开始兴起 领域模型的类型将愈加丰富 1.头部芯片厂商英伟达2024财年数据中心有40%的收入来自推理业务; 1.基础模型的训练主要集中在少数头部厂商,垂直领域的模型加速了广大企业的参与和商业化进程2.截止2024年7月30日,网信办备案的领域/行业大模型为136款,占大模型总备案数的69% 2.国内23年的推理服务器占比约为41.3%,预计27年将达到72.6% 观止大模型 3.推理场景对算力成本和运营成本的诉求远超训练大模型,将直接决定模型训练结果能否走向落地部署 观止大模型起源浙江大学ARClab实验室,开源版本为Openbuddy,并构建了Openbuddy开源社区。观止大模型强化认知能力,提供3B~70B多种模型大小,适用于不同的应用场景和需求。 ➢2024年03月斩获安全顶会NDSS2024杰出论文奖 ➢艾伦人工智能研究所开源模型思维链能力榜单排名第一 ➢Huggingface开源大语言模型榜单排名前列 数据源于:华福证券《算力专题研究二:从训练到推理:算力芯片需求的华丽转身》 推理和领域模型对网络的需求:异构算力按需分配,数据高效互通 异构算力按需分配需求 数据高效互通 •异构GPU之间,CPU跟GPU/CPU之间需要高性能网络传输中间计算结果•CPU跟用户之间需要高性能网络传输输入和输出数据 •推理和领域模型为了提升计算资源利用率和效率,每个任务计算密集型和存储密集型步骤在不同的计算资源上运行•异构资源按任务需求分配 推理和领域模型网络演进方案:网络融合,支持算力并池灵活调度 推理的规模将超过训练 •超大规模:单卡400G-800Gbps/GPU,千卡无收敛,万卡/十万卡互联•超大带宽:多路径网络技术,乱序/保序•低时延:RDMA & GDR,拥塞控制•持续高可靠:杜绝PFC死锁/风暴,多路径快速切换 •训推一体,算力并池:CPU和GPU间高速互联,不同GPU集群高速互联,CPU跟CPU之间高速互联•一张网设计:统一IP编址,提升网络端口利用率 推理和领域模型场景网络演进方案:高性能协议,支持数据高效传输 下一代智算网络方案 通过提供一个网络空间,支持数据在各种算力之间高效流转 支持各类协议栈接入商用RoCEv2、自研RDMA协议以及TCP/TCP-X的接入 支持多种商用和自研物理网卡,解耦/虚拟网络解耦 谢谢Thank You