您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[第九届未来网络发展大会组委会]:AI大模型跨域训练池化调度技术体系白皮书 - 发现报告

AI大模型跨域训练池化调度技术体系白皮书

AI智能总结
查看更多
AI大模型跨域训练池化调度技术体系白皮书

版权声明 本白皮书版权属于紫金山实验室及其合作单位所有并受法律保护,任何个人或是组织在转载、摘编或以其他方式引用本白皮书中的文字、数据、图片或者观点时,应注明“来源:紫金山实验室等”。否则将可能违反中国有关知识产权的相关法律和法规,对此紫金山实验室有权追究侵权者的相关法律责任。 编写说明 主要编写单位: 紫金山实验室、江苏省未来网络研究院 主要编写人员: 周俊、孙远、刘准、张晨、高新平、杨彩云、孙婵娟、王春生、肖玉明、梁木 特别鸣谢: 新华三、天数智芯、浪潮信息、中兴通讯、中国电信 前言 AI大模型的跨域训练是全球范围关注的前沿技术方向,它是指将多个不同的智算中心组合在一起训练同一个AI大模型。为什么需要跨域训练?业界通常的认知在于,当大模型未来发展到万亿、十万亿参数规模时,根据Scaling Law需要用到万卡甚至十万卡才能完成其预训练过程,这样的体量规模如果集中到一个集群内部,在技术、能源、配套等方面都存在着严峻的挑战,因此需要通过网络连接多个集群并加以组合,以共同训练同一个万亿/十万亿的大模型。 实际上自OpenAI发布GPT-4后,业界就一直在围绕下一代GPT的需求进行跨域训练的探索。这样的认知与实践自然无可厚非,它更多地关注于通用大模型的发展问题,是一种“少数人的游戏”。DeepSeek发布V3/R1后,通用大模型不可逆地走上了开源路线,原有牌桌上“少数人”中的大部分又被迫离场,目前已变成了“几个玩家的游戏”。 一个令人焦虑的问题是,虽然打牌的人越来越少,但牌桌却无法自动缩小反而仍在不断扩大,这于我国而言是十分明显的。根据国家数据局最新数据,我国算力总规模已排在全球第二位,但由于诸多方面的原因,我国的高端智能算力领域却同时面临着“少、杂、散”的客观困境。破局点在哪?让我们重回2023年底《关于深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》(简称意见),意见在基本原则中明确指出“充分发掘重点行业算力需求,盘活存量 算力资源”,“探索异属异构异地的算力资源并网调度技术方案和商业模式”,其中即蕴含了破局之道。 DeepSeek开源后,虽然通用大模型的玩家廖然无几,但却极大地带动了行业的算力需求,企业不仅可使用“DeepSeek+知识库”进行推理,还可以基于“DeepSeek+数据集”通过后训练培养出自身专属专用的“企业大模型”。与通用大模型“广而杂”不同,“企业大模型”需要的是“专而精”,百亿级参数通常足够日常生产使用,一次后训练的算力需求大多在几十卡的规模,卡的型号并不追求高端顶尖,出于成本考虑这些企业通常也不会为后训练自建集群,通过租用算力会更经济实惠。与通用大模型预训练“开一单、吃三年”的“算力房地产”模式不同,企业大模型后训练更适合薄利多销、细水长流的“算力网调度”模式,在全国一体化算力网的服务能力加持下,千行百业按需消纳“异属异构异地”的存量算力资源,把“少数人的游戏”变回“一群人的生态”。 《AI大模型跨域训练池化调度-技术体系白皮书》(简称白皮书)的编制,是基于未来网络团队多年来在AI大模型跨域训练与算力网调度方面结合实践的创新成果。与业界面向于通用大模型在“同属、同构/异构、同城/异地”资源上的拉远部署技术路线有所不同,未来网络专注于企业大模型在“异属、异构、异地”资源上的池化调度技术路线,通过“广域确定性网络+智算资源并网+算网协同调度”三位一体的技术架构,可真正实现“异属合训、异构混训、异地同训”的池化调度能力。 白皮书围绕技术体系视角,对于AI大模型跨域训练池化调度的参考架构、关键技术、试验评估等进行了详细的介绍。希望能够通过本白皮书的内容,为业界树立基于“异属异构异地”资源的AI大模型跨域训练池化调度范式,为实现全国一台超级计算机的宏伟目标走出未来网络创新路径。 目录 前言.....................................................................................................I目录..................................................................................................IV 一、背景与概念.....................................................................................6 1.1 AI大模型....................................................................................61.2跨域训练....................................................................................81.3池化调度..................................................................................10 二、技术路线分析................................................................................11 2.1专用算力拉远..........................................................................122.2全局池化调度..........................................................................14 5.1试验环境..................................................................................725.2测试验证..................................................................................73六、总结与展望...................................................................................88 一、现状与挑战 1.1AI大模型 “训练—推理”这一范式脱胎于早期的深度学习模型,CNN、DNN、RNN等AI模型等虽已具备模型训练、参数优化的框架,但其规模相对有限,训练通常使用单机单卡或单机多卡即可完成。与之相比,AI大模型的核心特征即在于其庞大的参数量(通常达到百亿、千亿乃至万亿级别)和基于超大规模数据集(TB级别)的训练,这一过程所需的GPU核心和显存资源远超单机承载能力,对分布式并行计算架构提出了前所未有的极高要求。 早期模型的分布式并行计算架构通常采用中心化的数据并行架构,以1个参数服务器(PS,Parameter Server)为总协调控制N个工作节点(WN,Worker Node)并行计算,流行于TensorFlow框架的开发生态。随着GPT类大模型的发展,去中心化的3D混合并行架构(DP数据并行、TP张量并行、PP流水线并行)得到广泛应用,PyTorch也逐步取代TensorFlow成为业界事实标准。GPT-4的问世,将专家并行叠加于3D并行之上形成混合专家架构(MoE,Mixture of Experts)。不久前GPT-5发布,据有关预计其参数量已达到十万亿量级。 如此大规模的模型,来源于全球对于通用人工智能(AGI,Artificial General Intelligence)的狂热追求,以及扩展法则(Scaling Law) 的持续作用。它们基于互联网上爬到的数据进行训练,要花费成千上万张甚至数十万的GPU资源才能训练出来,虽然可以陪人闲聊、回答问题甚至求解方程,但却无法知道的企业流水线的工艺制造方式、学校对学生的个性培养计划、医院为老人的病症诊疗方案。这些大模型被称为“通用大模型”,它知道的很多很杂、但不深不准。如果要让大模型真正服务于千行百业,需要的是把“通用大模型”与行业数据充分结合,再通过算力加工成“行业大模型”。 目前,“行业大模型”的发展正处于初期阶段,DeepSeek-V3/R1在年初的开源,使得动辄千万的商用大模型成本直降为0,企业真正享受到了“大模型平权”:不仅可使用“DeepSeek+知识库”进行推理,还可以基于“DeepSeek+数据集”通过后训练培养出自身专属专用的“企业大模型”。与通用大模型“广而杂”不同,“企业大模型”需要的是“专而精”,百级参数通常足够日常生产使用,一次后训练的算力需求大多在几十卡或百卡的规模,卡的型号也并不追求高端顶尖。出于使用频次和成本考虑,企业自身通常也不会为后训练自建本地集群,通过租用算力会更经济实惠。 然而一个客观的情况是,企业并不情愿到公有云上租用算力,简而言之就是“数据传不出、网络运不动、算力信不过”,因此年初DeepSeek爆火后业界发展一体机的形态更符合现实的需求,但一体机通常只能推理无法训练,企业只能靠知识库“查字典”,而无法学习数据集“举一反三”。行业大模型的发展之路,仍存在巨大挑战。 1.2跨域训练 AI大模型的跨域训练,是指将一个大模型的训练任务切分到多个智算中心进行协同训练。在大模型出现前,一类面向PS架构较为常见的实现,是对模型采用“分级部署+数据压缩+异步训练”的思路,将数据集拆分到多个智算中心进行跨域数据并行。大模型出现后,面向3D并行架构的思路是将模型参数拆分到不同智算中心,根据不同的拆分方法,可将DP或PP流量基于广域网进行传输,而TP和EP要求超低时延、巨大带宽通常只能在智算中心内部、甚至智算服务器内部通信。 跨域训练是全球范围关注的前沿技术。于我国而言,由于智算的产业生态存在着诸多特殊之处,跨域训练也面临着额外的挑战。简言之,我国在高端智算领域正面临着“少、杂、散”的客观困境:(1)受限于AI芯片封锁政策,英伟达等先进型号的AI芯片极为稀缺并进一步被各路运营渠道所瓜分;(2)国产AI芯片GPGPU、NPU、ASIC等不同技术路线并行发展,同时受英伟达高速发展的牵引不断衍生出各种型号;(3)诸多地方政府将智能算力纳入公共基础设施建设,AI芯片通过各地基建项目被分流至不同城市或区域。针对于此,《关于深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》(简称意见)中,提出“探索异属、异构、异地算力资源并网调度的技术方案与商业模式”,以此寻求破局之道。 “异属”即各智算中心运营主体是多元化的,如不同市场性质的 企业、不同行政管辖的园区、不同的高校科研院所等;“异构”即智算中心间技术架构上是差异化的,如所用服务器中智算芯片的厂家、架构、型号,内部网络的拓扑与协议,集群软件的管理与控制等;“异地”即智算中心在地理位置上是分散化的,如位于同一城市的不同园区、同一省份的不同城市、不同省份乃至跨东西部区域等。“三异”可组合出多种情况,技术上最简单的情况是单个智算中心的“同属、同构、同地”,最复杂的情况是多个智算中心的“异属、异构、异地”,而我国的AI大模型跨域训练就面临着“异属、异构、异地”的巨大技术挑战: “异属”挑战在于各主体彼此独立规划、建设并运营自身的智算中心,当这些智算中心并入算力网并运行同一个训练任务的不同部分时,由于各资源自身的内部网络规划、管理控制平台、对外运营服务等方面存在着巨大的差异化甚至冲突性; “异构”挑战在于不同厂家、不同架构、不同型号智算芯片间的适配问题,当同一个训练任务的不同部分运行在多种智算芯片之上,由于各芯片自身的算力/显存大小、互联拓扑/性能、算子库/通信库等方面存在诸多的差异性; “异地”挑战在于