您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[香港大学&上海交通大学]:混合专家模型推理优化技术综述 - 发现报告

混合专家模型推理优化技术综述

2024-12-24Jiacheng Liu、 Peng Tang、 Wenfeng Wang香港大学&上海交通大学林***
AI智能总结
查看更多
混合专家模型推理优化技术综述

∗刘家正,香港中文大学∗彭唐,上海交通大学 , 中国王文峰,上海交通大学 , 中国YUHANG REN,上海交通大学 , 中国†孝丰侯,上海交通大学 , 中国PHENG - ANN HENG,香港中文大学郭明,上海交通大学 , 中国†李朝,上海交通大学 , 中国 The emergence of large-scale Mixture of Experts (MoE) models has标志着大规模Mixture of Experts(MoE)模型的出现标志着人工智能领域的重要进步,通过条件计算增强了模型容量和计算效率。然而,在部署和推理这些模型时,计算资源、延迟和能源效率等方面存在重大挑战。本文系统地分析了整个系统堆栈中MoE模型推理优化技术的当前状况。我们首先建立了一个分类框架,将优化方法分为模型级、系统级和硬件级优化。在模型层面,我们探讨了包括高效专家设计、注意力机制、各种压缩技术(如剪枝、量化和知识蒸馏)以及算法改进(包括动态路由策略和专家合并方法)在内的架构创新。在系统层面,我们研究了分布式计算方法、负载均衡机制和高效的调度算法,以实现可扩展部署。此外,我们深入探讨了针对特定硬件的优化和协同设计策略,以最大化吞吐量和能源效率。本文不仅提供了现有解决方案的结构化概述,还指出了MoE推理优化中的关键挑战和有前景的研究方向。我们全面的分析为研究人员和实践者在资源受限环境中大规模部署MoE模型提供了宝贵资源。为了促进持续更新并分享MoE推理优化研究领域的最新进展,我们建立了一个可访问的存储库,网址为https: / / github. com / MoE - Inf / 真棒 - moe - 推断 /. ACM 参考格式: 刘嘉诚, 唐鹏, 王文峰, 任宇航, 侯小锋, 胡承翰, 郭敏毅, 李超. 2018. 混合专家模型推理优化技术综述. 在...确保输入正确的会议标题(从您的权利确认电子邮件中的会议简称‘XX’获取)。ACM, 纽约, NY, 美国,27 pages.https: / / doi. org / XXXXXXX. XXXXXXX arXiv: 2412.14219 v1 [cs. LG] 2024 年 12 月 18 日作者联系方式:刘嘉城,jcliu@cse.cuhk.edu.hk,香港中文大学,中国香港;唐鹏,上海交通大学,中国上海;王文锋,上海交通大学,中国上海;任宇航,上海交通大学,中国上海;侯小峰,上海交通大学,中国上海;黄澎安,香港中文大学,中国香港;郭 Minhui,上海交通大学,中国上海;李超,上海交通大学,中国上海。 1 Introduction 大型语言模型(LLMs)已经颠覆了人工智能领域,展现出前所未有的跨领域能力,特别是在自然语言处理方面。20,115,157] 、计算机视觉 [31,33,194] 和多模式任务 [86,123,162] 。 GPT - 4等型号 [2] , 克劳德 [8] 和双子座 [151已经在从自然语言理解到复杂推理和代码生成等多种任务中实现了卓越的表现。这些模型令人印象深刻的能力主要归因于其巨大的规模,无论是模型参数数量还是训练过程中投入的计算资源。这一规模趋势得到了实证证据的支持,这些证据表明模型性能随规模增大而持续提升,这在语言建模和其他领域的各种扩展规律中得到了体现。[]5,19,74].然而,这一趋势在计算效率和资源利用方面带来了重大挑战,尤其是在推理过程中,实际部署的约束变得尤为关键[10,173,187,199]. 混合专家(Mixture of Experts, MoE)已成为应对机器学习中scaling挑战的一种有前景的架构解决方案。137] 。最初由 Jacobs 等人介绍。 [68] 在 1990 年代初期 , 作为学习神经网络子任务的方法 , 许多基于MoE 的模型 [37,53,155] 已开发多年。在大型语言模型的时代 , 教育部再次经历了复兴 [1,29,70,148核心原则是将模型的能力分布在多个专门的子网络或专家中,通过学习到的门控机制仅在为每个输入选择性激活相关的专家。这种方法允许模型保持大量的参数数量,同时通过稀疏激活来管理计算成本。近期的实现,如Mixtral 8x7B [70] 、开关变压器 [42] 和 GShard [82], 已经证明了该策略在保持合理计算需求的同时将语言模型扩展到数万亿参数的有效性。 MoE 在扩展模型方面的成功导致其在各种最先进的系统中采用。例如 , Google 的 GLaM [35] 优于 GPT- 3 , 同时在推理过程中使用明显更少的计算资源。类似地 , Mixtral 8x7B [70], 一个近期发布的开源MoE模型,在与更大规模密集模型的性能比较中表现出竞争力,同时保持了高效的推理特性。表1总结了近期引起广泛关注的先进开源MoE模型,并进一步突显了MoE架构的强大潜力。这些成功激发了学术界和工业界的广泛兴趣,促进了模型设计方面的创新]。22,164,192] 、培训技术 [34,47,101] 和部署策略 [15,16,183]. 然而 , 有效部署用于推理的 MoE 模型提出了独特而重大的挑战 [65, 150,181,196专家激活模式的动态特性引入了资源管理和调度的复杂性,这在传统的密集型模型中并不存在。这些挑战涵盖了多个层面:在模型层面,高效专家架构和路由机制的设计直接影响推理性能;在系统层面,管理分布式计算和负载均衡变得越来越复杂;在硬件层面,需要专门的加速技术来处理稀疏计算模式。 已经开发了许多方法来解决 MoE 部署和推理中的这些挑战 [72,125,133,170尽管该领域研究的迅速增长体现了其重要性,但也可能导致难以识别关键趋势和最佳实践。现有文献中的一个关键缺口是没有系统性的框架来分析和开发针对MoE模型的综合推断优化解决方案。 为了弥合这一差距,我们的研究提供了一项全面的关于MoE模型推断优化技术的调查。我们提出了一种分类框架,将优化方法划分为模型层面、系统层面和硬件层面的优化,如图所示。1。此框架提供了一种结构化的理解方法 提交给 ACM 的手稿 并比较不同的优化技术。虽然有关于 LLM 效率的相关调查 [10,84,90,156,159,173,187,199] 和教育部架构 [13,41,158] , 我们的工作是第一个专门关注推理优化的工作提交给 ACM 的手稿 푓 푓 푛 MoE模型的技术方法。我们系统分析了不同抽象层次上的优化方法,从模型架构到硬件加速,为研究人员和从业者提供了一项宝贵的资源,用于部署适用于各种实际应用的MoE模型。 本调查的其余部分组织如下 :2提供MoE模型及其推断特性背景信息。第3至5节分别详细介绍了模型层面、系统层面和硬件层面的优化技术。6讨论未来的挑战和机遇 , 以及第7调查结束。 2 混合专家基础 混合专家(Mixture of Experts, MoE)代表了神经网络领域,特别是在大型语言模型中,一个重要的架构范式,它通过稀疏激活机制实现了条件计算 [13] 。在其核心 , MoE 体系结构由路由网络组成푅(푥)和一组专家网络퐸 , 퐸 , ..., 퐸, where푁表示1 2푁 Í专家总数。教育部的基本原则可以表示为푦=푔(푥)·퐸(푥) , 其中푔(푥)푖푖 푖푖=1表示专家的门控函数푖, and퐸(푥) 是专家的输出푖.푖如图所示2现有的研究通常利用MoE模块来替代传统密集层的部分结构,从而形成稀疏MoE层。大多数研究主要关注用MoE模块替换全连接层(FFN模块)这一方面[。1,30,70,71,153] , 有些人还探索了替换注意模块 [72,138,139,192]. 在稀疏混合专家(MoE)模型的推理过程中,计算遵循三阶段管道。首先,路由器计算专家选择概率: 提交给 ACM 的手稿 图2. 基于MoE层的密集层架构比较:(a) 传统密集变换器层,(b) 基于MoE的前向网络的变换器层,以及(c) 同时包含基于MoE的注意力机制和前向网络的变换器层。 where푥∈R 是输入标记嵌入 ,푅(·) 是路由函数 , 并且휃ε R 表示以下的专家选择概率푁Total experts. Next, the top - K experts are selected based on these probabilities: where퐸包含 K 个选定专家的指数 ,퐾≤푁。然后 , 选定的专家在中处理输入选定平行: where퐸(·) 表示专家的计算푖, and푦是它的输出。最后 , 专家输出被合并푖푖通过加权聚合 :휃푦=푖·푦 通过将密集模型分割为相对独立的专家模型,并根据每个输入令牌动态激活特定子集(或整个集合)的专家,可以在仅增加少量推断计算的情况下显著提高模型的整体性能。这种方法清楚地展示了MoE模型的卓越灵活性和可扩展性。휃푗푗∈퐸푖∈퐸选定选定 3 模型级优化 模型级别的优化旨在通过系统地改进架构、参数优化和算法设计来增强MoE模型的固有结构和效率。这些优化可以大致分为三个主要领域:高效的模型架构设计、模型压缩技术以及算法改进。架构设计侧重于开发更高效的专家和注意力机制结构,而压缩技术则通过剪枝、量化等方法减少模型大小和内存占用。 并且包括知识精简。算法改进集中在增强MoE模型的动力学方面,包括路由机制和专家组合策略。图3说明了本节的详细结构。 3.1 高效模型架构设计 一个变压器块通常由两个主要组成部分构成:注意力模块和前馈神经网络(FFN)模块。为了构建更好的混合专家系统(MoE)模型,许多研究集中于设计改进的注意力模块和前馈神经网络模块的版本,旨在实现高性能的同时保持高效率。 3.1. 1 基于 MoE 的注意力设计除了在变压器层的FFN模块中典型的MoE结构应用之外,当前的研究探索如何将MoE整合到注意力模块中以提高性能。MAE [121首先从MoE视角解释了多头注意力机制,通过学习得到的门控函数激活不同的专家,针对不同的输入,每个专家包含:푛− 1 个头。为了进一步优化基于 MoE 的注意力模块 , 现有研究提出了各种结构。 MoA [192] 和 BAM [190] 选择提交给 ACM 的手稿 混合专家模型推理优化技术综述 7 푘给定输入的头 , 并在所有头之间共享键投影和值投影权重 , 而 SwitchHead [27] 共享关键投影和查询投影权重以提高计算效率。 MoH [72]引入了共享头部和两阶段路由过程,进一步改进了标准MoE方法,提供了相对于MoA的优势。基于MoA,ModuleFormer[139将稀疏模块扩展到注意力层和前馈层,使得模块的添加与移除变得简单。受到MoA和ModuleFormer的启发,JetMoE-8B[138] 开发了一个强大的开源模型 , 具有稀疏的注意力和稀疏的前馈层 , 而 DS - MoE [117]提出了一种混合密集训练和稀疏推理框架以实现高效的训练和推理。此外,SUT[149] 和 MoEUT [26使用稀疏注意力和稀疏前馈层来构建高效的Sparse Universal Transformer模型,各层共享参数。 3.1. 2 基于 MoE 的 FFN 设计为了提高MoE基模型的效率,当前的研究探索了标准MoE模块的各种变体。MoE++ [71]引入了三种基于标准专家的零计算专家类型,旨在减少计算开销.[SCoMoE]171利用了一种结构化的全对全通信方法,借鉴了层次通信拓扑的概念,以降低并行MoE计算过程中的通信成本。预门控MoE [65]提出了一种预门控MoE模块,用于预先加载所需的专家,以提高内存受限设备上的推理速度。COMET[66] 引入了一种基于树的稀疏专家选择机制以优化传统的门控模块,该模块通常依赖于线性方法。此外,MoELoRA [104] 将 LoRA 重新想象为 MoE , 以实现更有效的参数微调。 3.2 模型压缩技术 模型