您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[量子位智库]:大模型架构创新研究报告 - 发现报告

大模型架构创新研究报告

AI智能总结
查看更多
大模型架构创新研究报告

大模型架构创新研究报告 自年出世、提出架构以来,已过。 AI行业对Transformer的路径依赖引发了越来越多的争论,体现出日渐迫切的架构创新需求。目前行业内针对这一问题主要存在: 对进行,特别是针对其核心组件——Attention机制的优化与变体探索,例如稀疏Attention等技术,旨在提升计算效率和内存利用率,以更好地适应大规模训练场景。 对进行,如新型RNN架构等。这些架构试图从根本上摆脱对Attention机制的依赖,并在长序列建模、并行计算和推理效率上展现出独特优势。 值得注意的是,当前大模型架构的发展呈现出日益明显的,不同架构之间的界限越来越模糊,更多性能领先的创新架构具备的特点。 本报告将围绕以上两条探索路径展开梳理,并拆解这些大模型架构创新的底层逻辑,对大模型架构层未来发展可能的演进方向及趋势作出分析。 01 02 03 04 Transformer的地位与挑战 Transformer架构占据行业绝对主导地位 Transformer架构目前仍占领大模型架构绝对主流地位:架构的通用性、可扩展性以及丰富优化生态使其仍是国内外大规模语言、视觉、多模态模型的首选架构。非Transformer架构2025年实现工业级落地0-1突破:Minimax推出MiniMax-01首次实现线性架构千亿参数(456B)工业级别落地验证,腾讯混元T1正式版基础模型Turbo-S采用Transformer+Mamba混合架构,标志着非Transformer架构技术路径在2025年实现了从科研走向工业落地的0-1突破。 国内主流模型架构Transformer架构 混合架构 线性架构 海外主流模型架构 DeepSeek DeepSeek大模型 月之暗面Kimi大模型 智谱GLM大模型 阶跃星辰Step大模型 面壁智能 MiniCPM大模型 OpenAIGPT大模型 GoogleGemini大模型 AnthropicClaude大模型 百度 文心大模型 阿里巴巴通义大模型 字节跳动豆包大模型 科大讯飞 讯飞星火大模型 华为 盘古大模型 MistralAIMistral大模型 MetaLlama大模型 xAIGrok大模型 商汤 日日新大模型 腾讯 混元大模型 MiniMaxMiniMax-01 注:盘点不分排名先后顺序 大模型架构演进历史:从深度学习革命到GPT开启Transformer时代 前Transformer十年:深度学习引入NLP Transformer时代开启: 预训练与ScalingLaw范式出现与主导 2006-20172017-2019 关键论文 HintonAlexNet用CNN做图像识别 关CNN(卷积神经网络) IlyaSutskeverSeq2Seq用LSTM做翻译 RNN(循环神经网络) KyunghyunChGRU提升RNN效率与性能 RNN 2017Google、UofTAttentionisAllYouNeed预训练与ScalingLaw范式兴起 Transformer成主流架构 BERT(2018) Google BERT:Pre-trainingofDeepBidirectionalTransformersfor'LanguageUnderstanding预训练+微调(fine-tuning)范式兴起 键 模用于图像处理 架 型语言任务中有一定应用 构 达到研究巅峰 发展出LSTM、GRU 基础架构 LSTM 解决长程依赖 GRU 简洁轻量版 首个双向Transformer预训练模型,语言表示模型奠基之作 ChatGPT(2018) 首个Transformer自回归语言模型,开启生成式AI先河 特•RNN训练困难,容易出现梯度消失/爆炸问题。 点•缺乏并行性。 •难以处理超长序列。 •参数规模逐步突破百亿级(GoogleT5-11B)。 •预训练+微调范式成为行业主流。 •生成式模型、理解式模型、多模态模型路线开始分化。 大模型架构演进历史:主流范式从共识到见顶,后Transformer时代开启 Transformer时代巅峰:基础模型参数规模不断突破 2020-2022 后Transformer时代: 预训练范式见顶,创新架构探索兴起 2023-至今 关键论文 演 /2020OpenAIJaredKaplan等 讲提出ScalingLaw 迅速成为共识 关•GPT-3(2020) 2021GoogleSwitchTransformer引入MoE 突破万亿参数规模 GPT-3 175B 2020 2023OpenAIGPT-4技术报告 提出多阶段训练、精细化对齐 (alignment)与稳健性能优化 •GPT-4(2023) 2023 OpenAIIlya发表“预训练结束”观点 2025DeepSeekR1技术报告验证仅强化学习(RL)无监督微调(SFT)新范式 键突破千亿参数,生成式AI里程碑。 模•CLIP&DALL·E(2021) 型融合视觉和文本,多模态开山作 架•GLM-130B(2021) 构首个开源中文百亿参数大模型 •基础模型参数爆炸式增长,迅速突破千亿及万亿门槛。 特•ScalingLaw成为主流共识,算力、数据、模型参数规模化成为共同发力点 点•预训练-微调+Transformer+nexttokenprediction范式具备统治力 •基础模型概念成共识,多模态大模型萌芽 2021 2022 ScalingLaw SwitchTransformer1.6T sparse GPT-4 ~1.8T multimodal,tooluse,reasoning 取得多模态生成和逻辑推理(Chain-of-Thought)、ToolUse、SystemPrompt等突破 •Claude(Anthropic)、Gemini(Google)、Mistral等不同技术流派的探索 •腾讯混元、通义阿里、字节豆包、创业六小强等中国大模型崛起 •RWKV、Mamba等非Transformer架构的兴起与探索 •随着模型规模增大,计算成本和存储需求激增,预训练+微调训练范式与Transformer架构范式见顶。 •强化学习(RL)+多阶段训练策略和知识蒸馏,提升大模型深度推理System2能力成为新共识。 •多模态大模型从多个模型简单拼接开始走向理解生成一体+原生多模态模型。 •新兴非Transformer架构如Mamba、RWKV、RetNet等涌现,开始出现工业级落地。 Transformer架构逐渐暴露出3大局限性 •OpenAIGPT-4推理阶段资源密度远超GPT-3,模型在推理阶段为了保留能力,使用了混合专家MoE架构,仍需大量GPU支撑。 •根据EpochAI在2024年8月的研究,当前AI训练规模正以每年4倍的速度增长,预计到2030年将需要近2000万个H100级别的GPU。 •SemiAnalysis、LambdaLabs等报告显示,GPT-4每一次多轮对话的token处理成本数倍于GPT-3,大幅拉高部署门槛。 Transformer架构二次计算复杂度导致算力消耗增长过快问题已成制约大模型普及的关键障碍 Transformer架构、Next-TokenPrediction和ScalingLaw范式见顶,预训练结束 数据墙 算力架构 墙墙 •以OpenAIo1模型发布为节点,研究趋势从预训练转向“后训练”(DPO、CoT等),重要模型转向新的基础结构与能力路径(MoE、Memory、WorldModels等)。 •FoundationCapital在2024年底发表的研究指出,“Next-tokenprediction很聪明,但似乎创造出的系统更多是在反应而非真正‘理解’”。 •Grok3模型训练资源提升一个数量级,训练效果提升不到2%。 Transformer架构端侧部署局限性较大,长序列任务效率瓶颈 •2024年EdgeInfinite研究指出,"Transformer注意力机制的二次时间复杂度和KV缓存的增长内存使用给在资源受限的边缘设备上处理长序列带来了挑战"。 •研究人员开始越来越多转向研究"高效模型"、"保留网络"和"线性注意力"等Transformer替代架构,如Mamba和RWKV,它们在处理长序列时表现出更高的效率。 参考信息:EPOCHAI《CanAIScalingContinueThrough2030?》、foundationcapital《HasAIscalinghitalimit?》、OpenReview《OnLimitationsoftheTransformerArchitecture》 后Transformer时代3大革新:训练范式、架构创新、工程优化 训练范式革新 NextTrainingRecipe Transformer架构改进 •Attention机制创新 •FFN层改进 •其他高效改进 混合Hybrid架构探索两条路线存在交叉 非Transformer架构探索 •新型RNN路径 •新型CNN路径 •其他路径 工程优化 在实际训练中3类解决方式往往同时出现以DeepSeek-R1为例: •跳过SFT直接进行RL •GRPO价值模型优化 •多头潜注意力机制MLA •DualPipe流水线 •FP8混合精度 Transformer架构改进 Transformer里有什么? Transformer里有什么? Attention1+FFN2+其他3=Transformer 1.Attention机制既是Transformer架构的最大优势也是其最大痛点,对Attention机制的改进成为Transformer架构改进的必由之路。 2.FFN层继从Dense到MoE的进化后,仍在持续尝试探索下一代技术。 3.除Attention和FFN以外的其他机制,如Decay机制改进等也产生了许多高质量工作。 Attention机制优化是重中之重,后MoE时代FFN层持续改进 研究热度 核心思路 主要内容 Add&NormFFN Add&NormAttention PositionalEncodings TokenEmbedding FFN改进 *LAttention改进 其他改进 减少计算复杂度从而降低计算成本,如从O(N²)降至O(NlogN)、O(N)等 继MoE之后,对传统DenseFFN层做进一步稀疏化、动态化改进 对Transformer架构进行高效改进 线性注意力稀疏注意力动态注意力多头注意力 动态类脑激活极致稀疏 KVCache归一化层残差连接位置编码 Embedding Decay机制等做改进 参考信息:ASurveyofTransformers Attention改进目前主要分稀疏和线性两大技术方向 注意力机制稀疏注意力改进 滑动窗口注意力 SlidingWindowAttention 膨胀注意力 DilatedAttention 随机注意力 RandomAttention Query (查询) 模型在某一时刻的“关注点” 对输入内容提问 Attention Key (键) 被检索的“标识符”用于与Query特征匹配 识别信息相关性 Value (值) 对应“实际内容”或“细节信息” 响应Query需求 SparseAttention 引入稀疏模式减少计算复杂度 线性注意力改进 LinearAttention 将自注意力矩阵的点积计算线性化,降计算复杂度为O(n) 其他注意力机制改进 块注意力 BlockAttention 动态注意力 DynamicAttention 局部注意力 LocalAttention 潜空间注意力 LatentSpaceAttention 目前与非Transformer架构路线可划约等号,关于非Transformer架构的讨论见3.0 LocalAtten