AI智能总结
争论,体现出日渐迫切的架构创新需求。,特别是针对其核心组件——Attention机制的优化与变体探索,例如稀疏Attention等技术,旨在提升计算效率和内存利用率,以更好地适应大规模训练场景。,如新型RNN架构等。这些架构试图从根本上摆脱对Attention,不同架构之间的界限越来越模糊,本报告将围绕以上两条探索路径展开梳理,并拆解这些大模型架构创新的底层逻辑,对大模型架构层 年出世、提出架构以来,已过。AI行业对Transformer的路径依赖引发了越来越多的目前行业内针对这一问题主要存在:进行进行机制的依赖,并在长序列建模、并行计算和推理效率上展现出独特优势。值得注意的是,当前大模型架构的发展呈现出日益明显的更多性能领先的创新架构具备的特点。未来发展可能的演进方向及趋势作出分析。 对对 01020304 Transformer的地位与挑战 Transformer架构占据行业绝对主导地位Transformer架构目前仍占领大模型架构绝对主流地位:架构的通用性、可扩展性以及丰富优化生态使其仍是国内外大规模语言、视觉、多模态模型的首选架构。非Transformer架构2025年实现工业级落地0-1突破:Minimax推出MiniMax-01首次实现线性架构千亿参数(456B)工业级别落地验证,腾讯混元T1正式版基础模型Turbo-S采用Transformer+Mamba混合架构,标志着非Transformer架构技术路径在2025年实现了从科研走向工业落地的0-1突破。国内主流模型架构Transformer架构注:盘点不分排名先后顺序百度文心大模型阿里巴巴通义大模型科大讯飞讯飞星火大模型字节跳动豆包大模型华为盘古大模型商汤日日新大模型MiniMaxMiniMax-01腾讯混元大模型月之暗面Kimi大模型阶跃星辰Step大模型DeepSeekDeepSeek大模型面壁智能MiniCPM大模型智谱GLM大模型 线性架构混合架构海外主流模型架构OpenAIGPT大模型GoogleGemini大模型AnthropicClaude大模型xAIGrok大模型MetaLlama大模型Mistral AIMistral大模型 HintonAlexNet用CNN做图像识别Ilya SutskeverSeq2Seq用LSTM做翻译Kyunghyun ChGRU提升RNN效率与性能CNN(卷积神经网络)用于图像处理语言任务中有一定应用RNN(循环神经网络)达到研究巅峰发展出LSTM、GRU2006-20172017-2019前Transformer十年:深度学习引入NLPTransformer时代开启:预训练与Scaling Law范式出现与主导2017Google、UofTAttention is All You Need预训练与Scaling Law范式兴起Transformer成主流架构•RNN训练困难,容易出现梯度消失/爆炸问题。•缺乏并行性。•难以处理超长序列。关键论文关键模型架构特点•参数规模逐步突破百亿级( Google T5-11B)。•预训练+微调范式成为行业主流。•生成式模型、理解式模型、多模态模型路线开始分化。大模型架构演进历史:从深度学习革命到GPT开启Transformer时代RNN基础架构LSTM解决长程依赖GRU简洁轻量版GoogleBER T: Pr e-t r aining of Deep Bidir ect ionalTransformers for'Language Understanding预训练+微调(fine-tuning)范式兴起BERT(2018)首个双向Transformer预训练模型,语言表示模型奠基之作ChatGPT(2018)首个Transformer自回归语言模型,开启生成式AI先河 •GPT-3(2020)突破千亿参数,生成式AI里程碑。•CLIP & DALL·E(2021)融合视觉和文本,多模态开山作•GLM-130B(2021)首个开源中文百亿参数大模型•GPT-4(2023)取得多模态生成和逻辑推理(Chain-of-Thought)、Tool Use、System Prompt等突破•Claude(Anthropic)、Gemini(Google)、Mistral等不同技术流派的探索•腾讯混元、通义阿里、字节豆包、创业六小强等中国大模型崛起•RWKV、Mamba等非Transformer架构的兴起与探索•基础模型参数爆炸式增长,迅速突破千亿及万亿门槛。•Scaling Law成为主流共识,算力、数据、模型参数规模化成为共同发力点•预训练-微调+Transformer+next token prediction范式具备统治力•基础模型概念成共识,多模态大模型萌芽2020OpenAIJared Kaplan等提出Scaling Law迅速成为共识2020-2022Transformer时代巅峰:基础模型参数规模不断突破2023-至今后Transformer时代:预训练范式见顶,创新架构探索兴起2021GoogleSwitch Transformer引入MoE突破万亿参数规模大模型架构演进历史:主流范式从共识到见顶,后Transformer时代开启关键论文/演讲关键模型架构特点GPT-3175BScaling Law2020SwitchTransformer1.6Tsparse2021GPT-4~1.8Tmultimodal,tool use,reasoning20222023OpenAI Ilya发表“预训练结束”观点2023OpenAIGPT-4技术报告提 出 多 阶 段 训 练 、 精 细 化 对 齐(alignment)与稳健性能优化2025DeepSeekR1技术报告验证仅强化学习(RL)无监督微调(SFT)新范式•随着模型规模增大,计算成本和存储需求激增,预训练+微调训练范式与Transformer架构范式见顶。•强化学习(RL)+多阶段训练策略和知识蒸馏,提升大模型深度推理System 2能力成为新共识。•多模态大模型从多个模型简单拼接开始走向理解生成一体+原生多模态模型。•新兴非Transformer架构如Mamba、RWKV、RetNet等涌现,开始出现工业级落地。 参考信息:EPOCH AI《Can AI Scaling Continue Through 2030?》、foundation capital《Has AI scaling hit a limit?》、OpenReview《On Limitations of the Transformer Architecture》Transformer架构逐渐暴露出3大局限性Transformer架构二次计算复杂度导致算力消耗增长过快问题已成制约大模型普及的关键障碍•以OpenAI o1模型发布为节点,研究趋势从预训练转向“后训练”(DPO、CoT等),重要模型转向新的基础结构与能力路径(MoE、Memory、World Models等)。•Foundation Capital在2024年底发表的研究指出,“Next-token prediction很聪明,但似乎创造出的系统更多是在反应而非真正‘理解’”。•Grok3模型训练资源提升一个数量级,训练效果提升不到2%。Transformer架构、Next-TokenPrediction和Scaling Law范式见顶,预训练结束Transformer架构端侧部署局限性较大,长序列任务效率瓶颈 •OpenAI GPT-4推理阶段资源密度远超GPT-3,模型在推理阶段为了保留能力,使用了混合专家MoE架构,仍需大量GPU支撑。•根据Epoch AI在2024年8月的研究,当前AI训练规模正以每年4倍的速度增长,预计到2030年将需要近2000万个H100级别的GPU。•SemiAnalysis、Lambda Labs等报告显示,GPT-4每一次多轮对话的token处理成本数倍于GPT-3,大幅拉高部署门槛。数据墙算力墙架构墙•2024年EdgeInfinite研究指出,"Transformer注意力机制的二次时间复杂度和KV缓存的增长内存使用给在资源受限的边缘设备上处理长序列带来了挑战"。•研究人员开始越来越多转向研究"高效模型"、"保留网络"和"线性注意力"等Transformer替代架构,如Mamba和RWKV,它们在处理长序列时表现出更高的 效率。 •多头潜注意力机制MLATransformer架构改进•Attention机制创新•FFN层改进•其他高效改进非Transformer架构探索•新型RNN路径•新型CNN路径•其他路径混合Hybrid架构探索 DualPipe流水线FP8混合精度工程优化工程优化 训练范式革新Next Training Recipe在实际训练中3类解决方式往往同时出现以DeepSeek-R1为例:•跳过SFT直接进行RL•GRPO价值模型优化 •• Transformer架构改进 Transformer里有什么?Attention1+FFN2+其他3=Transformer1.Attention机制既是Transformer架构的最大优势也是其最大痛点,对Attention机制的改进成为Transformer架构改进的必由之路。2.FFN层继从Dense到MoE的进化后,仍在持续尝试探索下一代技术。3.除Attention和FFN以外的其他机制,如Decay机制改进等也产生了许多高质量工作。 参考信息:A Survey of TransformersAdd&NormFFNAttentionAdd&NormToken EmbeddingPositional Encodings*LAttention机制优化是重中之重,后MoE时代FFN层持续改进FFN改进Attention改进其他改进研究热度减少计算复杂度从而降低计算成本,如从O(N²)降至O(N log N)、O(N)等继MoE之后,对传统Dense FFN层做进一步稀疏化、动态化改进对Transformer架构进行高效改进核心思路 Attention改进目前主要分稀疏和线性两大技术方向AttentionSparse Attention引入稀疏模式减少计算复杂度Linear Attention将自注意力矩阵的点积计算线性化,降计算复杂度为O(n)注意力机制稀疏注意力改进线性注意力改进其他注意力机制改进模型在某一时刻的“关注点”对输入内容提问Key(键)Query(查询)Value(值)被检索的“标识符”用于与Query特征匹配识别信息相关性对应“实际内容”或“细节信息”响应Query需求 稀疏注意力机制:一种减少全局计算的注意力机制,核心思想是仅关注输入序列中部分最相关的上下文信息,而非对整个序列进行全注意力计算。通过引入稀疏连接或局部窗口等策略有效降低计算复杂度和内存消耗,尤其在处理长序列时,能够显著提高计算效率。MoBA(Kimi,2025)通过应用MoE(Mixture of Experts)的原则来动态选择历史块进行注意力计算,将整个上下文划分为多个块(Block),每个查询(Query)仅与最相关的键值(KV)块进行注意力计算,降低计算复杂度,并允许在全注意力和稀疏注意力模式之间无缝切换。SeerAttention(MSRA,2024)可学习的门控模块(AttnGate)直接从模型中学习块级注意力稀疏性,利用池化和线性层处理查询(Q)和键(K)张量,生成门控分数以预测稀疏块,并结合块稀疏FlashAttention内核实现显著加速。稀疏改进(Sparse Attention)是目前最主流、最活跃、争议最少的方向路线代表工作动态+块注意力动态+块注意力 动态、可学习(Dynamic Trainable Attention)改进是近年明显趋势动态注意力机制:动态可学习注意力路径或稀疏模式由模型自动学习,非预定义。针对不同输入、