行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

王全东-SUBLLM新架构文本下采样机制革新大语言模型效率

信息技术 2024-11-17 2024AI研发数字峰会AiDD北京站等待花开

长文本模型的技术挑战

长文本模型在多人会议摘要、行业报告、新闻摘要等领域需求旺盛，但面临训练成本高、推理速度快等挑战。传统Decoder only Transformer模型（如Llama）受限于attention的平方复杂度，导致训练和推理成本随窗长增长显著。现有扩展方法如数据工程、位置编码调整虽能提升窗长，但训练成本仍高。此外，长文本模型训练和推理的infra开发（如DeepSpeed Ulysses、Ring-attention）存在并行度限制和兼容性问题，推理成本随窗长指数级增加。

SUBLLM架构

为优化资源使用，小米大模型团队提出SUBLLM新架构，目标在保持模型能力不变的前提下降低训练和推理成本。该架构受语音领域下采样启发，通过区分重要token和不重要token，将主要算力分配给前者。SUBLLM包含：

Learnable Subsampling Module：通过去除不重要token缩短序列，使用Score层衡量token重要性，实现序列采样。
Upsampling Module：恢复序列长度，使token选择可导。
Bypass Module：对下采样前和上采样后序列加权求和，增强训练收敛性和稳定性。

主要实验结果

在SlimPajama数据集上，SUBLLM 1.3B模型仅增加8192个参数，实现：

训练加速比26%，最大加速比31%，显存减少10%。
推理加速比37%，窗长越大加速越明显（8k窗长加速50%）。
预训练valid loss持平，Few-shot分数持平。

分析与讨论

预训练加速：SUBLLM有效降低训练成本，且窗长越大加速越明显。
推理加速：推理加速比与窗长正相关，8k窗长加速50%。
模型结构：适用于不同优化器，最优下采样次数为2次，保留比例75%时valid loss最低。
下采样有效性：下采样前后的attention和保留index分布接近，证明下采样有效性。

总结与展望

SUBLLM贡献：

提出结合下采样、上采样和旁路模块的新架构，动态分配资源给重要token。
提出token序列子采样方法，通过Score层测量重要性并控制分数值分布。
相比Llama，SUBLLM训练加速34%，推理加速50%，显存降低，模型能力保持。

未来研究方向：

不同tokenizer的压缩率差异，确保SUBLLM结构的通用性。
在200K窗长等长文本场景的应用，探索最低保留比例。
应用于多模态模型中的视觉标记冗余处理，提升VLM效率。

SUBLLM新架构：文本下采样机制革新大语言模型效率王全东小米大模型团队演讲嘉宾王全东小米大模型团队大模型高级算法工程师中国科学院声学研究所博士、美国佐治亚理工访问学者、中科院认证高级工程师，长期从事大语言模型、多模态、语音识别等领域研究，曾获多项顶会竞赛冠亚军奖项，已发表顶会论文十余篇，拥有专列多项。深度参与了小米自研大模型从0到1的研发过程，荣获2024年度CCF计算机应用创新技术一等奖。近期和DanielPovey等提出SUBLLM新架构，被量子位等科技媒体报道。 1.长文本模型的技术挑战2.SUBLLM架构3.主要实验结果4.分析与讨论5.总结与展望目录长文本模型的技术挑战PART 01 长文本模型的技术挑战长文本需求旺盛长文本模型的技术挑战长文本模型结构： Decoder only Transformer结构：Llama类似结构，attention的平方复杂度长文本模型的技术挑战训练成本高：attention的平方复杂度长文本模型的技术挑战模型窗长扩展方法：数据方向，训练成本不高1. Data Engineering for Scaling Language Models to 128K Context 长文本模型的技术挑战模型窗长扩展方法：位置编码方向，训练成本不高2.YaRN: Efficient Context Window Extension of Large Language ModelsNTK-by-parts +温度控制长文本模型的技术挑战模型窗长扩展方法：位置编码方向，训练成本不高3.PoSE: Efficient Context Window Extension of LLMsvia Positional Skip-wise Training 长文本模型的技术挑战训练成本主要在8k预训练阶段：attention的平方复杂度长文本模型的技术挑战 Decoder only Transformer长文本模型训练infra开发1.DeepSpeed Ulysses：优势：对Attention的实现不敏感，适合各种attention方法劣势：序列并行度不能超过头数长文本模型的技术挑战 Decoder only Transformer长文本模型训练infra开发2. Ring-attention：“大号”的flash attention优势：并行度的扩展性较好劣势：对Attention变种不友好，eg.Sparse Attention 长文本模型的技术挑战推理成本高：attention的平方复杂度推理速度角度，200k比20k贵28倍，比2k贵112倍长文本模型的技术挑战其他长文本模型结构： 1.Infini-Transformer：长期压缩记忆和局部因果注意力attention 长文本模型的技术挑战其他长文本模型结构： 2. MEGALODON：继承MEGA(带有门控注意力的指数移动平均)并改进长文本模型的技术挑战加速方法很多备受关注SUBLLM应运而生 SUBLLM架构PART 02 SUBLLM架构目标: 1.开发一种优化资源使用的架构，同时保持模型能力不变。 2.区分重要token和不重要token，重要token占主要算力 3.兼容现有attention based模型生态，模型广泛应用的关键 SUBLLM架构受语音领域启发：语音信号下采样减少冗余保留必要信息语音识别中语音分帧后降采样4倍 SUBLLM架构受语音领域启发：语音信号下采样减少冗余保留必要信息语音识别Zipformer，最高降采样16倍 SUBLLM架构受语音领域启发：语音信号下采样减少冗余保留必要信息文本序列是否存在冗余？Yes! SUBLLM架构受语音领域启发：语音信号下采样减少冗余保留必要信息 SUBLLM架构受语音领域启发：语音信号下采样减少冗余保留必要信息文本序列中的token是否同等重要？No! CoLT5模型结构by Google, 2023 SUBLLM架构受语音领域启发：语音信号下采样减少冗余保留必要信息 SUBLLM：采样(Sub-sampling)-上采样(Up-sampling)-旁路(Bypass) LLM SUBLLM架构受语音领域启发：语音信号下采样减少冗余保留必要信息 SUBLLM：采样(Sub-sampling)-上采样(Up-sampling)-旁路(Bypass) LLM SUBLLM架构 Learnable Subsampling Module1.通过去除不太重要的tokens来缩短序列长度 2.使用Score层来衡量token的重要性序列采样，index选择预设采样保留比例d Score层给每个token打分再得到weight SUBLLM架构 Learnable Subsampling Module妙处1：解决训练和推理的不一致性 Inference Mode：推理时看不到未来token，设定阈值为0，正数分值的token保留 Balancer：通过对梯度进行惩罚来限制score的正数比例=预设下采样保留比例只保留正数分值的token SUBLLM架构 UpsamplingModule通过将采样后的tokens与原始序列合并来恢复序列长度妙处2：用减法使得token的完全选择可导，使score层有token判别能力实际基本为0，不影响weight大小，但是有梯度 SUBLLM架构 Subsampling andUpsamplingModule SUBLLM架构 Bypass Module：1.下采样前和上采样后的序列加权求和，per channel2.增强训练的收敛性和稳定性。 SUBLLM架构对比Google: Mixture-of-Depths (MoD)：1.给重要token分配更多算力 2. MoD每间隔一个block做一次topk的token筛选3.加速50% 主要实验结果PART 03 主要实验结果 Pre-Training CorporaSlimPajama,100倍模型大小tokens Pre-Training DetailsSUBLLM 1.3B vs Llama 1.3B,SUBLLM仅仅多了8192个参数SUBLLM 2次下采样，最短的地方总保留比例仅40%BF16,Flash Attention2训练窗长2k4k 8k优化器为ScaledAdam 主要实验结果加速比26%最大加速比31%推理加速比37%训练/推理显存减少10，1GB/GPU预训练valid loss持平Few-shot分数持平分析与讨论PART 04 分析与讨论预训练加速分析与讨论推理加速分析与讨论模型结构适用于不同的优化器分析与讨论下采样的有效性分析总结与展望PART 05 总结与展望 SUBLLM贡献 1.提出SUBLLM新架构它结合了下采样、上采样和旁路模块动态地将资源分配给重要的token 2.提出了一种token序列子采样方法可以有效地测量token重要性分数并按预期控制分数值的分布在推理过程中实现所需的下采样保留率 3.与Llama模型相比SUBLLM在训练和推理方面分别实现了加速，训练加速34%，推理50%同时显着降低了内存成本，保持了模型能力总结与展望未来研究方向 1.不同的tokenizer有不同的压缩率如何确保SUBLLM结构的通用性并确定有效的保留比例 2.应用在长文本场景，比如200K窗长上，可以最低保留多少比例值得期待一下 3.多模态模型中的视觉标记具有冗余性在处理高分辨率图像时，大大降低了VLM的效率SUBLLM应用在这个领域也将具有落地前景 THANKS

点击免费查看完整报告

王全东-SUBLLM新架构文本下采样机制革新大语言模型效率

长文本模型的技术挑战

SUBLLM架构

主要实验结果

分析与讨论

总结与展望

你可能感兴趣

国君计算机|DeepSeek NSA架构引领AI效率革新

电子行业深度报告：AI驱动PCB全面升级：材料、工艺与架构革新引领产业新周期

王东：400Ｇ全光网技术进展及演进

王东：新型400G全光网技术及演进探讨

王东:面向算力网络的新型全光网技术发展及关键器件探讨

王平-携程门票：亿级流量挑战下的高可用架构设计与实践

东财建筑孟杰王翩翩铁建重工全球隧洞设备龙头雅下板块一带一路出海核心

传媒日报 |北京政策鼓励算力发展，新模型架构提升大模型运作效率【建投传媒互联网】

【中金机械】东威科技：发布四款量产新设备，创新效率加速提升公司近

国盛电新多晶硅期货再度涨停反内卷趋势下关注全产业链价格传导机制和头部厂商市