行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

人工智能专题：DeepSeek的稀疏注意力机制给AI产业释放更大的发展潜能

信息技术 2025-10-16 唐月中原证券玉苑金山

注意力机制与大模型发展的关系
人类通过选择性关注关键信息提高处理效率，深度学习引入注意力机制（Attention Mechanism）解决长文本处理问题。2017年Transformer模型提出后，注意力机制成为核心模块，解决长序列遗忘问题。稀疏注意力机制将计算复杂度从O(L²)降至亚平方级（如O(L*log L)），突破内存与算力瓶颈，推动大模型上下文长度扩展至128K甚至1M。
DeepSeek在注意力机制方面的技术改进
DeepSeek通过算法、系统、硬件三层面优化提升大模型性能，主要贡献包括：
- MLA（多头潜在注意力）：通过低秩近似压缩键值缓存（KV Cache），减少约90%显存占用，保持模型性能，显著降低R1成本。
- NSA（原生稀疏注意力）：2025年2月提出，通过算法与硬件协同优化，将长文本处理速度提升11倍，性能与全注意力模型相当或更优。NSA将模型上下文拓展至百万tokens，解决推理与预训练阶段稀疏注意力不一致问题，成为ACL 2025最佳论文之一。
- DSA（DeepSeek稀疏注意力）：2025年9月发布，基于V3.1-Terminus引入，保持性能稳定的同时大幅提升训练推理效率，模型价格降低约50%。DSA通过“闪电索引器”逐词筛选重要词汇进行细粒度稀疏计算，与NSA的“分块”策略不同，成本更低但长期稳定性待验证。
DSA和NSA给AI产业释放的发展潜能
随着多模态需求增加，输入（x）和输出（y）长度均变长，传统Scaling范式受限。OpenAI o1和DeepSeek-R1通过后训练提升模型能力。DeepSeek-R1-Zero通过强化学习后训练，模型输出长度和AIME精度持续提升。DSA和NSA通过提升计算效率与上下文拓展，为后训练释放更大潜能，推动模型能力突破。
风险提示
国际形势的不确定性。

分析师：唐月登记编码：S0730512030001tangyue@ccnew.com 021-50586737 ——人工智能专题证券研究报告-行业分析报告强于大市(维持) 发布日期：2025年10月16日投资要点： ⚫人类在处理信息时选择性地关注关键信息，从而提高了处理效率和准确性。深度学习模仿人类的这种能力引入了注意力机制，从而给长文本处理带来了可能性。 ⚫由于注意力机制面临显存开销和计算复杂度两大发展瓶颈，为了不断通过Scaling Law提升大模型长文本处理能力和模型性能，AI产业不断在进行算法、系统、硬件三个层面的提升和优化。其中在算法层面，DeepSeek作为开源大模型领域的代表和低成本模型方向的标杆，在注意力机制的技术改进方面也做了大量的工作。资料来源：中原证券研究所，聚源相关报告《人工智能专题：后R1时代，DeepSeek发展的三大阶段》2025-10-14《计算机行业月报：国产算力芯片迎来高光时刻，超节点和集群层面双双赶超》2025-09-19《人工智能专题：三大要素齐发力，AI应用步入全面加速期》2025-03-07 ⚫NSA：2025年2月，DeepSeek梁文锋参与撰写的论文《NativeSparse Attention: Hardware-Aligned and Natively TrainableSparse Attention》发布，提出了原生稀疏注意力（NSA），通过算法和硬件的协同优化，把长文本处理速度提升了11倍，并实现了与传统的全注意力模型相当或更优的性能。 ⚫DSA：2025年9月DeepSeek发布了V3.2-Exp，它基于V3.1-Terminus构建，引入了新的注意力机制DSA，在保持模型性能的稳定的同时，在训练推理效率方面有了较大的提升，带来了模型较大幅度的降价。由于不需要重新训练模型，而是进行原有模型的升级，可以更低成本地进行稀疏注意力的探索与实验。联系人：李智电话：0371-65585629地址：郑州郑东新区商务外环路10号18楼地址：上海浦东新区世纪大道1788号T1座22楼 ⚫稀疏注意力的引入将注意力计算复杂度从O(L²)（L为序列长度）降至亚平方级（如O(Llog L)、(O(L*k)），从而突破内存与算力瓶颈。此前，稀疏注意力工作主要集中在推理阶段，而业界预训练阶段多采用稠密注意力机制，而DeepSeek的NSA和DSA在训练阶段引入了稀疏注意力，给大模型带来的计算效率的提升和模型上下文的拓展，将给后训练释放更大的发展潜能，成为推动模型能力不断突破的重要支撑。风险提示：国际形势的不确定性。内容目录 1.注意力机制与大模型发展的关系.....................................................................32. DeepSeek在注意力机制方面的技术改进.......................................................33. DSA和NSA给AI产业释放了更大的发展潜能...............................................74.风险提示.........................................................................................................7 图表目录图1：DeepSeek-V2中MLA对于降低KV Cache和训练成本的作用..........................................4图2：MLA与其他注意力机制的结构差异................................................................................4图3：NSA模型效果及效率对比...............................................................................................5图4：DeepSeek模型API调用价格（元/百万Tokens）.......................................................5图5：TileLang简介................................................................................................................6图6：DeepSeek-V3.2-Exp中DSA的实现原理.....................................................................6图7：模型Scaling的新范式.................................................................................................7图8：DeepSeek-R1-Zero在训练中AIME精度提升情况..........................................................7图9：DeepSeek-R1-Zero在训练中的平均响应时长................................................................7 表1：DeepSeek的主要模型发布情况.......................................................................................3 1.注意力机制与大模型发展的关系人类在处理信息时选择性地关注关键信息，从而提高了处理效率和准确性。深度学习模仿人类的这种能力引入了注意力机制（Attention Mechanism），从而给长文本处理带来了可能性。2017年，谷歌提出了发布论文《Attention Is All You Need》提出了当前大语言模型的主流架构Transformer，Attention成为了大模型的核心模块，并解决了此前主流循环神经网络（RNN）的长序列遗忘问题。而后，稀疏注意力的引入将注意力计算复杂度从O(L²)（稠密注意力的计算复杂度，L为序列长度）降至亚平方级（如O(L*log L)、(O(L*k)，稀疏注意力仅部分连接，效率更高），从而突破内存与算力瓶颈。时至今日，经过多代技术迭代，大模型上下文已经扩充到了128K甚至是1M的长度水平。 2.DeepSeek在注意力机制方面的技术改进由于注意力机制面临显存开销和计算复杂度两大发展瓶颈，为了不断通过Scaling Law提升大模型长文本处理能力和模型性能，AI产业不断在进行算法、系统、硬件三个层面的提升和优化。其中在算法层面，DeepSeek作为开源大模型领域的代表和低成本模型方向的标杆，在注意力机制的技术改进方面也做了大量的工作，其三次主要的贡献包括：（1）MLA：DeepSeek在V2中首次引入了多头潜在注意力（MLA，Multi-head Latent Attention,对传统多头注意力机制（Multi-head Latent Attention，MHA）的改进）。资料来源：DeepSeek，中原证券研究所传统的多头注意力的键值缓存（KV Cache）较大，DeepSeek通过将低秩近似方法引入键值缓存压缩中，从而提升了计算效率。MLA将注意力分数的显存占用减少了约90%，同时保持了模型的性能，也成为了R1成本显著低于头部模型的重要因素。资料来源：DeepSeek，中原证券研究所（2）NSA：2025年2月，DeepSeek梁文锋参与撰写的论文《Native Sparse Attention:Hardware-Aligned and Natively Trainable Sparse Attention》发布，提出了原生稀疏注意力（Native Sparse Attention，NSA），通过算法和硬件的协同优化，把长文本处理速度提升了11倍，并实现了与传统的全注意力模型相当或更优的性能。7月该论文成为了ACL 2025的4篇最佳论文奖之一，作者表示NSA可以把模型上下文拓展到百万tokens，并将应用到下一个前沿模型中。此前，稀疏注意力工作主要集中在推理阶段，而业界预训练阶段多采用稠密注意力机制。训练与推理的不一致，难免会引入误差，从而限制了模型充分发挥稀疏注意力优势的能力。NSA和同时期开源的Kimi的MoBA（混合块注意力机制），都将稀疏注意力做到了预训练阶段，同时在性能上比肩稠密注意力。NSA以“块”为粒度，同时通过引入丰富的算子进行了软硬协同优化，较好地解决了GPU本身不适合稀疏计算的难题。资料来源：《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》，中原证券研究所（3）DSA：2025年9月DeepSeek发布了V3.2-Exp，它基于V3.1-Terminus构建，引入了新的注意力机制DSA，在保持模型性能的稳定的同时，在训练推理效率方面有了较大的提升，带来了模型较大幅度的降价。对比R1来看，V3.2-Exp的输入缓存命中时价格为R1的20%（0.2元/百万Tokens），输入缓存未命中时价格为R1的50%（2元/百万Tokens），输出价格为R1的19%（3元/百万Tokens），降幅最为明显。考虑到当前大模型之间能力差距在缩小，成本的下降意味着模型具有更好的性价比和可推广性，也将促进应用端实现更多功能的落地。资料来源：DeepSeek，中原证券研究所 V3.2-Exp在V3.1-Terminus基础上引入了DeepSeek稀疏注意力机制（DeepSeekSparse Attention，DSA），是第一个以“DeepSeek”品牌命名的关键技术，也有望成为DeepSeek新一代架构的重要技术构成。将DSA和NSA对比来看，其差别主要包括：（1）实现方式的差异：NSA是参与整个预训练过程，而DSA并不是原生预训练，是基于V3.1-Terminus基座继续预训练而来。由于不需要重新训练模型，而是进行原有模型的升级，DAS可以更低成本地进行稀疏注意力的探索与实验。（2）编程框架差异：DSA通过TileLang实现，而NSA则选用的是OpenAI开源的Triton，相对而言，TileLang可以实现更多的深度优化，这更加符合DeepSeek持续追求更高效的软硬件协同的企业风格，同时也更有利于国产芯片生态的深度适配。资料来源：北京大学，中原证券研究所（3）在实现“挑重点”的方式上的差异：DSA通过引入“闪电索引器”，逐词判断快速找出文本中的重要词汇（2048个），并以这些筛选出的词汇进行细粒度稀疏计算；NSA将文本分成“块”，分三层挑重点。不同的稀疏化的思路，意味着针对具体的场景下DSA和NSA可能各有优势。长期来看，DSA的稳定性、安全性及泛化能力还有待进一步验证，有望在开源后得到更多的市场验证。资料来源：DeepSeek，中原证券研究所 3.DSA和NSA给AI产业释放了更大的发展潜能如果将神经网络视为y=f(x），x是输入，y是输出。当前的趋势是多模态等需求导致x变长，同时为了在后训练中提升模型的推理能力和满足长思维链的需求，y的长度也在变长。考虑到传统在端依靠增大模型参数数量、训练数据的预训练上Scaling范式面临发展瓶颈，OpenAI的o1和

点击免费查看完整报告

你可能感兴趣

人工智能专题：DeepSeek的稀疏注意力机制给AI产业释放更大的发展潜能

你可能感兴趣

广发电子DEEPSEEK推出专为优化长文本训练与推理设计的注意力机制NSA

人工智能专题：后R1时代，DeepSeek发展的三大阶段

DeepSeek系列专题线上公开课（第二季）：从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例

AI产业系列跟踪专题研究报告：从DeepSeek看国产AI的“后发优势”

2024释放人工智能的潜能研究报告