您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华创证券]:AI+专题系列点评(二十九):DeepSeek+发布最新论文,大模型长文本推理革命 - 发现报告

AI+专题系列点评(二十九):DeepSeek+发布最新论文,大模型长文本推理革命

2025-02-19-华创证券洪***
AI智能总结
查看更多
AI+专题系列点评(二十九):DeepSeek+发布最新论文,大模型长文本推理革命

事项: 2025年2月18日,DeepSeek联手两大机构发布最新论文,研究由DeepSeek创始人梁文锋亲自领导,旨在优化Transformer注意力机制。论文提出了革命性注意力机制NSA,NSA是一种面向硬件且支持原生训练的稀疏注意力机制,专为超快长上下文训练与推理设计。它包含动态分层稀疏策略、粗粒度的token压缩和细粒度的token选择等核心组成部分,在通用、长文本、思维链推理基准测试中,刷新SOTA,碾压全注意力。NSA是对Transformer注意力机制的重大优化。 评论: NSA实现技术突破,计算效率显著提高:技术上,NSA通过硬件级优化:将算术强度精确控制在GPU临界值(16.8TFLOPS/1.5TBps≈11.2)之上;动态分层稀疏:采用32token压缩块+64token选择块的组合策略;三重注意力通路:压缩全局(6.25%计算量)、精选局部(25%计算量)、滑动窗口(8%计算量),使NSA架构在64K长文本场景下,实现解码速度提升11.6倍、前向传播9倍加速、反向传播6倍加速 NSA完成技术创新,成功部署高效稀疏注意力机制:NSA在技术上引入了两个核心创新点:硬件对齐系统和训练感知设计,使NSA能够同时支持高效推理与完整训练流程。从而成功部署原生可训练的稀疏注意力架构,并集成了分层token建模。同时,NSA还设计了专用计算内核,以最大化实际计算效率。 通用基准评估中,NSA总体表现优越,在推理能力上展现显著优势:研究人员在一套全面的基准测试中评估了预训练的NSA和全注意力基线,覆盖了知识、推理和编码能力。尽管NSA具有稀疏性,但它在总体性能上表现优越,在9个指标中有7个超过了包括全注意力在内的所有基线,且在推理相关的基准测试中显示出显著的提升(DROP: +0.042,GSM8K: +0.034)。 长文本评估方面,NSA达到完美准确性:NSA使用层次化的稀疏注意力设计,该设计结合了压缩token以实现高效的全局上下文扫描,以及用于精确局部信息检索的选择token。粗粒度的压缩在低计算成本下识别相关的上下文块,而对选择token的token级注意力则确保了关键细粒度信息的保留,使NSA能够同时保持全局感知能力和局部精确性。 思维链推理评估方面,NSA体现在高级推理任务中的有效性:在8k上下文设置下,NSA-R比Full Attention-R获得了更高的准确率(高出0.075),这种优势在16k上下文中依然保持(高出0.054)。在不同上下文长度下的持续优异表现,证实了当稀疏注意力原生集成到训练流程中时,它在高级推理任务中的可行性。 投资建议:AI大模型本质应落脚垂类应用,国内大模型在全球竞争中崭露头角,看好AI+应用产品力与商业化落地进程。建议关注以下标的:1)办公:金山办公、合合信息、福昕软件、迈富时;2)金融:同花顺、恒生电子、新致软件;3)大模型:科大讯飞、三六零、第四范式;4)工业:中控技术、索辰科技、鼎捷数智;5)端侧/穿戴/玩具:萤石网络、云天励飞、中科创达、汉王科技;6)医疗:润达医疗、卫宁健康、晶泰控股;7)法律:金桥信息、华宇软件、通达海;8)邮箱:彩讯股份;9)创意:万兴科技、美图公司、虹软科技;10)教育:佳发教育、欧玛软件、新开普;11)电商:焦点科技;12)ERP:金蝶国际、用友网络;13)OA:泛微网络、致远互联;14)安全:深信服、永信至诚;15)部署:优刻得、星环科技、网宿科技、汉得信息;16)算力:海光信息、寒武纪、景嘉微等。 风险提示:商业化后表现不及预期,用户付费意愿低,行业技术迭代速度较快。 一、NSA颠覆性技术突破:从算法到硬件全面进化 (一)NSA实现技术突破,计算效率显著提高 技术上,NSA通过硬件级优化:将算术强度精确控制在GPU临界值(16.8TFLOPS/1.5TBps≈11.2)之上;动态分层稀疏:采用32token压缩块+64token选择块的组合策略;三重注意力通路:压缩全局(6.25%计算量)、精选局部(25%计算量)、滑动窗口(8%计算量),使NSA架构在64K长文本场景下,实现解码速度提升11.6倍、前向传播9倍加速、反向传播6倍加速。 图表1基于Triton的NSA实现与基于Triton的FlashAttention-2训练速度比较 图表2 NSA在长序列解码时具有显著的效率优势 (二)NSA完成技术创新,成功部署高效稀疏注意力机制 NSA在技术上引入了两个核心创新点:1.硬件对齐系统:优化块级稀疏注意力,使其充分利用Tensor Core并优化内存访问,从而实现平衡的算术强度;2.训练感知设计:通过高效算法和反向传播运算符实现稳定的端到端训练,使NSA能够同时支持高效推理与完整训练流程。从而成功部署原生可训练的稀疏注意力架构,并集成了分层token建模。同时,NSA还设计了专用计算内核,以最大化实际计算效率。 图表3 NSA架构 二、性能测试刷新SOTA,全面碾压传统方案 通用基准评估中,NSA总体表现优越,在推理能力上展现显著优势。研究人员在一套全面的基准测试中评估了预训练的NSA和全注意力基线,覆盖了知识、推理和编码能力。 尽管NSA具有稀疏性,但它在总体性能上表现优越,在9个指标中有7个超过了包括全注意力在内的所有基线,且在推理相关的基准测试中显示出显著的提升(DROP: +0.042,GSM8K: +0.034)。 图表4全注意力基线模型与NSA在通用基准测试上的预训练性能比较 图表5通用基准测试中全注意力模型与NSA性能和效率比较 长文本评估方面,NSA达到完美准确性。NSA使用层次化的稀疏注意力设计,该设计结合了压缩token以实现高效的全局上下文扫描,以及用于精确局部信息检索的选择token。 粗粒度的压缩在低计算成本下识别相关的上下文块,而对选择token的token级注意力则确保了关键细粒度信息的保留,使NSA能够同时保持全局感知能力和局部精确性。 图表6 64k上下文长度下NSA实现完美的准确性 在LongBench基准上,NSA达下了最高的平均分0.469,优于所有基准(比全注意力高0.032,比Exact-Top高0.046)。 图表7 NSA模型与基线模型在LongBench上的性能比较 思维链推理评估方面,NSA体现在高级推理任务中的有效性。研究人员采用了从DeepSeek-R1进行知识蒸馏的方法,使用100亿个32k长度的数学推理轨迹进行监督微调,生成两个模型:Full Attention-R(全注意力基准)和NSA-R(稀疏变体)。在8k上下文设置下,NSA-R比Full Attention-R获得了更高的准确率(高出0.075),这种优势在16k上下文中依然保持(高出0.054)。在不同上下文长度下的持续优异表现,证实了当稀疏注意力原生集成到训练流程中时,它在高级推理任务中的可行性。 图表8 NSA-R在不同序列长度下性能展示