AI智能总结
长文本应用下,传统模型在训练和推理的预填充阶段计算复杂度较高,在解码阶段内存访问量大。 【广发电子】DEEPSEEK推出专为优化长文本训练与推理设计的注意力机制NSA——————————————— 长文本应用下,传统模型在训练和推理的预填充阶段计算复杂度较高,在解码阶段内存访问量大。 Deepseek于近日发布NSA用于提升模型在长文本应用下的性能。 算法方面,NSA使用了三种注意力路径以减少计算量和内存访问,具体表现为(1)粗粒度token压缩,减少数据量,(2)细粒度token选择,减少计算量,(3)滑动窗口,限制需关注的序列长度。 同时NSA通过优化内核设计,实现Tensor core和优化内存访问,尽可能的将算术强度控制在GPU临界值(由GPU的峰值计算能力和内存带宽决定),以实现最大化计算资源的利用。 在64k上下文长度下,使用NSA架构可在训练段实现9倍前向加速和6倍反向加速,推理端在解码速度上实现11.6倍 Deepseek提出的NSA架构有望降低大模型中长文本应用的推理成本,加速长文本应用落地。