您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:NSA架构在通用基准测试中达到了全注意力的性能长上下文评估中的建模能力更胜一筹 - 发现报告

NSA架构在通用基准测试中达到了全注意力的性能长上下文评估中的建模能力更胜一筹

2025-02-18未知机构灰***
NSA架构在通用基准测试中达到了全注意力的性能长上下文评估中的建模能力更胜一筹

DeepSeek让大模型部署和推理成本下降了一个数量级,此次提出的NSA架构将让大模型的推理速度提升一个数量级。 NSA架构在通用基准测试中达到了全注意力的性能,长上下文评估中的建模能力更胜一筹,推理能力得到增强,同时计算延迟显著降低,在64K长文本场景下,NSA实现解码速度提升11.6倍、前向传播9倍加速、反向传播6倍加速。 DeepSeek让大模型部署和推理成本下降了一个数量级,此次提出的NSA架构将让大模型的推理速度提升一个数量级。