您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:DeepSeek发布新论文推出Engram架构这是一种软件定义的方 - 发现报告

DeepSeek发布新论文推出Engram架构这是一种软件定义的方

2026-01-23未知机构王***
DeepSeek发布新论文推出Engram架构这是一种软件定义的方

该框架旨在消除重复访问现有信息的不必要计算周期,解决Transformer架构中直接内存访问的低效问题,相当于给模型提供快速“备忘单”,让核心模型无需重复学习基础信息。 不仅在知识检索方面 DeepSeek发布新论文,推出Engram架构,这是一种软件定义的方法,通过将高带宽内存(HBM)使用划分为动态推理(75%)和静态查找(25%),提升模型“记忆能力”。 该框架旨在消除重复访问现有信息的不必要计算周期,解决Transformer架构中直接内存访问的低效问题,相当于给模型提供快速“备忘单”,让核心模型无需重复学习基础信息。 不仅在知识检索方面表现提升,在推理、数学和代码任务中也有突破,能让模型提前约7层达到相近推理深度(非Engram的混合专家模型约需12层,Engram模型约需5层),显著提升思考深度。 核心价值在于,无需按比例增加GPU显存/ HBM容量即可实现模型规模扩展,提升模型开发与部署的投资回报率(ROI)。 有望引发AI开发者社区对现有GPU硬件性能优化的关注,对英伟达(NVDA)构成增量利好,包括降低大型模型训练成本、改善模型ROI、拓展新AI用例。 对内存领域而言,Engram架构为模型能力扩展提供了非线性增加HBM需求的清晰路径,同时凸显高速、本地、读取密集型存储(如企业级固态硬盘)的重要性。 其实际影响需待DeepSeek V4发布后显现,据网络消息,该版本预计于2026年2月中旬推出。