2026年01月22日20:52 关键词 ngram混合架构HBM条件内存DRAM推理能力GPU多模态开源硬件限制效率驱动追赶美国战略意义WACCbeta市场风险溢价永续增长率超预期低于预期半导体 全文摘要 中国的人工智能公司通过创新的混合架构和模块,如n-gram,实现了大模型推理的高效执行,降低了基础设施成本,推动了本地AI发展并提升了全球竞争力。n-gram模块的核心创新在于通过存储和计算分离,有效缓解AI计算瓶颈,减少了对高带宽内存(HBM)的依赖,同时降低了整体基础设施成本,从而在推理能力和成本方面取得显著提升。下一代模型继续利用n-gram架构,进一步提升了编码及逻辑推理能力。 大摩闭门会:DeepSeek新模型解读260121_导读 2026年01月22日20:52 关键词 ngram混合架构HBM条件内存DRAM推理能力GPU多模态开源硬件限制效率驱动追赶美国战略意义WACCbeta市场风险溢价永续增长率超预期低于预期半导体 全文摘要 中国的人工智能公司通过创新的混合架构和模块,如n-gram,实现了大模型推理的高效执行,降低了基础设施成本,推动了本地AI发展并提升了全球竞争力。n-gram模块的核心创新在于通过存储和计算分离,有效缓解AI计算瓶颈,减少了对高带宽内存(HBM)的依赖,同时降低了整体基础设施成本,从而在推理能力和成本方面取得显著提升。下一代模型继续利用n-gram架构,进一步提升了编码及逻辑推理能力。在硬件资源受限的条件下,中国AI公司通过效率驱动的创新缩小了与国际顶尖模型的差距,对中国的AI和芯片行业投资机会产生了积极影响。n-gram还通过条件内存和可扩展查找提高了模型效率,对中国AI追赶美国战略具有重要意义。此外,讨论了中国AI和芯片相关公司的估值和潜在影响因素,显示了在技术进步和市场扩张背景下的投资前景。 章节速览 00:00 DeepSeek通过Ingram模块创新降低AI推理成本 DeepSeek通过引入创新的Ingram模块,将存储与计算分离,有效减少对高带宽内存HBM的依赖,显著降低AI基础设施成本。这一技术尤其对中国市场有益,有助于缓解硬件内存压力,提升大模型推理效率。相比传统系统,DeepSeek仅需少量DRAM即可实现良好推理表现,表明未来AI发展将更侧重于内存利用效率而非单纯扩大计算规模。 02:15 DeepSeek V4新突破与AI芯片行业投资机会 讨论了DeepSeek V4在编码、逻辑推理方面的升级,以及其在消费级硬件上的运行能力,预示着中国AI与芯片行业的新机遇。内存与计算分离趋势推动高效产品开发,加速市场普及,低估的潜力将为产业链带来增长动力,如NAAMEC、JCET等公司受益于国产替代和芯片设备国产化。 03:21 AI架构创新:效率驱动下的中国AI突破 对话讨论了AI计算架构的新趋势,强调在硬件资源有限的条件下,通过创新架构如稀疏混合专家模型、优化训练与推理流程、长上下文注意力机制及数据筛选,中国AI公司正缩小与国际顶尖模型的差距,实现效率驱动的创新,用较低成本达到或超越大算力方案的效果。 04:57 Ingram架构:优化计算与内存资源分配的新方案 对话探讨了Ingram架构如何通过条件内存设计,将静态知识与动态计算分离,从而减轻系统负担,提高GPU效率。Ingram将复杂计算转化为更便宜的内存存储,使模型在较低成本下实现高性能,例如100n gram模型仅需2000B系统内存即可运行,展示了在成本和性能上的重大突破。 06:47 Ingram技术如何革新AI芯片与存储产业链 对话讨论了Ingram技术在AI芯片和存储产业链中的影响。Ingram技术通过将模型参数存储在普通DRAM中,减少了 对昂贵HBM的需求,同时提升了Transformer架构的效率。该技术分离静态知识存储与动态计算,无需增加浮点运算次数或参数数量即可加速模型运行,且内存容量可随GPU数量线性扩展,支持异步预取,从而提升推理效率。产业链中的IDM厂商、模块制造商、DRAM颗粒及主控芯片厂商均迎来新机遇,测试与封测环节的重要性也得以凸显。 08:22硬件限制下的AI创新:中国引领算法优化与系统级革新 讨论了在硬件资源有限的情况下,中国AI团队如何通过优化算法和系统级创新,实现与国际顶尖AI系统相媲美的性能,同时消耗更少的计算资源。这种约束诱导的创新促使中国AI生态向更高效、更务实的方向发展,降低了全球AI竞争对算力的依赖,转向算法效率和系统优化。 09:26中国AI模型与ChatGPT5.2性能对比 对话对比了中国主流AI模型如deep seek v3.2、QN3等与ChatGPT5.2在上下文长度、多模态支持及开源性上的表现,指出这些模型在MMLU、GPQA和编码测试中达到较高水平,尤其在多模态推理和长上下文处理方面表现出色。同时提及deep cake ingram通过条件内存和可扩展查找技术提升大模型效率的方法。 10:39 2026年论文:混合专家模型中的条件内存与n-gram嵌入提升 2026年1月12日发布的一篇论文提出了一种基于混合专家模型的新方法,通过引入条件内存增加稀疏性,不增加计算负担但提升复杂推理效率。利用n-gram嵌入系统,根据最近2到3个token的后缀通过哈希函数O1时间复杂度获取embedding,与隐藏状态融合。这种方法在不增加计算量和参数的情况下提升模型准确率,优化计算和内存资源分配。n-gram系统处理局部固定模式,解放注意力机制关注全局信息,增强长文本推理和检索能力。此外,内存可低成本卸载至CPU,与GPU计算并行,大幅提升整体速度。 12:23 Ingram技术助力中国AI追赶美国 Ingram技术在27B模型上表现优秀,尤其在长文本处理上有显著提升,为中国AI公司提供了追赶美国AI的机遇。通过提升GPU利用率和系统创新,中国AI无需依赖最新硬件即可缩小与美国顶级模型的差距,deep sick是该策略的代表。 13:21 Ingram内存组织与RAG、KV Cache对比分析 讨论了Ingram将模型信息offload至CPU和主存DRAM的分层内存设计,强调其成本低、扩展性好,区别于全GPU方式。分析指出,Ingram的O1 lookup和持久化embedding与RAG的外部检索及KV Cache的临时存储有本质不同,特别适用于静态知识密集型任务。 14:16 NA Technology集团估值模型与预期分析 讨论了对NA Technology集团使用可见增长率模型进行估值,核心假设包括10.1%的WACC、14%的中期增长率及5%的永续增长率。超预期可能源于中国半导体资本支出周期强劲、研发进展快速抢占市场份额或芯片制造产能紧张加速扩产;低于预期的风险则包括半导体投资降温、市场份额下降或下游需求疲软导致芯片过剩。 15:30 JCET集团估值分析与预期风险 对话围绕JCET集团的估值假设与风险点展开,采用剩余收入模型评估,设定权益成本为8.6%,无风险利率2%,股权风险溢价5.5%,贝塔系数1.2,中期增长率为12.5%,永续增长率为4%。超预期因素包括下游需求旺盛、先进封装技术提前大规模应用及市场份额快速提升。低于预期风险则与上述因素相反,涉及需求疲软、技术进度滞后及市场份额增长缓慢。 16:34 AMEC估值分析与预期变动因素 对话围绕AMEC估值展开,核心假设包括股权成本6.2%,中期增长率14%,永续增长率4%,基于其在中国半导体设备领域的强势地位。超预期可能源于行业景气度提升、新产品开发加速、国内需求加速释放;低于预期的风险则包括市场需求疲软、价格战、产品开发进度延迟及国内扩产节奏放缓。 发言总结 发言人1 他讨论了中国人工智能公司Deep Seek通过创新的混合架构和n gram模块实现高效大模型推理的方法。重点在于,他们通过这一创新方法旨在以较低的基础设施成本促进本地AI发展,并可能在全球竞争中实现突破。n gram模块的核心创新点在于缓解AI计算瓶颈,提高大模型利用GPU和内存资源的效率,从而减少对昂贵HBM的需求。他还询问了Deep Seek采用n gram后在推理能力和成本方面具体提升了多少,强调了硬件门槛的降低。他们展望了DeepSeek未来动作,包括下一代LLM v4的突破,及其对中国的AI和芯片行业投资机会的影响。此外,他分析了基于n gram的工作原理,如何提升Transformer架构,并探讨了这种创新如何改变AI行业格局,特别是在硬件资源有限的条件下,中国AI生态的高效务实进化。他还提到了对特定公司(如NA Technology Group Co. Ltd.和Advance MicroFabrication Equipment Ink.)的估值方法、核心假设及可能影响预期的因素。 发言人2 讨论了AI算力领域的一项关键技术突破——存储和计算的分离,这一突破有助于减少对高带宽内存(HBM)的依赖,从而降低基础设施成本。特别地,这项技术对于中国AI算力受限的情况尤为有益,因为它可以使用较少的DRAM实现较好的推理性能,与传统大算力方案相比,成本更低。通过独立出来的条件内存机制,模型能快速查找必要信息,为复杂任务留出更多空间,从而缓解硬件内存压力。他强调,这项技术对于中国的大模型厂商开发高效产品、缩小与美国顶级模型的差距具有重要意义。他还探讨了不同内存和计算分离趋势,以及通过系统级创新优化AI系统性能和资源分配的重要性,指出了算法效率和系统优化的必要性。此外,他分享了针对中国半导体产业的财务分析,分析了市场增长、风险及在超预期和低于预期情况下的潜在影响因素。 要点回顾 deep seek最近发布的ingram模块的核心创新点是什么,它是如何缓解AI计算瓶颈的? 发言人2:ingram模块的关键突破是将存储和计算分离,以此减少对高带宽内存HBM的依赖,并降低整体基础设施的成本。通过这种设计,模型可以快速查找必要的信息,避免HBM被过度占用,从而为复杂任务提供更多空间。 n gram是如何让大模型更高效利用现有的GPU和内存资源的? 发言人2:n gram采用条件内存独立出来的机制,让模型能够快速查找所需信息,不会让HBM被塞满,从而保留更多空间给需要深度推理的复杂任务。 使用n gram后,在推理能力和成本上有什么具体的提升吗? 发言人2:采用n gram技术后,只需大约200G的DRAM就能达到不错的推理表现,相比其他系统显著降低了硬件门槛和成本。 对于未来Deep Sack v4的发展计划及其对中国AI和芯片行业的影响是什么? 发言人2:Deep Sack v4将继续沿用n gram的内存架构,在编码和逻辑推理上有大的升级,并目标能在消费级硬件如RTX5090上运行,让更多人体验强大模型。这将推动中国AI和芯片行业在内存和计算分离趋势下的创新,创造更多高效产品的机会,产业链也将迎来新的增长动力。 AI计算架构发展的新趋势为何不再只依赖堆叠GPU,架构创新变得重要? 发言人2:AI系统演进已不再单纯依赖扩大模型规模,而是寻找更聪明的架构组合。混合架构能实现资源分配更高效,尤其在中国硬件资源受限的情况下,更有可能做出效率驱动的创新。 在中国AI模型在硬件资源有限下,如何通过效率驱动创新缩小与国际顶尖模型差距? 发言人2:中国领先AI团队在过去两年通过稀疏混合专家架构、训练和推理流程深度优化、长上下文注意力机制以及专门针对推理和代码能力优化的数据筛选等手段,在参数数量有限时取得接近甚至超过国际顶尖模型的表现。 ingram的条件内存是如何设计的,以及它解决了传统transformer哪些根本性问题? 发言人2:ingram将静态知识单独放在条件内存中,与动态计算分离,只有在需要时才进行调取,实现了存储和计算的分离,显著减轻了系统的负担。 ingram架构如何通过重新分配计算和内存资源,