您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:申万计算机国产算力半月谈260301Token经济时代算力会发生什么变化 - 发现报告

申万计算机国产算力半月谈260301Token经济时代算力会发生什么变化

2026-03-02未知机构极***
申万计算机国产算力半月谈260301Token经济时代算力会发生什么变化

需求的爆发已经是共识,推理时代也是国产芯片的黄金时代,CSP的下单仍将继续另外两个重要的趋势: 1)纯推理芯片的崛起 不一定是ASIC,也可以是GPGPU,但一定越来越专用,核心的指标是TDP(TFLOPS/Watt)、吞吐,而不是原来的算力、显存、带宽。 本周热议的英伟达 【申万计算机】国产算力半月谈260301:Token经济时代,算力会发生什么变化 需求的爆发已经是共识,推理时代也是国产芯片的黄金时代,CSP的下单仍将继续 另外两个重要的趋势: 1)纯推理芯片的崛起 不一定是ASIC,也可以是GPGPU,但一定越来越专用,核心的指标是TDP(TFLOPS/Watt)、吞吐,而不是原来的算力、显存、带宽。 本周热议的英伟达Feyamann架构融合Groq LPU-SRAM,OpenAI与Cerebras的合作,字节自研ASIC、PPU,都在印证这一趋势。 值得注意,SRAM速度虽快,但容量有限、综合成本更高,不会完全取代DRAM/HBM,但会作为极低延迟、高确定性推理算力的补充。 对于国产芯片厂商来说,纯推理芯片不需要最高规格的工艺,卡脖子程度缓解,但需要深刻理解应用场景,目前云,深度配合云业务的芯片有优势。 2)推理系统革新,PD分离、网卡、新的存储方案、CPU在过往,chatbot类应用对于LLM的要求是“像输送水管一样快速吐字”,转向Agent后,应用对大模型的要求是“像数学家一样反复推演”。 应对这种需求,推理算力系统设计上,可能形成类人的三层网络 第一层是快反应层,类似人的脊髓、反射弧,由纯推理芯片来提供极致低延迟的反馈第二层是慢思考层,类似人的大脑皮层,使用超大吞吐的算力集群负责后台并行的复杂逻辑推演和工具使用。 在这一层中,CPU也会加入进来,线程、用户数、调度的需求多了,数据的编排和程序的控制会更多,对多核多线程的CPU需求增加。 但仍需要与GPU协同发挥作用。 第三层是记忆层,类似人的海马体,存储Agent的终身记忆和KV Cache,英伟达发布的ContextMemory System,在算力系统中加入通过DPU管理的SSD是一种方式,后续可能还有更多的方案出现。