行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

GTC前瞻三LPU会带来哪些增量20260310

2026-03-10 未知机构极度近视

一、核心背景与事件英伟达于2026年初以约200亿美元收购AI芯片公司Groq，其核心产品LPU专为语言模型推理设计。本次GTC大会是收购后的首次重要更新，旨在应对快速崛起的AI推理市场，特别是“Prefill（预填充）与Decode（解码）分离”（PD分离）趋势。

二、LPU的核心技术特点 LPU由源自谷歌TPU的初始成员设计，采用片内大容量SRAM解决“存储墙”问题，牺牲算力单元以部署更多SRAM，实现低延迟和高带宽。其软件与编译器支持确定性执行和软硬件协同，但成本高、灵活性差，更适合与通用GPU协同工作。

三、LPU与GPU、TPU的对比 GPU通用性强但依赖片外HBM传输，TPU专为矩阵乘法优化但同样依赖片外存储，而LPU通过片上大SRAM和专用编译器为确定模型提供极致执行效率，尤其适合低延迟、高带宽的Decode场景。

四、核心应用场景：PD分离下的推理优化 AI推理瓶颈从“算力”转向“存储与调度”。Prefill阶段适合英伟达CPX系列（计算密集型），Decode阶段适合LPU（内存密集型）。英伟达通过CPX+LPU组合优化PD分离推理流程，巩固市场份额。

五、LPU带来的增量环节 LPU发展将驱动产业链增量需求：SRAM技术升级（3D堆叠、分层管理）、PCB层数和材料新要求、先进封装（3D SoIC、2.5D CoWoS）、配套芯片（Switch、FPGA）以及液冷散热解决方案。

六、产业趋势与展望推理市场持续扩大，PD分离成为明确趋势。长期看好CPU负载和重要性增强。LPU作为专用解码加速器，通过片内大SRAM和确定性编译执行在Decode场景具有独特优势，驱动产业链环节增量需求，并与GPU协同优化推理算力系统。

一、核心背景与事件一、核心背景与事件事件：英伟达在2026年初以约200亿美元收购了AI芯片公司Groq，其核心产品是LPU。本次GTC大会是收购后的首次重要更新。关于LPU在AI推理市场中的增量机会与技术分析的会议纪要，核心围绕英伟达（NV）收购Groq及其LPU技术展开。以下是详细内容总结：一、核心背景与事件一、核心背景与事件事件：英伟达在2026年初以约200亿美元收购了AI芯片公司Groq，其核心产品是LPU。本次GTC大会是收购后的首次重要更新。收购动机：应对快速崛起的AI推理侧市场。随着AIGC应用和大模型调用量的激增，推理市场日益庞大，并呈现出“Prefill（预填充）与Decode（解码）分离”（PD分离）的趋势。二、二、LPU的核心技术特点的核心技术特点 LPU被设计为专门用于语言模型推理的处理器，其创始团队源自谷歌TPU的初始成员。硬件设计（解决“存储墙”问题）：片内大容量SRAM：最大特点是没有片外存储（如HBM），而是在芯片内部集成大量SRAM作为主要权重存储。这类似于“家门口的存储站”，极大缩短了数据搬运距离，克服了延迟瓶颈。牺牲算力单元：由于采用了独特的调度方式，节省了指令调度单元的面积，将这些面积用于部署更多SRAM，从而优先保证低延迟和高带宽。软件与编译器：确定性执行：LPU 在设计之初就确定了模型范式，并配备了完备的编译器。编译器可以预先调度，在每一个时钟周期精确规划数据位置和计算任务。软硬件协同：通过软件编译器弥补硬件调度单元的不足，实现高效、确定性的执行流程。优缺点：优点：极致的内存带宽、低延迟，非常适合需要频繁、快速访问缓存的任务。缺点：成本高：片上SRAM成本远高于通用DRAM ，且构建大型系统需要多芯片组合，初始设计成本高。灵活性差：软件栈针对特定模型优化，面对不同模型架构迭代时，适应性和灵活性较弱。结论：LPU更适合与通用GPU协同工作，取长补短，而非单一部署。三、三、LPU与与GPU、、TPU的对比的对比 GPU：通用性强，适合多种场景，但数据依赖片外HBM传输，在需要高带宽读取的推理任务中存在延迟。 TPU：专用性强，采用脉动阵列架构，专为矩阵乘法优化，效率高，但同样依赖片外存储。 LPU：强调确定性和近存计算，采用“脉动阵列”架构，更像定制化的ASIC。通过片上大SRAM和专用编译器，为架构确定的模型提供极致高效的执行，尤其适合低延迟、高带宽访问场景。四、核心应用场景：四、核心应用场景：PD分离下的推理优化分离下的推理优化分析指出，AI推理的瓶颈正从“算力”转向“存储与调度”。Prefill（预填充）阶段：特点：高并行、大批量（batch size大）处理输入上下文，核心是大型矩阵乘法。瓶颈在于算力，对KV缓存和延迟不敏感。适合硬件：英伟达的CPX系列。该系列使用更便宜的GDDR内存而非HBM，侧重提升计算密集度，以更低的单位算力成本处理大批量Token生成。 Decode（解码）阶段：特点：串行生成Token，每生成一个都需要读取历史KV 缓存。属于内存密集型任务，瓶颈在于内存带宽和调度延迟。适合硬件：LPU。其片内SRAM能实现极低延迟的KV缓存读取，完美匹配Decode阶段对延迟敏感、需频繁访问缓存的需求。结论：英伟达通过CPX（针对Prefill）+ LPU（针对Decode）的组合策略，优化PD分离的推理流程，旨在巩固和扩大其在推理市场的份额。五、五、LPU带来的增量环节带来的增量环节 LPU的发展将在产业链的多个环节创造增量需求：SRAM：作为LPU的核心存储，其技术升级（如3D堆叠、分层管理）将是关注重点。PCB：芯片设计变化（如背部供电）可能带来PCB层数、材料（如高速基板）的新要求。封装与集成：LPU的集成方式尚未确定（可能采用3D SoIC、2.5D CoWoS或独立模块），这将带来先进封装需求，并可能新增Switch芯片或FPGA等配套芯片。液冷：随着芯片集成度和功耗提升，液冷散热解决方案的需求将增加。六、产业趋势与展望六、产业趋势与展望推理市场持续扩大：AIGC应用和大模型调用驱动推理需求高速增长，PD分离成为明确趋势。长期看好CPU：随着AI产业发展，CPU的负载和重要性也将持续增强，其价值被长期看好。总结：LPU是英伟达为应对AI推理市场PD分离趋势而布局的专用解碼加速器。其通过片内大SRAM和确定性编译执行的技术路线，在低延迟、高带宽的Decode场景具有独特优势。它的发展将驱动SRAM、PCB、先进封装、液冷等产业链环节的增量需求，并与GPU形成协同，共同优化推理算力系统。

点击免费查看完整报告

GTC前瞻三LPU会带来哪些增量20260310

你可能感兴趣

GTC大会前瞻：LPU、CPO和存储

东北电子LPU带来PCB新增量材料及工艺规格持续提升1

英伟达GTC大会来袭核心增量前瞻汇总事件英伟达GTC

GFDX铜箔更新GTC大会上调收入指引强调LPU架构PCB及上游原材料

电子行业周报：英伟达GTC将至，Feynman及LPU或将登场

申万电子GTC发布LPU分离推理方案NV展望27年万亿营收2026031

广发军工菲利华GTC速评LPU的机柜设计正交背板的预期修复

国泰海通通信GTC速记LPU亮相scaleupoptics提上日程0

GTC前瞻一核心看点在哪里会超预期吗20260308

中泰电子GTC大会可能展出LPU芯片新方向有望再度点燃PCB板块