一、核心背景与事件一、核心背景与事件 事件:英伟达在2026年初以约200亿美元收购了AI芯片公司Groq,其核心产品是LPU。本次GTC大会是收购后的首次重要更新。 关于LPU在AI推理市场中的增量机会与技术分析的会议纪要,核心围绕英伟达(NV)收购Groq及其LPU技术展开。以下是详细内容总结: 一、核心背景与事件一、核心背景与事件 事件:英伟达在2026年初以约200亿美元收购了AI芯片公司Groq,其核心产品是LPU。本次GTC大会是收购后的首次重要更新。 收购动机:应对快速崛起的AI推理侧市场。随着AIGC应用和大模型调用量的激增,推理市场日益庞大,并呈现出“Prefill(预填充)与Decode(解码)分离”(PD分离)的趋势。 二、二、LPU的核心技术特点的核心技术特点 LPU被设计为专门用于语言模型推理的处理器,其创始团队源自谷歌TPU的初始成员。 硬件设计(解决“存储墙”问题):片内大容量SRAM:最大特点是没有片外存储(如HBM),而是在芯片内部集成大量SRAM作为主要权重存储。这类似于“家门口的存储站”,极大缩短了数据搬运距离,克服了延迟瓶颈。 牺牲算力单元:由于采用了独特的调度方式,节省了指令调度单元的面积,将这些面积用于部署更多SRAM,从而优先保证低延迟和高带宽。 软件与编译器:确定性执行:LPU 在设计之初就确定了模型范式,并配备了完备的编译器。编译器可以预先调度,在每一个时钟周期精确规划数据位置和计算任务。 软硬件协同:通过软件编译器弥补硬件调度单元的不足,实现高效、确定性的执行流 程。 优缺点: 优点:极致的内存带宽、低延迟,非常适合需要频繁、快速访问缓存的任务。 缺点:成本高:片上SRAM成本远高于通用DRAM ,且构建大型系统需要多芯片组合,初始设计成本高。 灵活性差:软件栈针对特定模型优化,面对不同模型架构迭代时,适应性和灵活性较 弱。 结论:LPU更适合与通用GPU协同工作,取长补短,而非单一部署。 三、三、LPU与与GPU、、TPU的对比的对比 GPU:通用性强,适合多种场景,但数据依赖片外HBM传输,在需要高带宽读取的推理任务中存在延迟。 TPU:专用性强,采用脉动阵列架构,专为矩阵乘法优化,效率高,但同样依赖片外存储。 LPU:强调确定性和近存计算,采用“脉动阵列”架构,更像定制化的ASIC。通过片上大SRAM和专用编译器,为架构确定的模型提供极致高效的执行,尤其适合低延迟、高带宽访问场景。 四、核心应用场景:四、核心应用场景:PD分离下的推理优化分离下的推理优化 分析指出,AI推理的瓶颈正从“算力”转向“存储与调度”。Prefill(预填充)阶段: 特点:高并行、大批量(batch size大)处理输入上下文,核心是大型矩阵乘法。瓶颈在于算力,对KV缓存和延迟不敏感。 适合硬件:英伟达的CPX系列。该系列使用更便宜的GDDR内存而非HBM,侧重提升计算密集度,以更低的单位算力成本处理大批量Token生成。 Decode(解码)阶段:特点:串行生成Token,每生成一个都需要读取历史KV 缓存。属于内存密集型任务,瓶颈在于内存带宽和调度延迟。 适合硬件:LPU。其片内SRAM能实现极低延迟的KV缓存读取,完美匹配Decode阶段对延迟敏感、需频繁访问缓存的需求。 结论:英伟达通过CPX(针对Prefill)+ LPU(针对Decode)的组合策略,优化PD分离的推理流程,旨在巩固和扩大其在推理市场的份额。 五、五、LPU带来的增量环节带来的增量环节 LPU的发展将在产业链的多个环节创造增量需求:SRAM:作为LPU的核心存储,其技术升级(如3D堆叠、分层管理)将是关注重点。PCB:芯片设计变化(如背部供电)可能带来PCB层数、材料(如高速基板)的新要求。 封装与集成:LPU的集成方式尚未确定(可能采用3D SoIC、2.5D CoWoS或独立模块),这将带来先进封装需求,并可能新增Switch芯片或FPGA等配套芯片。液冷:随着芯片集成度和功耗提升,液冷散热解决方案的需求将增加。 六、产业趋势与展望六、产业趋势与展望 推理市场持续扩大:AIGC应用和大模型调用驱动推理需求高速增长,PD分离成为明确趋势。 长期看好CPU:随着AI产业发展,CPU的负载和重要性也将持续增强,其价值被长期看好。 总结:LPU是英伟达为应对AI推理市场PD分离趋势而布局的专用解碼加速器。其通过片内大SRAM和确定性编译执行的技术路线,在低延迟、高带宽的Decode场景具有独特优势。它的发展将驱动SRAM、PCB、先进封装、液冷等产业链环节的增量需求,并与GPU形成协同,共同优化推理算力系统。