行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

LPU专题报告一：架构创新突破大模型推理延迟瓶颈，广阔市场空间有望快速放量

信息技术 2026-03-16 财通证券「若久」

核心观点

LPU是Groq公司推出的一款面向大模型推理阶段的定制芯片，其核心架构为TSP，通过将经典处理器五级流水线拆散在整个芯片内，实现了指令执行顺序和时间确定性，并支持软件定义硬件。

LPU优势

LPU可缩短大模型推理延迟，提高用户体验。大模型推理延迟主要发生在Decode阶段，核心瓶颈在于内存带宽。LPU采用SRAM作为存储介质，具备更快的内存带宽（高达80TB/s），从而有效缩短推理延迟。基于LPU的大模型不仅推理速度更快，还具有更具性价比的价格。

市场空间

随着Tokens消耗量大幅增长，推理芯片市场规模迎来高增长。2024年初我国日均Token消耗量为1000亿，2026年2月已增长至180万亿级别。预计2031年全球推理AI芯片市场规模将达到690.1亿美元，2025-2031年CAGR为25.7%。LPU有望在推理芯片市场中逐步渗透，具有高成长性的市场空间。

产业发展

海外方面，Groq已与英伟达签订非独家推理技术许可协议，并计划于2026年进入商业化量产初期。国内方面，元川微已推出LPU产品，是国内领先的基于LPU架构的算力芯片设计企业。

投资建议

建议关注：智微智能（参股元川微）、星宸科技（多轮增资元川微）、沪电股份（英伟达PCB供应商）、胜宏科技（英伟达PCB供应商）、深南电路（英伟达PCB供应商）。

风险提示

AI技术迭代不及预期、大模型发展不及预期、LPU行业发展不及预期。

电子证券研究报告行业专题报告/2026.03.15 投资评级:看好(维持) 核心观点 ❖LPU为新一代面向大模型推理阶段的芯片，核心为TSP架构：LPU是专为顺序处理的计算密集型任务设计的新型芯片架构，核心在于TSP架构，包含五大功能模块，将经典的处理器五级流水线拆散在整个芯片内，进而消除了硬件的复杂性，使指令执行顺序和时间具有确定性。在TSP架构下，编译器可以直接访问并精确控制芯片的底层硬件状态，实现了软件定义硬件。 LPU可缩短大模型推理过程中的延迟，提高用户体验感：大模型在推理过程中会存在延迟，延迟与用户体验感精密挂钩，大模型推理过程中的延迟主要在Decode阶段，核心瓶颈在于内存带宽。LPU具备更快的内存带宽，可缩短大模型推理过程中的延迟。同时，基于LPU的大模型不仅具有更快的推理速度，还可以提供更具性价比的价格，可进一步提高用户体验感。分析师唐佳SAC证书编号：S0160525110002tangjia@ctsec.com 联系人周勃宇zhouby@ctsec.com LPU具备广阔的潜在发展空间，已步入量产初期：目前Tokens的消耗量大幅增长，2024年初我国日均Token的消耗量为1000亿，2026年2月主流大模型合计日均Token消耗已到180万亿级别，Tokens消耗量快速增长，带动推理芯片市场规模的高增长。LPU可降低大模型推理的延迟，我们认为LPU有望在推理芯片市场中逐步渗透，具有高成长性的市场空间。目前LPU已步入量产初期，放量在即。相关报告 1.《光刻胶加速突围，高端国产化迎关键窗口》2026-03-122.《国产模型调用量激增，昇腾适配部署加速》2026-03-043.《看好2026年AI产业端云并进大趋势》2026-02-25 ❖投资建议：我们认为LPU受益于低推理延时的优异表现，有望实现快速渗透，我们看好LPU的高成长性及LPU以机柜出货时带来的PCB机会，建议关注：智微智能（参股元川微）、星宸科技（多轮增资元川微）、沪电股份（英伟达PCB供应商）、胜宏科技（英伟达PCB供应商）、深南电路。 ❖风险提示：AI技术迭代不及预期的风险；大模型发展不及预期的风险；LPU行业发展不及预期的风险内容目录 1LPU面向大模型推理阶段，TSP架构为核心...............................................................41.1LPU是一款用于大模型推理阶段的定制芯片............................................................41.2LPU核心在于TSP架构，指令执行顺序和时间具有确定性........................................51.3软件定义硬件，编译器定义芯片行为......................................................................81.4单节点内Fullmesh拓扑，单机柜内Dragonfly拓扑.................................................92LPU可缩短大模型推理过程中的延迟，提高用户体验感................................................112.1大模型推理延迟与用户使用体验感紧密挂钩，延迟主要发生在Decode阶段.................112.1.1大模型推理过程分为Prefill和Decoding两个阶段...............................................112.1.2延迟/吞吐/利用率为衡量大模型推理性能的指标，延迟与用户使用体验感紧密挂钩.......132.1.3大模型推理过程中的延迟主要在Decode阶段，核心瓶颈在于内存带宽....................152.2LPU具备更快的内存带宽，可缩短大模型推理过程中的延迟......................................152.2.1LPU采用SRAM作为存储介质，解决大模型推理阶段面临的内存带宽受限问题.........152.2.2基于LPU的大模型具有更快的推理速度和更具性价比的价格..................................163LPU具备广阔潜在发展空间，已步入量产初期............................................................183.1Tokens消耗量大幅增长带动推理芯片市场规模高增长，LPU具备广阔潜在发展空间.....183.2海外已进入量产初期，国内已推出LPU产品..........................................................184投资建议.............................................................................................................205风险提示.............................................................................................................21 图表目录图1：TPU是一款用于大模型推理阶段的定制芯片.........................................................4图2：LPU集成了230MB容量的SRAM，片上内存带宽高达80TB/s..............................5图3：整体芯片具有五大功能切片...............................................................................5图4：ICU排布于芯片下方，MXM、SXM、MEM功能切片呈双侧对称分布......................6图5：传统的MultiCore架构中，每个PE都是一个完整的多级流水线架构........................6图6：TSP将经典的处理器五级流水线拆散在了整个芯片内.............................................7图7：TSP中，指令垂直下发，数据水平流动...............................................................8 图8：Groq系统架构形式一览...................................................................................9图9：节点内Fullmesh拓扑.....................................................................................10图10：机柜内Dragonfly拓扑.................................................................................10图11：大模型进行推理时可分为Prefill和Decode阶段..............................................11图12：大模型推理过程中的情况举例........................................................................12图13：步骤1为Prefill阶段，步骤2及之后被称为Decode阶段..................................13图14：基于LPU的大模型具有更快的推理速度和更具性价比的价格...............................16图15：Groq的大模型吞吐量速度超350Token/s，远超其他大模型厂商.........................17图16：全球推理AI芯片市场规模2031年有望达到690.1亿美元..................................18表1：经典的5级流水线情况.....................................................................................7表2：CPU设计带来的不确定性.................................................................................8表3：编译器可从指令调度、数据流控制、存储管理三个维度定义芯片行为.........................9表4：Groq LPU的系统架构构成...............................................................................9表5：上述例子中每一步的输入Prompt与输出展示......................................................12表6：引入KVCache技术后每一步的输入与输出展示...................................................13表7：延迟指标主要衡量的是从请求提出到获得响应所需的时间.......................................14表8：吞吐量衡量的是推理服务系统在给定时间内处理的请求数量....................................14表9：资源利用率衡量的是硬件资源被LLM推理任务有效利用的程度...............................15表10：Groq采用SRAM替代HBM带来的优势........................................................16表11：Groq的LPU可提供约80TB/s的理论带宽.....................................................16表12：Groq第二代LPU已实现量产.......................................................................19 1LPU面向大模型推理阶段，TSP架构为核心 1.1LPU是一款用于大模型推理阶段的定制芯片 LPU是一款专用于大模型推理阶段的定制芯片。LPU（Language ProcessingUnit，语言处理单元）是专为顺序处理的计算密集型任务设计新型芯片架构，其核心目标是通过架构创新优化语言模型的推理效率。LPU由Groq公司推出，Groq成立于2016年，LPU旨在用于大模型推理阶段，LPU是唯一一款为开发者提供所需性能且成本不影响开发者的定制推理芯片。数据来源：Groq、财通证券研究所 LPU采用14nm制程工艺，集成SRAM，可提供80TB/s的片上内存带宽。LPU没有采用尖端制程工艺，选择了14nm制程，集成了230MB容量的SRAM来替代DRAM，以保证内存带宽，其片上内存带宽高达80TB/s。在算力层面，Groq芯片的整型（8位）运算速度为750TOPs，浮点（16位）运算速度则为188TFLOPs。数据来源：36

点击免费查看完整报告