行业观点 AI推理瓶颈迭代与架构演进,推动PCB价值定位跃升。Transformer架构下大模型推理分为Prefill与Decode两个阶段,前者为计算密集型,后者为显存带宽密集型,算力利用率与带宽占用率呈现极端错配。英伟达推出"解耦式推理"架构,将Prefill与Decode拆分到不同硬件,对PCB提出更高密度的HBM封装基板、更高速片间互联及更高功率密度供电散热要求。与此同时,从芯片到机架的尺度演进中,HBM4引入要求中介层支持千位级I/O;CoWoS-L向CoWoP演进让PCB首次承担类基板功能;GB300服务器PCB层数从10层跃升至20层以上,部分高端型号达34至64层;Rubin Ultra NVL576更以78层M9级正交背板取代铜缆,承担机柜内GPU全互联通信。行业竞争核心从“单卡算力”转向“全系统互联带宽”,PCB成为决定AI系统算力释放效率的关键瓶颈环节,技术门槛与认证周期对标半导体封装。 Rubin开启硬件密度时代,正交背板推动PCB半导体化价值跃迁。英伟达GTC 2025发布Rubin系列路线图,开启AI硬件密度新时代:2026年下半年量产Vera Rubin NVL 144平台,FP4推理算力达3.6 EFLOPS;2027年下半年量产Rubin Ultra NVL576平台,FP4推理算力达15 EFLOPS。黄仁勋提出"GPU数量按封装中芯片数量计"的新计算法则,标志以封装密度为核心度量的硬件密度时代来临。产业链视角下,Rubin系列拉动PCB“价量齐升”:量上,Rubin Ultra机柜GPU封装数量翻倍,带动PCB用量倍增;价上,平台采用M8U/M9级高端材料与超高多层设计,单台服务器PCB价值较上一代提升超两倍。正交背板作为标志性工程创新,通过78层PCB实现GPU与NV Switch互连,替代数万根铜缆。高盛预测2025-2030年AI服务器需求增约4.3倍,高端PCB供需失衡将延续至2027年,PCB在AI系统BOM中占比向半导体级组件靠拢,完成从“承载平台”到“核心互联介质”的价值跃迁。 CoWoP与M9体系叠加赋能,推动AI PCB工艺向半导体级突破。CoWoP方案去掉ABF封装基板与BGA焊球,将硅中介层与GPU/HBM组合直接安装在强化型PCB上,PCB承担了原本封装基板的全部功能,标志着PCB与封装基板边界消失。该方案在信号完整性、电源完整性、热管理、板材变形控制及长期可靠性方面具有多重优势。单颗GPU配套PCB价值量高达600美元,为当前GB 200平台的三倍,预计2027年形成超6亿美元市场空间,2028年飙升至20亿美元以上。同步演进的M9级覆铜板体系采用第三代Low DK石英布、HVLP4/5超低轮廓铜箔等先进材料,填料用量较前代翻倍。材料代际跃迁导致加工难度指数级抬升,叠加上游日东纺产能逼近极限、HVLP铜箔供应紧张,三重因素系统性推升价值中枢。CoWoP与M9叠加,使得工艺精度全面逼近半导体级。 多重壁垒构筑行业护城河,资金技术环保认证推动行业向头部集中。PCB行业属政策、资金、技术密集型,准入门槛极高。工信部设高投资与产能标准,PCB行业设备、研发投入大;制造工艺复杂、跨学科要求高;环保标准严、出口合规成本高;头部客户认证周期长、粘性强。多重壁垒推动行业向头部集中,格局持续优化。相关标的 海外算力:胜宏科技、鹏鼎控股、沪电股份、广合科技、生益科技、景旺电子、东山精密、世运电路其他海外算力:东山精密、工业富联、中际旭创、天孚通信、中钨高新、天岳先进、新易盛、兆易创新、沪电股份、大普微、源杰科技、欧科亿、英维克、唯科科技、领益智造等;Intel、SK海力士、Lumentum、闪迪、高通、博通、marvell、铠侠、美光、中微公司、北方华创、拓荆科技、长川科技。风险提示 AI服务器出货及PCB升级不及预期的风险;CoWoP、正交背板等新工艺商业化进度不及预期的风险;原材料供应紧张及价格波动的风险;行业扩产节奏过快导致竞争加剧与价格战的风险;大客户订单波动及客户集中度过高的风险 内容目录 一、AI推理瓶颈迭代与架构演进,推动PCB价值定位跃升............................................31.1推理瓶颈从算力转向显存带宽,PCB成为AI系统性能关键承载者..............................31.2由芯片至机架架构演进,PCB从承载平台跃升为AI核心互联介质..............................5二、Rubin开启硬件密度时代,正交背板推动PCB半导体化价值跃迁...................................62.1 Rubin开启AI硬件密度新时代,拉动PCB量价齐升与高端化升级..............................62.2正交背板推动PCB“半导体化”,工艺升级驱动PCB价值量跃迁................................8三、CoWoP与M9体系叠加赋能,推动AIPCB工艺向半导体级突破......................................93.1 CoWoP打破PCB与封装基板边界,PCB从连接件跃升为芯片最后一层封装载体.................93.2 M9材料体系实现代际升级,工艺壁垒与供给瓶颈推升PCB价值中枢..........................103.3 CoWoP与M9双重叠加,AIPCB工艺精度全面逼近半导体级.................................10四、多重壁垒构筑行业护城河,资金技术环保认证推动行业向头部集中................................11五、相关标的..................................................................................12六、风险提示..................................................................................12 图表目录 图表1:预填充与解码时的内部GPU状态.........................................................3图表2:Disaggregated Serving处理专用GPU上的AI推理的Prefill与Decode阶段,实现对计算和内存资源的精准优化.....................................................................................4图表3:MoBA通过路由器将查询路由至对应KV块,仅计算相关块的注意力得分以实现稀疏计算.........5图表4:MLA通过显著减少生成过程中的KV缓存,实现高效推理....................................5图表5:多种并行策略可组合使用,以高效训练参数量从数十亿到数万亿的大模型,并横跨数千个GPU运行5图表6:通过内部连接,NVIDIA展示了一种新的中翼设计,其共有18列和4排连接线..................6图表7:Vera Rubin NVL144平台将于2026年下半年量产,其FP4推理算力达3.6 EFLOPS,是GB300 NVL72的3.3倍.......................................................................................7图表8:Rubin Ultra NVL576平台将于2027年下半年量产,其FP4峰值推理算力高达15 EFLOPS,FP8训练算力达到5 EFLOPS.............................................................................7图表9:NVIDIA Rubin NVL576机架取消了连接NV Link交换机和计算刀片的线缆卡带..................8图表10:CoWoP方案中,PCB承担了原本封装基板的全部功能........................................9图表11:NVIDIA正在研究下一代AI显卡采用CoWoP的PCB封装.................................10图表12:AIPCB既保留了PCB大尺寸量产与多层压合的工艺基础,又在精度与材料等层面实现了向半导体级别的跃迁......................................................................................11图表13:AI PCB行业面临政策及资金、技术、环保、客户等壁垒...................................12 一、AI推理瓶颈迭代与架构演进,推动PCB价值定位跃升 1.1推理瓶颈从算力转向显存带宽,PCB成为AI系统性能关键承载者 从AI计算底层物理特性来看,Transformer架构下大模型推理严格分为Prefill与Decode两个阶段,二者硬件资源消耗特征存在显著不对称,Prefill阶段为计算密集型,以矩阵-矩阵乘法(GEMM)为主,算术强度高,GPU可逼近FP4/FP8理论峰值性能,而Decode阶段为显存带宽密集型,以向量-矩阵乘法(GEMV)为主,需反复从HBM显存读取历史Key、Value向量至SRAM,算术强度大幅下降,Tensor Core长期处于等待数据的闲置状态,系统瓶颈由算力转向显存带宽,这种不对称性彻底重塑AI硬件设计哲学,推动PCB向高频高速、高密度互连、高层数、高精度方向升级,使其在材料、制程、精度上全面趋近半导体级标准,进而实现PCB“半导体化”,以匹配AI算力硬件对信号完整性、传输效率与系统稳定性的极致要求。 这一阶段的资源消耗变化可以用一组数据直观呈现:在Prefill阶段,GPU算力利用率可达90%-95%,但显存带宽占用通常低于30%;而在长上下文Decode阶段(KV Cache满载),GPU算力利用率可能降至20%-40%,显存带宽占用率则会升至85%-95%。这种算力与带宽的极端错配,正是英伟达在Rubin系列中推出"解耦式推理"(Disaggregated Inference)的核心动因——将Prefill与Decode拆分到不同硬件上,对Decode硬件大幅增加显存容量与互联带宽,对Prefill硬件保留高算力配置,通过硬件异构化实现资源的最优配置。这一架构变革对PCB提出了前所未有的要求:Decode节点需要更高密度的HBM显存封装基板与更高速的片间互联(NV Link/C2C),Prefill节点则需要支持更高功率密度的供电与散热方案,二者共同推动PCB从传统的连接载体升级为决定系统性能瓶颈的关键半导体级组件,技术门槛与客户认证周期已逼近半导体封装环节,行业属性由此发生根本性跃迁。 为缓解长上下文推理中KV Cache带来的显存压力,行业演化出三条差异化解决路径:算法层面,采用MLA(Multi-head Latent Attention)、MoBA(Mixture of Block Attention)等混合注意力机制,通过低秩压缩与稀疏化技术,显著降低KV Cache容量占用,从算法根源上减轻显存负担;硬件层面,通过Tensor Parallel(张量并行)将KV Cache横向分布至多张GPU,依托NVLink等高速互联协议在卡间实时汇聚计算结果;系统层面,通过Pipeline Parallel(流水线并行)纵向跨