GPGPU与ASIC性能对比一览我们梳理各芯片参数,得到如下结论: 1)算力方面,多数ASIC较少涉及高精度浮点数数据,聚焦于低精度领域且拥有相对而言更可观的功耗控制与能效比,但尽管在低精度领域,算力性能部分指标仍难以与同时期的GPGPU相媲美。2)存力方面,ASIC算力密度高,算数强度迭代快,但在显存带宽和容量上与GPGPU仍有较大差距,近期表现亮眼的LPU则通过超高内存带宽突破性化解传统GPU的内存瓶颈。3)互连方面,英伟达NVLink所能实现的Scale-up互连能力一骑绝尘,挑战英伟达NVLink的难度较大。ASIC在特定性能上表现突出,但整体来看仍较难超越英伟达的市场地位。 为什么大厂纷纷开始自研AI芯片?芯片公司的支出通常包含员工薪资、EDA和IP费用、芯片制造费用、销售费用四个方面,我们按Fabless公司的研发投入模式,依据寒武纪、海光信息、翱捷科技的研发人员人数与薪酬数据及英伟达相关产品售价与销售毛利进行计算,大约4.5-7万卡出货量可以覆盖前期的投入。而头部大厂的万卡集群建设未曾停歇,完全有望覆盖自研ASIC的前期投入,训练端单一集群的需求量已逐渐超过10万卡,同时英伟达FY2024数据中心有40%的收入来自推理业务。随着AI应用遍地开花,我们认为AI推理需求还有更大渗透空间。 大厂自研AI芯片谁能代工?博通产品线IP生态强大完善,在接口、互连等领域保持前瞻性优势,针对不同规模的AI集群提供差异化系统架构与解决方案,并在2024年发布了业界首款采用5nm CMOS工艺实现的400千兆以太网(GbE)NIC设备第二代网卡芯片Thor 2。Marvell通过HBM重构与CPO集成的双重突破体现竞争力,直击AI芯片的能效与带宽瓶颈,AI业务增长显著。台企世芯电子(AIchip)、创意电子(GUC)展现出先进制程与系统设计的优势。中兴通讯作为全球知名的通信与信息技术解决方案提供商,在算力基础设施领域掌握多项核心技术,构建起完备的技术体系。翱捷科技具备完备齐全的自研IP,在蜂窝基带芯片、非蜂窝物联网芯片设计方面经验丰富,同时拥有成熟的芯片定制服务能力。芯原股份为客户提供平台化、全方位、一站式芯片定制服务和半导体IP授权服务,为国内大厂自研提供更多的代工选择。 投资建议:推荐寒武纪、海光信息(与计算机组共同覆盖),建议关注中兴通讯、翱捷科技、芯原股份。 风险提示:大厂CapEx投入不及预期,技术发展不及预期,客户需求不及预期。 表1:重点公司估值 1.GPGPU与ASIC性能对比一览 1.1.算力:精度与能效的差异化竞争 1)从精度范围来看,ASIC较少涉及高精度浮点数数据,主要聚焦于低精度领域,这与其主要应用于大模型训练的定位相符。大模型训练过程中,低精度数据类型(如INT8、FP16等)足以满足大部分计算需求,并且能够在一定程度上减少计算量和存储需求,提高训练效率。2)就低精度部分的算力性能而言,大厂自研的ASIC在一些指标上也难以与同时期的GPGPU相媲美。以英伟达GB200为例,FP16达5000,远超同时期ASIC数值。3)在功耗和能效比方面,多数ASIC拥有相对而言更可观的功耗控制与能效比。通常,ASIC由于其定制化的设计,专为特定任务(如大模型训练)优化,在执行特定任务时可能具有相对较低的功耗。GPGPU在执行相同任务时,由于其架构需要兼顾多种计算场景,功耗往往较高。例如,微软的Maia 100能效比高达1.60,而同时期的英伟达H200为1.41。但也有例外,如英伟达A100的能效比(0.78)高于同期谷歌TPU v4i(0.39),呈现出兼顾普适性与高效性的特点。 图1:主流AI芯片算力指标梳理 1.2.存力:显存性能与算力密度的权衡角逐 1)从显存性能来看,自研ASIC在显存带宽和容量上与GPGPU仍有较大差距。 GB200依靠HBM3e技术拥有高达16384GB/s的带宽,这使其在处理大规模数据时能更高效地运行复杂任务。2)从算力密度(算力/显存容量)来看,GPGPU单位显存算力相对有限,ASIC则以高算力密度在特定任务凸显优势。在实际应用中,较高的算力密度意味着在相同的显存资源下,芯片能够完成更多的计算任务。以谷歌TPU v6e为例,FP16算力1852,显存容量32GB,算力密度约57.88,展现出显存利用效率高、存力与算力协同性好的特征。3)从算术强度(算力/显存带宽)来看,早期ASIC弱于同时期GPU,但技术迭代速度快,22年后实现反超。至24年,ASIC芯片如Meta MTIA v2算术强度达885 FLOPs/Byte,是同期GB200算术强度的2.8倍。4)LPU通过超高内存带宽突破性化解传统GPU的内存瓶颈。LPU采用230MB SRAM集成设计,提供80TB/s的峰值内存带宽。这种存力使每个计算单元可即时获取连续token序列,消除传统架构中因频繁访问外部显存产生的时钟周期损耗。该设计架构通过存力创造性释放算力潜能,为大模型推理提供数据供给保障,完成低算术强度任务性能创造性突破。 图2:主流AI芯片存力指标梳理 1.3.互连:NVLink主导下的技术挑战与突破 1)单从纸面性能来看,英伟达NVLink所能实现的Scale-up互连能力一骑绝尘。 GB200所依赖的NVLink5.0技术能够实现1.8TB/s的互连速度,而其他厂商的Scale-up互连大多以PCIe协议为基础,目前PCIe5.0技术单通道双向速率为8GB/s,16通道可达128GB/s,远远低于NVLink同代技术。2)从技术节奏来看,挑战英伟达NVLink的难度较大。UALink初代V1.0标准将于25Q1发布,NVLink1.0早在2016年已应用于Pascal架构GPU。 图3:主流AI芯片互连指标梳理 2.为什么大厂纷纷开始自研AI芯片?——从自研成本测算说起 通常来说一个芯片公司的支出有以下四个方面:员工薪资、EDA和IP费用、芯片制造费用、销售费用。以谷歌TPU与博通外包服务模式为例,这其中有部分由博通承担,但最终谷歌都需要支付相应的价格,因此我们不做口径调整,依然按Fabless公司的研发投入模式来计算。据老石谈芯对哲库造芯团队的研发投入测算,对于一家数字芯片Fabless公司而言,员工薪资约占总支出60%,占掉大部分的比重。 员工薪资方面:1)研发人数:虽然互联网大厂自研与第三方芯片公司有一定的模式差异,但穿透下来AI芯片研发团队所需要的建制以及全流程粗算下来是可比的。从产品线来看,海外大厂英伟达的产品线丰富,且贯穿AI计算、AI网络,也覆盖数据中心、游戏、汽车等诸多领域,与单纯做AI芯片的公司体量不可直接比较;我们认为,国内AI芯片&其他数字芯片公司的产品条线与之相对可比,我们以国内相关可比公司的研发人数来衡量大厂自研AI芯片所需研发人数(包括自身员工+外包服务商员工)。 2)人均薪酬:2023年度,寒武纪、海光信息、翱捷科技三家公司的研发人员平均薪酬为82.13万元,以此作为国内主流数字芯片设计研发人员的一般薪资水准。由此测算,每年每团队所需员工薪资=研发人数×人均薪酬=1176人×82.13万元≈9.7亿元。这里只是薪资开支,其他还有福利等企业支出,所以总数会高于这个数字。 若一代产品的研发周期按2年计算,一代产品的研发投入可粗略计算=9.7亿元*2/60%≈32.3亿元,单卡价格以售价1-1.5万美元(A100售价)即人民币7-10.5万元、毛利率68.21%(英伟达FY2023-FY2025销售毛利率平均值)计算,大约需要4.5-7万卡出货量可以覆盖前期的投入。 图4:主流AI芯片公司研发人员数量情况 头部大厂的万卡集群建设未曾停歇,完全有望覆盖自研ASIC的前期投入。1)训练端:从训练集群的规模上看,单一集群的需求量已逐渐超过10万卡。2023-24H1,各厂商陆续建成万卡集群,其中比较有代表性的是Meta于24/03月宣布的两个24k GPU集群(共49152个H100)。24H2以来市场最为关注的是xAI建设的10万卡H100集群,明年目标或将扩展至100万卡。2)推理端:英伟达FY2024数据中心有40%的收入来自推理业务。随着AI应用遍地开花,我们认为AI推理需求还有更大渗透空间。 图5:主流科技公司公开宣布的万卡集群情况 3.大厂自研AI芯片谁能代工? 3.1.博通:AI互连技术引领者与半导体生态巨头 博通成立于1991年,是全球领先的fabless半导体设计与技术解决方案供应商,业务范围囊括多种半导体、企业用软件和安全解决方案的设计、开发和供应。 博通产品线IP生态强大完善,在接口、互连等领域保持前瞻性优势。接口方面,博通针对不同规模的AI集群提供差异化系统架构与解决方案。一类是Endpoint Scheduled系统架构,其主要面向的是小规模AI集群数据调度,各计算节点(如GPU)之间通过Tomahawk 5以太网交换芯片来进行互联。从2010年的640Gbps增长到2022年的51.2Tbps,Tomahawk实现了80倍带宽提升,并且实现了超过90%能耗降低。另一类是对于大规模AI集群、需要由智能交换机负责数据调度的Switch Scheduled架构中,博通使用上层Spine交换机Ramon和下层Leaf交换机Jericho3-AI来实现多路径互联,Jericho3-AI芯片可连接多达32,000个GPU,每个AI加速器能够提供800Gbps的数据带宽,最终能使网络性能提升10%;在互连领域,2024年博通发布了第二代网卡芯片Thor 2,Thor 2是业界首款采用5nm CMOS工艺实现的400千兆以太网(GbE)NIC设备,支持16条PCI Express 5.0通道,每条通道的运行速度为32 Gbps。而且Thor 2还可以直接驱动长达5米的铜缆,而大多数NIC竞争对手只能驱动2.5米长的铜缆。Thor系列还通过RoCE v2在以太网上实现类InfiniBand性能,降低客户架构迁移成本。 图6:博通集成光学连接技术的ASIC芯片 市场表现方面,博通营收动能强劲,AI相关业务收入增长迅猛,合作范围稳步扩张。博通是全球最大的AI定制芯片服务商,根据博通今年的财报会所述,其在175亿美元的TAM(可服务市场)中占到大约70%的份额,这一部分也是博通快速增长的业务,而且市场潜力较大。2024财年,博通AI相关收入达122亿美元,同比激增220%,占半导体业务的40%。2023年第四季度网络业务收入45亿美元(同比增长45%),其中AI网络收入占比76%(同比增长158%),原因包括对谷歌、Meta、亚马逊三家超大规模客户AI XPU出货量翻倍,同时全球范围内的Tomahawk与Jericho芯片出货量推动AI连接收入增长4倍;除此之外,博通宣布已被另外两家正在进行下一代自研AI XPU高级开发的超大规模供应商选中,2027年博通的AI ASIC市场的机会将在600亿至900亿美元之间。 3.2.Marvell:数据中心芯片定制化赛道破局者 Marvell(美满电子)成立于1995年,早期以存储控制器技术立足半导体行业,2016年全面转向数据中心芯片解决方案,聚焦ASIC、光电器件、以太网交换芯片等领域。 2024年,公司营收达39.5亿美元,其中数据中心业务贡献70%(27.98亿美元),AI相关收入占比从2023年的5%跃升至30%以上,成为其增长核心引擎。 Marvell通过HBM重构与CPO集成的双重突破体现竞争力,直击AI芯片的能效与带宽瓶颈。通过非行业标准的HBM I/O接口设计,实现接口功耗降低70%,将HBM支持电路从XPU(AI加速器)边缘移至堆叠底部的基础裸片,释放XPU芯片25%的面积用于计算单元扩展。优化后,单一XPU可连接的HBM堆栈数量提升至高33%,XPU的性能和能效整体提高,降低了云运营商的TCO。2025年1月,Marvell发布全球首款集成CPO