您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国泰海通证券]:AI ASIC行业专题研究:AI ASIC进入加速增长阶段,全球龙头指引成长空间广阔 - 发现报告

AI ASIC行业专题研究:AI ASIC进入加速增长阶段,全球龙头指引成长空间广阔

信息技术2025-05-30余伟民国泰海通证券S***
AI智能总结
查看更多
AI ASIC行业专题研究:AI ASIC进入加速增长阶段,全球龙头指引成长空间广阔

请务必阅读正文之后的免责条款部分AI ASIC进入加速增长阶段,全球龙头指引成长空间广阔ASIC行业专题研究[table_Authors]余伟民(分析师)王彦龙(分析师)杨彤昕(分析师)021-38676666021-38676666021-38676666登记编号S0880525040028S0880519100003S0880525040059本报告导读:随着AI的持续发展,ASIC市场迎来重要发展机遇,其对比GPU、CPU等通用芯片,在计算能力、计算效率、功耗等性能和单位算力成本的显著优势成为催化需求增长的核心驱动力。投资要点:[Table_Summary]我们认为,AI ASIC产业已迎来重要的发展机遇,下游CSP等公司AI布局的不同侧重及战略方向催生对芯片在特定任务上性能的优化追求,ASIC有望更好的匹配下游客户需求的多样性。而ASIC设计较复杂、难度较大,因此随着ASIC需求的增长,ASIC芯片设计公司及芯片设计服务公司将充分受益,博通、Marvell作为全球龙头已率先实现业绩增长,并预计行业将维持较高速增长;国内产业链公司也将依托一站式芯片设计能力、本土化优势而打开成长空间,推荐:中兴通讯。随着AI的持续发展,ASIC市场迎来重要发展机遇,其对比GPU、CPU等通用芯片,在计算能力、计算效率、功耗等性能和单位算力成本的显著优势成为催化需求增长的核心驱动力。同时,ASIC可以适应不同的业务场景和商业模式的需求,从而满足多种多样的客户需求,具备业务布局的灵活性。海外CSP公司纷纷推出加速自研芯片落地。谷歌持续完成TPU芯片迭代,24年5月15日,正式发布了其最新一代TPU(张量处理器)芯片Trillium。第六代TPU芯片Trillium采用先进的芯片架构与制程工艺,单个TPU芯片的算力较上一代产品提高了2倍以上,同时能效比也获得显著提升。AWS也专门为人工智能训练和推理打造了人工智能Trainium系列芯片,其最新发布的AWS Trainium2芯片的性能是第一代Trainium的4倍,Trn2采用16个Trainium2芯片组合,使用专有的芯片间互连技术NeuronLink进行连接。UltraServer设 计 使 用NeuronLink将 四 个Trn2实 例 中 的64个Trainium2芯片连接到一个节点,从而解锁新功能。而芯片设计公司成为互联网厂商自研芯片落地的重要抓手,发展空间较大。博通、Marvell作为全球领先的AI ASIC设计厂商,业绩率先受益AI需求增长,同时,二者均对相关业务的发展给予高增预期,充分彰显对市场的强劲信心。博通2024财年AI业务收入同比大增220%至122亿美元,公司预计至2027年该业务收入将实现600-900亿美金。Marvell预计24-26财年AI业务(连接+定制化计算)收入从5.5亿提升至25亿美元,增长加速。风险提示:AI ASIC技术发展不及预期;ASIC需求发展不及需求;互联网算力资本开支不及预期。 目录1.AI计算的性能优化需求催化ASIC市场迎来拐点..................................32.全球AI头部玩家布局AI ASIC,前景预期乐观.....................................43.产业链重点公司梳理..................................................................................94.总结............................................................................................................115.风险提示....................................................................................................11 请务必阅读正文之后的免责条款部分2of13 请务必阅读正文之后的免责条款部分3of131.AI计算的性能优化需求催化ASIC市场迎来拐点ASIC是一种专用芯片,与传统的通用芯片有一定的差异,是为了某种特定的需求而专门定制的芯片。ASIC芯片的计算能力和计算效率都可以根据算法需要进行定制,所以ASIC与通用芯片相比,具有以下几个方面的优越性:体积小、功耗低、计算性能高、计算效率高、芯片出货量越大成本越低。图1:算力从通用走向定制数据来源:《异构算力统一标识与服务白皮书》大型云端服务供应商的业务模型、应用场景等很多通过自身的云来承载,每个云承载了独特的应用和商业模型,包括内部应用(比如搜索引擎、社交媒体等)、SaaS服务(比如AI聊天机器人、Copilot等)、IaaS服务等。ASIC可以适应不同的业务场景和商业模式的需求。ASIC可以满足多种多样客户的需求,实现内部工作负载的架构优化,实现更低的功耗,更低的成本以及为AI工作负载定制的内存和I/O架构。图2:每个云承载了独特的应用和商业模型图3:ASIC芯片满足不同种类需求数据来源:迈威尔官网这些年来,GPU的迭代速度非常快,算力增长迅速。网络迭代速度没有算力增长速度快,如何在网络速度相对滞后于GPU算力发展的情况下,确保GPU性能不降低,或者至少保持较强的发展势头,成为未来云基础设施在组网层面面临的一个重大挑战。所以我们认为,在AI场景下,要更好地发挥算力能力,网络通信能力至关重要,而无论是对于GPU芯片设计还是ASIC芯片设计,拥有高速通信技术的公司将有望具备更大优势。在训练阶段,训练集群对加速计算芯片的需求已提升到万卡级别。随着AI 数据来源:迈威尔官网 请务必阅读正文之后的免责条款部分4of13模型对训练需求的提升,未来10万卡级别是大势所趋。图4:GPU迭代以及算力增长迅速数据来源:博通官网2.全球AI头部玩家布局AI ASIC,前景预期乐观集成电路产业链由上、中、下游三部分组成。集成电路产业链的上游包括EDA、IP、材料和设备等供应商;产业链中游主要包括芯片设计、晶圆制造和封装测试等企业;下游主要包括终端系统厂商。随着芯片产业升级,产业链分工日益精细,集成电路设计产业的参与者逐渐细分为芯片设计公司,以及其上游的芯片设计服务公司、半导体IP供应商与EDA工具供应商等。芯片设计服务企业主要面向芯片设计公司与系统厂商等客户的芯片定制需求,具有多工艺、多领域、定制化、一站式等特点,已成为产业链重要一环。图6:2010-2021我国集成电路设计产业规模数据来源:灿芯股份招股书2024年5月15日,谷歌正式发布了其最新一代TPU(张量处理器)芯片Trillium。第六代TPU芯片Trillium采用先进的芯片架构与制程工艺,单个TPU芯片的算力较上一代产品提高了2倍以上,同时能效比也获得显著提升。为满足大规模集群部署的需要,谷歌还发布了基于Trillium芯片的全新机架系统TPU v6 Pod。每个TPU v6 Pod由512个Trillium芯片(共4096个 数据来源:灿芯股份招股书 请务必阅读正文之后的免责条款部分5of13TPU核心)组成,提供高达1.5 ExaFlops的峰值性能,较上一代提升83%。Pod系统内置了高性能互连网络,芯片间采用ICI (Inter-Chip Interconnect)链路直连。Google的TPU网络使用3D圆环拓扑来连接3D网格状结构中的节点。每个节点都连接到网格中的六个相邻节点(上、下、左、右、前和后),在三个维度(X、Y和Z)中的每一个维度上形成一个闭合循环,只需要48个光开关即可部署4096 TPU。图7:一台4096颗芯片组成的超级计算机的物理系统图8:Apollo网络架构简图数据来源:TPUv4: AnOptically Reconfigurable Supercomputer forMachine Learningwith Hardware Support for Embeddings,AMachine Learning Supercomputer with an Optically Reconfigurable数据来源:TPUv4: AnOptically Reconfigurable Supercomputer forMachine Learning with Hardware Support for Embeddings,AMachine Learning Supercomputer with an Optically ReconfigurableInterconnect and Embeddings SupportAWS Trainium芯片是AWS专门为人工智能训练和推理打造的人工智能芯片系列,可在降低成本的同时提供高性能。AWS Trainium2芯片的性能是第一代Trainium的4倍,Trn2采用16个Trainium2芯片组合,使用专有的芯片间互连技术NeuronLink进行连接。UltraServer设计使用NeuronLink将四个Trn2实例中的64个Trainium2芯片连接到一个节点,从而解锁新功能。每台Trn2 UltraServer都有64个Trainium2芯片,通过NeuronLink进行互连,可提供高达每秒83.2千亿次浮点运算的FP8计算能力、6 TB的HBM3和每秒185 TB(TBps)的内存带宽以及每秒12.8 TB(Tbps)的Elastic Fabric Adapter(EFA)网络连接。每个Trn2架构有16个通过NeuronLink连接的Trainium2芯片,可提供高达每秒20.8千亿次浮点运算的FP8计算能力、1.5 TB的HBM3和46 TBps的内存带宽以及3.2Tbps的EFA网络连接。 Interconnect and Embeddings Support 请务必阅读正文之后的免责条款部分6of13数据来源:亚马逊官网图11:Trainium2 Ultra拓扑结构数据来源:Semi Analysis 数据来源:亚马逊官网Trainium2的纵向扩展网络是一个关键进步。Nvidia的纵向扩展网络称为NVLink,对于H100,它以每GPU 450GB/s的速度运行,而InfiniBand横向扩展网络为50Gb/s,Google TPU的纵向扩展网络称为ICI,而AWS的纵向扩展网络称为NeuronLink。具有纵向扩展网络的AI集群的所有部署仍然使用后端横向扩展网络。Trn2-Ultra SKU由每个纵向扩展域的4个16芯片物理服务器组成,因此每个纵向扩展域由64个芯片组成,由两个机架组成,配置类似于GB200NVL36x2。为了沿z轴形成圆环,每个物理服务器都使用一组有源铜缆连接到其他两个物理服务器。4x4x4 3D结构与TPU立方体机架设计非常相似,后者也是一个4x4x4 3D圆环,并在所有3个轴上具有对称的点对点带宽。图12:Trainium2 Ultra机柜连接数据来源:Semi Analysis博通(AVGO.US)是ASIC其中的佼佼者,其ASIC芯片高度定制化的设计能提高算力利用率,在推理侧更具优势,大规模部署的场景下较GPU也更具成本优势,有望成为AI推理侧发展阶段算力投入重点。博通AI业务占比从2019年的低于5%提升至2023年的15%左右。 请务必阅读正文之后的免责条款部分7of13数据来源:博通官网图15:博通业界最快ASIC产品落地数据来源:博通官网 数据来源:博通官网博通充分利用已经布局完成的XPU平台,实现了业界最快的ASIC产品落地时间。ASIC产品设计阶段耗费7-9个月的联合开发时间,再用3个月左右的时间完成产品的生产和产能爬坡。同时博通与客户在架构阶段就展开图16:博通在架构阶段的深度战略合作数据来源:博通官网Marvell同样表现突出,得益于AI应用需