AI智能总结
股票研究/2024.08.22 AIASIC芯片,选择、空间与趋势海外科技 评级:增持 股票研 究 海外专题研究 (美国 ) 证券研究报 告 秦和平(分析师) 0755-23976666 qinheping027734@gtjas.com 登记编号S0880523110003 本报告导读: AI算力需求高增,AIASIC具备性价比、功耗等优势,且软硬件生态日趋成熟,未来有望实现高速增长。 投资要点: 投资建议:ASIC针对特定场景设计,有配套的软硬件全栈生态,虽然目前单颗ASIC算力相比最先进的GPU仍有差距,但整个ASIC集群的算力利用效率可能更高,同时还具备明显的价格、功耗优势 随着软件生态逐步成熟,ASIC有望更广泛地应用于AI推理与训练我们看好ASIC的大规模应用带来云厂商ROI提升,推荐定制芯片产业链的博通、台积电。 AIASIC芯片具备功耗、成本优势,是必然选择。目前AI算法向 Transformer收敛,深度学习框架以PyTorch为主,为AIASIC发展 提供了重要前提。目前AIASIC单卡算力低于可比的GPU芯片,但由于其成本较低,在推理常用精度下,展现出了更高的性价比 (TFLOPS/$),功耗也更低,此外,由于ASIC专为特定任务设计其算力利用率可能更高,谷歌TPU算力利用率可超过50%。对于云厂商来说,ASIC还是增加供应链多元性的重要选择。 AIASIC芯片成长空间广阔,未来有望增速超过通用加速计算芯片 Marvell预测,2023年,数据中心定制加速计算芯片规模约66亿美 元,在AI加速计算芯片市场占有率较低,为16%。Marvell预计2028年定制芯片规模有望超400亿美元,CAGR达45%,而通用加速计算芯片2028年预计达到1716亿美元市场规模,CAGR为32%。AMDCEO苏姿丰预测2027年AI加速器将增加到4000亿美元的规模。 参考CPU发展历程,随着AIASIC的使用门槛和兼容性改善,渗透率长期有望提升。目前,除了ROCm、OneAPI等开源软件生态以外,云厂商也在积极构建集成了PyTorch等主流深度学习框架的软 件生态,开发一系列编译器、底层中间件等,兼容性持续增强。目前,AIASIC主要服务云厂商自有业务,以及有一定编译能力的中大型企业(比如苹果)。我们认为随着云厂商自研芯片的用户使用门槛降低,结合其功耗成本上的巨大优势,在AI加速计算领域的渗透率长期有望提升。 风险提示:AI算法技术风险、生态系统建设不及预期、芯片研发不 及预期、AI产业发展不及预期 交易数据 行业主要上市公司市值(百万美元) 英伟达 博通台积电 3,130,350 772,478 892,373 AMD253,131 Marvell60,681 市值合计5,108,412 相关报告 《算力需求高增,AIASIC突围在即》 2024.08.15 目录 1.AIASIC芯片的突围与趋势3 1.1.亚马逊Graviton打开ARM世界大门,其他云厂商积极实践3 1.2.构建标准化工具,降低架构迁移成本5 1.3.云厂商自研CPU的启示6 2.风险提示7 1.AIASIC芯片的突围与趋势 1.1.亚马逊Graviton打开ARM世界大门,其他云厂商积极实践 服务器CPU领域早期由精简指令集前辈主导,后来被x86架构全面蚕食,如奔腾、速龙、至强、霄龙处理器等,x86指令统治着桌面和服务器计算生态。精简指令集的后辈ARM想在数据中心赛道挑战x86架构时,不仅需求面对其强大性能,更需要突破其成熟的软件生态护城河。Arm公司2008年首次尝试进入数据中心市场,但并未取得成功。 直到2018年,亚马逊Graviton的发布给ARM生态带来了新的希望。在此之前从业者鲜有渠道接触和应用ARM服务器,类似产品的市场反响较差,而亚马逊通过提供基于Graviton的AmazonEC2实例,极大降低了普通程 序员和企业体验ARM的门槛。 2019、2021年亚马逊发布了第二代和第三代,并推出对应的计算实例。第一代Graviton性能表现相比同时代的至强、霄龙并不突出,Graviton3开始,ARM处理器性能已经可以匹敌x86处理器,Phoronix对比测试显示,C7g实例(基于Graviton3的一种计算密集型实例)与价格相近的Xeon、 Epyc实例对比,综合表现已经具有一定的优势,在能耗比、计算密度等指标上更为领先,同时成本也更低。这让人们意识到ARM服务器可以在某些场景取代传统的x86处理器,或者与之搭配使用。亚马逊也不断完善技术栈,使得用户可以快速、方便地将应用迁移到C7g实例上。 图1:Phronix94个测试第一名完成次数统计, Graviton3最多,占比46%,至强次之,占比37% 图2:Phoronix测试显示,Graviton3实例表现以微弱优势超过至强实例,EPYC紧随其后 数据来源:Phoronix数据来源:Phoronix 2023年12月,亚马逊发布Graviton4,相比Graviton3处理器性能提升30%,独立核心增加50%以上,内存带宽提升75%以上。基于Graviton4的R8g实例在2024年7月已经正式可用,其与英特尔、AMD的可比x86 服务器相比,性价比预计高出大约20-30%。 截止2024年6月,AWS已经部署超过了200万个Graviton处理器,拥有超过5万名客户。2023年,伯恩斯坦的一份报告显示,目前全球近10%的服务器基于Arm处理器,其中,AWS占据了全球超过一半的Arm服务器CPU市场,在与可比x86芯片相同的性能下,Arm架构服务器小芯片成本降低了20%至70%。 图3:亚马逊�年推出4代Graviton产品 数据来源:智东西 2023年,微软推出了基于Arm架构的首款处理器Cobalt100,用于在微软 Cloud上运行通用计算工作负载。该芯片具有128个计算核心,支持12通 道DDR5内存。微软希望直接向客户出售Cobalt的使用权,与AWS的“Graviton”系列芯片竞争。 2024年,谷歌在推出了Arm架构的首款自研CPUAxion,计划将其用于旗下的YouTube广告投放、大数据分析等业务,并在2024年向客户开放。谷歌宣称Axion比当前一代x86架构芯片的性能高出50%,能效高出60%。 中国市场ARM市占率预计超过10%。IDC2023年一季度数据显示,ARM服务器出货量全球占比已达10%,其中,中国市场占据了ARM服务器出货量的40%,出货约12万台,中国市场ARM份额预计在10~15%区间。 国内云厂商中,阿里较早推出Arm芯片,并实现了大规模应用。2021年,阿里平头哥推出倚天710芯片,这是旗下首颗Arm服务器芯片,采用5nm工艺,有128颗核心,最高主频达3.2GHz,性能和能效比都超过了当时的 业界平均水平。该芯片主要面向云服务器市场,提升云计算效率,在机器学习、数据分析领域也表现出色,已经实现大规模应用。 图4:阿里倚天710处理器性能 数据来源:InfoQ 1.2.构建标准化工具,降低架构迁移成本 由于x86和ARM架构存在指令集和寄存器的设计差异,编码编译都存在较大的差异性,因此迁移过程中面临较多的工作量。具体可以分为4个步骤: 1)迁移准备:确定场景(通用计算/人工智能/超算),分析硬件和软件栈信息,制定相应策略。对于开源软件来说,迁移相对简单,对于自研软件,比如C,C++类型的编译型软件,需要选择合适的编译器,进行重新编译后才 能完成迁移,对于Java、Python这类解释型语言,其虚拟机已经把上层跟指令集相关的内容屏蔽掉了,迁移难度较小,对于商用软件而言,需要联系厂商编译ARM的版本,并进行适配; 2)执行迁移:其中最重要的是编译迁移。对于指令集有依赖的代码来说, 需要将x86架构相关的代码换成ARM架构下的语言,比如前文提到的编译 型语言C,C++;对于软件包的迁移也类似,需要扫描出对编译型语言有依赖的部分,进行替换; 3)性能调优:主要是建立调优基准、进行压力测试、确定性能瓶颈,然后 实时优化,完成优化措施后,重新启动压力测试工具确认优化效果,保证软 件在ARM上的性能和x86上的运行性能没有变化,甚至更好; 4)部署维护:如果是传统线下的数据中心,需要在IDC机房中先部署、调试硬件,装系统,最后再部署软件并调试;如果是在云上部署软件,则会更便捷,可以通过一些云厂商,如亚马逊、阿里的服务,实现快速的集群部署。 图5:从x86向Arm处理器的迁移步骤 数据来源:阿里云 图6:Java、Python的迁移点相对简单,主要涉及编译环境和SO库的修改 数据来源:华为 亚马逊创建了标准化的流程和平台,让用户可以以较低的迁移成本将应用迁移至Graviton。对于无服务器、容器化、数据库和缓存等许多应用程序,AWSGraviton快速启动计划提供了详细的技术指南和迁移指南,可以帮助 用户在四小时内快速轻松地将工作负载迁移到AWSGraviton。无论是类似RDS的托管服务,还是用户自建服务需要按步骤调整,整个迁移过程几乎都无缝对接,可以快速完成。部署完成后,用户可以利用AutoScaling和CloudWatch监控,优化资源分配,最终实现性价比提升的效果。 1.3.云厂商自研CPU的启示 梳理ARM架构处理器的发展历程可以发现,虽然ARM处理器在功耗和成本上具有优势,但初期面对x86成熟的生态和高性能是屡屡碰壁的,亚马逊Graviton芯片能成功,很大一部分原因是它降低了用户使用门槛和成本,Graviton通过亚马逊云计算提供服务,降低用户使用门槛,并建立标准化的 流程和平台,降低了迁移编译的难度和成本;同时,它作为全球云厂商龙头,有巨大的处理器采购需求,可以很好发挥规模效应,降低研发生产成本。 参考CPU,云厂商在AIASIC芯片设计上,也需要重点关注用户使用门槛和迁移成本,吸引更多用户体验它的功耗、成本优势。目前,除了ROCm、OneAPI等开源软件生态以外,云厂商也在积极构建集成了PyTorch等主流 深度学习框架的软件生态,开发一系列编译器,兼容性持续增强。目前,AIASIC主要服务云厂商自有业务,以及有一定编译能力的中大型企业(比如苹果)。我们认为随着云厂商自研芯片的用户使用门槛降低,结合其功耗成本上的巨大优势,在AI加速计算领域的渗透率长期有望提升。 图7:PyTorch框架 数据来源:PyTorch 2.风险提示 AI算法技术风险、生态系统建设不及预期、芯片研发不及预期、AI产业发展不及预期 本公司具有中国证监会核准的证券投资咨询业务资格 分析师声明 作者具有中国证券业协会授予的证券投资咨询执业资格或相当的专业胜任能力,保证报告所采用的数据均来自合规渠道,分析逻 辑基于作者的职业理解,本报告清晰准确地反映了作者的研究观点,力求独立、客观和公正,结论不受任何第三方的授意或影响,特此声明。 免责声明 本报告仅供国泰君安证券股份有限公司(以下简称“本公司”)的客户使用。本公司不会因接收人收到本报告而视其为本公司的当 然客户。本报告仅在相关法律许可的情况下发放,并仅为提供信息而发放,概不构成任何广告。 本报告的信息来源于已公开的资料,本公司对该等信息的准确性、完整性或可靠性不作任何保证。本报告所载的资料、意见及推测仅反映本公司于发布本报告当日的判断,本报告所指的证券或投资标的的价格、价值及投资收入可升可跌。过往表现不应作为日后的表现依据。在不同时期,本公司可发出与本报告所载资料、意见及推测不一致的报告。本公司不保证本报告所含信息保持在最新状态。同时,本公司对本报告所含信息可在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。 本报告中所指的投资及服务可能不适合个别客户,不构成客户私人咨询建议。在任何情况下,本报告中的信息或所表述的意见均不构成对任何人的投资建议。在任何情