您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[William Blair]:人工智能如何革命性地改变计算和基础设施 - 发现报告

人工智能如何革命性地改变计算和基础设施

AI智能总结
查看更多
人工智能如何革命性地改变计算和基础设施

从芯片到系统:人工智能如何变革计算和基础设施 +1 212 245 6508Sebastien Najisnaji@williamblair.com +1 617 235 7519杰森·艾德,CFAjader@williamblair.com 请参阅第38页和第39页的重要披露。分析师认证在第38页。威廉布莱尔公司或其关联公司与其研究报告中的公司进行并寻求进行业务往来。因此,投资者应意识到,该公司可能存在可能影响本报告客观性的利益冲突。本报告的目的不是提供个人投资建议。此处表达的观点和建议并未考虑个别客户的情况、目标或需求,且无意作为针对特定客户的特定证券、金融工具或策略的推荐。本报告的接收者必须就本报告中提到的任何证券或金融工具做出其自身的独立决策。 .......................................................................................................................3...................................................................................................................3............................................................................................6..............................................................................................11......................................................................................18.......................................................................................................27..............................35结论........................................................................................................................36引言关键要点计算机简史我们需要更多的处理!它不仅仅是一块芯片,而是一套系统。设计人工智能集群GPU、软件以及半导体领导者结构性的更高利润率 指出人工智能,特别是通用人工智能(GenAI),是计算领域的下一代变革,这一点并不具有争议性。类似于之前那些从大型机到个人电脑、再到移动电话、再到云数据中心的发展浪潮,每一次转变都要求我们对计算架构、处理器设计和系统工程进行重新思考。在我们看来,人工智能也不例外,它吸取了个人电脑和移动时代的许多经验教训,并将这些经验教训转移到数据中心。像并行计算这样的技术能力已成为一种新的、大规模的工作负载,可以利用所有这些能力。片上系统(SoC)、软件定义的基础设施和系统科学并不新颖,但人工智能 在过去的报告中,威廉布莱尔科技团队曾讨论了由投资增加和新基础设施(网络、存储)需求、数据服务以及安全性的提升所引起的转变。自2022年11月ChatGPT发布以来,通用人工智能(GenAI)的兴起,以及这一新技术是如何重新洗牌的。查看我们的GenAI入门指南(生成式AI:自动化领域的新前沿括号和 企业 人工智能 报告生成式AI工具链:企业如何将炒作转化为现实在此次报告中,我们深入挖掘一层,从根本上来理解AI的兴起如何影响计算层,以及随之而来的数据中心基础设施技术的整体影响。 它不仅仅是更好的芯片,更是更好的系统。传统半导体公司越来越多地将目光投向堆栈更高层次,通过设计和架构的垂直整合,将计算的 核心单元从芯片转移到更广泛的计算系统中。像英伟达这样的公司并不将自己视为芯片提供商,而是视为整个计算机的建造者,其中芯片、存储、网络和软件的集成在推动性能提升中扮演关键角色。在我们看来,这种系统级别的方法为英伟达等芯片供应商创造了一个比我们在半导体行业过去的周期中习惯看到的技术护城河更为显著和可持续。例如,英伟达提供的DGX系统是一个复杂的计算机系统,包含35000个不同的组件,这些组件被设计成协同工作,为AI架构(CUDA软件)提供更好的性能,允许开发者在英伟达GPU上编写程序。与所有英伟达的解决方案一样,DGX运行的是长期建立的计算统一设备AI基础设施的成本——由于所需的系统规模和复杂性——成为推动半导体和IT堆栈价值链垂直整合更多部分进入针对特定用例优化的系统级解决方案的催化剂。由于这些系统的规模,在AI时代,随着计算重点从芯片转向综合系统,我们预计性能或能效方面的改进将对成本产生显著影响。系统公司将在半导体收入中占据大部分份额,在很大程度上掩盖了离散芯片制造商。 人工智能代表着计算领域的一次代际转变。 在ChatGPT发布近两年后,越来越明显的是,人工智能是解决日益增长的应用场景和工作负载的关键钥匙。人工智能跟随先前一代的技术变革,为计算世界带来了新的范式,这需要重新设计、架构和供应链的调整。在计算机领域,包括20世纪80年代从大型机到个人电脑的转变以及在2000年代末从个人电脑到移动设备的转变。鉴于人工智能仍处于幼年期,我们预计在未来十年内,随着人工智能技术几乎融入几乎所有现有流程和解决方案(以提高生产力和降低成本),以及被用于构建新的工具和应用程序(例如,人工智能驱动应用程序、全宇宙、数字孪生、机器人、自动驾驶汽车),它将创造一个规模庞大的数十万亿美元的市场机遇。 并行计算将成为大多数应用的基础。人工智能的兴起标志着数据中心从串行计算(以及CPU)的优先地位转向并行计算(以及GP U/AI加速器)。这种转变是由训练和运行基于海量数据集的模型所需的高数量级处理能力推动的。支撑Transformer和深度学习模型的向量/张量数学需要并行化,即可以将任务分解成更小的块进行处理。随着并行优势的日益明显,GPU在数据中心中的份额不断增加。随着在应用程序和工作流程中集成AI模型的好处变得更加明显,数据中心环境——2023年,数据中心的新芯片中有约30%是GPU,我们预计在未来几年这一比例将迅速超过50%,尤其是在人工智能应用在总体应用领域中所占比重不断增大的情况下。 垂直整合使摩尔定律保持活力尽管由摩尔定律所决定的传统性能提升已经放缓——随着你达到原子级别的物理极限,减小晶 体管变得更加困难——半导体公司已开发出应急措施,以继续推动其芯片性能稳步提升。半导体行业不得不将其关注点和范围从处理器设计扩展到芯片系统再到超芯片,而现在则是构建垂直集成的计算系统,该系统结合了计算、存储、网络和软件的专长。通用人工智能(GenAI)的迅速崛起使得这一垂直化转变更为重要,从而启动了一款全新的芯片至数据中心全栈。微软CEO萨蒂亚·纳德拉在3月关于加速性能和能效提升的竞争中强调了这一点,这些提升超越了2024年在微软Build大会上的主旨演讲,提出我们可能正在进入IT系统中的一段“黄金时代”。 计算机系统比仅芯片获得的利润更高。随着半导体公司的核心IP从芯片设计扩展到系统工程和软件开发,这些公司能够比以往任何时 候更多地获取技术栈中的价值。然而,allelization受到系统序列部分(即并行部分)的限制,这促使半导体行业关注Amdahl定律,该定律强调了仅通过创建更大的GPU(即更高并行的益处)来简单地创造更大GPU的局限性。公司向上层拓展。随着越来越多的IP由有价值的软件能力和系统架构驱动,半导体公司能够推动更好的毛利率;英伟达就是这一点的典型例子,其流行的CUDA堆栈帮助它实现了行业中最高的毛利率之一(在70%中段)。虽然其中一部分是由定价能力驱动的,但我们预计这些更高的毛利率在短期内将是可持续的,因为半导体公司自身发展更多专有技能,并且越来越不依赖于提高晶圆厂能力作为性能提升的核心驱动力。 定制芯片需求凸显垂直化趋势。近年来一个关键趋势是,越来越多的科技公司开始设计自己的芯片,而不是从传统半导体公司 (如英特尔、AMD、高通)购买现成的计算机芯片。例如,苹果现在设计自己的芯片(A系列用于iPhone,M系列用于电脑),以优化其产品的性能以适应自身的软件生态系统。像Meta(MTIA)、AWS(Graviton CPU,Inferentia/Trainium GPU)、微软(Maia GPU,CobaltCPU)、谷歌(TPU)以及字节跳动/开放AI等超大规模科技公司最近都在投入大量资源,从芯片一直到运行在顶部的应用程序,构建自己的技术栈。这突出了向垂直化转型的结构转变。同时,这也突显了,对于他们的最大潜在客户来说,芯片供应商将越来越多地被视为竞争对手。- 最大的利益在于,设计整个系统以最大化特定用例的性能/成本。 设计全栈系统是一项艰巨的任务 胸,对于那些缺乏资源或专业技术以直接与半导体供应链合作并从头开始构建自己系统的多数组织来说,这仍然遥不可及。尽管垂直方法对从大规模战争中获益的最大科技公司有效,例如那些能够与半导体供应链直接合作并从头开始构建自己系统的公司,即使是像AWS、Meta和Google这样的超大规模企业,建立自己的芯片和数据中心系统也是一个挑战性的提议。我们与行业专家的对话强调了这样一个事实:构建内部解决方案是一个挑战。例如,尽管AWS在自家的基于Arm的CPU(Graviton)方面取得了一些成功,但其在GPU产品(Trainium、Inferentia)方面的表现却难以引起广泛关注。这是因为AWS不仅在技术领先性上落后于Nvidia,而且缺乏一个能够有效竞争CUDA的替代软件生态系统。结果是,Trainium/Inferentia作为某些用例的低成本替代品是有用的,但仍然需要一个兼容层来运行基于CUDA的库和程序。Nvidia对并行处理标准软件层的控制使其在竞争对手中占据巨大的领先优势,这也意味着今天的超大规模企业仍然在与Nvidia的竞争中追赶,而不是建立起自己的竞争优势。 半导体领导者拥抱垂直整合- 调查报告:Nvidia的业务不仅仅是制造芯片。我们构建的是一台完整的超级计算机。在GTC 2024财务分析师会议上,Nvidia首席执行官黄仁勋提出了以下观点:芯片到系统,再到互连,NVLinks(服务器互连),网络,但最重要的是软件。”这一断言不仅完美地概括了Nvidia对系统设计的高度专注,以及垂直化堆栈以构建整个计算系统的理念,而且突出了软件作为该解决方案中宝贵层的重要性。那些采纳了这种系统方法的厂商。今天,我们看到有三家厂商处于这一转变的前沿:在我们看来,从这场AI浪潮中受益最多的半导体公司是那些英伟达、ARM和博通。其他被关注的厂商包括在并行处理中追赶的CPU领导者(如英特尔、AMD),这些更广泛的计算系统的主要组件供应商(如-提高了处理器/芯片系统设计的定制化(新思科技、楷登)),以及能促进电子设计自动化(EDA)的厂商。 半导体产业诞生于1947年,当时贝尔实验室/AT&T的一组研究人员成功演示了第一个晶体管。他们的开创性工作在1948年发表,最终使他们于1956年获得了诺贝尔物理学奖。该产业开始成形。20世纪50年代初,特别是在1952年,当时有34家公司获得了AT&T原始半导体专利的许可。 从1950年到1970年,半导体公司越来越多地采用了垂直整合。先锋公司——如德州仪器、Fairchild和摩托罗拉——主要服务于原始设备制造商(OEMs,例如航空、电信、国防),设计、制造并包装他们的半导体芯片。集成器件制造商(IDMs)开发了他们自己的工艺技术,并在内部生产