您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。手握剧本的英伟达还能狂飙多久? - Insights、热点洞察 - 发现报告

手握剧本的英伟达还能狂飙多久?

AIAGI大模型AI芯片算力英伟达
发布时间:2024-02-29

他赶,他追,他插翅难飞。


时光回溯20年,彼时,他是行业龙头,屹立在世界科技之巅,如高岭之花无人能敌。


而他,还只是一个刚刚崭露头角的小辈,在泥潭里摸爬滚打一圈,靠游戏显卡起家。


没有人想过要把他们相提并论,毕竟天差地别,比无可比。


然而20年光阴匆匆,他依然强大,但已不再是那个无人能敌的巨人。


而他,凭借AI青云一飞冲天,身价倍增,将他斩落马下,一跃成为行业新王。


不甘的他只能强做镇定,冷哼一句:“不过是运气。”


这听起来是不是很像哪个爽文大男主的剧本?但实际上这是英伟达和英特尔的故事。


过去英特尔一直被认为是全球最大的芯片公司,在CPU芯片市场占据垄断,是难以被挑战的王者。但在2023年,英伟达营收规模(609亿美元)超过英特尔(542亿美元),成为全球最大芯片公司,也成为了新的垄断者。


不仅如此,就在上周,英伟达市值一度突破了2万亿美元,成为全球市值第三大上市公司,那个曾经不起眼的显卡供应商已然长成技惊四座的“绿巨人”。


面对这样堪比拥有金手指的逆天崛起,让人不禁想问为什么是英伟达,真的像英特尔CEO基辛格说的那样是“非常幸运(extraordinarily lucky)”吗?展望全球,还有人能代替英伟达吗?未来“英伟达们”还能继续狂飙多久?



为什么是英伟达?

“好风凭借力,送我上青云。”


众所周知英伟达是依靠游戏显卡起家的,1999年,为了对应英特尔在CPU领域的绝对统治力,英伟达推出全球首款GPU——GeForce256显卡,GPU使显卡削减了对CPU的依赖,并执行部分原本CPU的工作,尤其是在3D图形处理时。


CPU和GPU具体有什么区别?GPU为什么更适配AI?

简单来说,CPU和GPU都是计算机处理器,都能执行计算任务,不同点在于,CPU更擅长线性计算,而GPU更擅长并行计算。


打个比方,CPU就是一位学识渊博的教授,而GPU就像一群小学生。教授即使能力再强大,也不可能一秒钟内做500次加减法,但是500个小学生同时做就能做到。


而AI的深度学习依赖于数学和统计学计算,需要处理每秒大量的矩阵乘法运算。GPU拥有数千个内核的处理器,能够并行执行数百万个数学运算。


使用GPU做辅助计算,显然能够更快地提高AI的性能。

当然,只有GPU也不足以让英伟达成为“香饽饽”,毕竟能够生产GPU芯片的也不是只有英伟达。


GPU只是英伟达护城河的第一层城墙,第二层就是CUDA编程生态


CUDA(Compute Unified Device Architecture,统一计算架构)是英伟达在2006年推出的一种软硬件集成技术,也是首次可以利用GPU作为C语言编译器的开发环境。


在CUDA推出之前,想要调用GPU的计算能力,必须编写大量的底层语言代码,而CUDA把多种不同的代码整合成了一气呵成的代码,极大的加快了开发模型的训练速度。


而且CUDA仅为英伟达专有,这也意味着即便竞争对手的GPU在硬件参数上比肩英伟达的GPU,但缺少CUDA的优化,计算效率还是无法达到英伟达GPU的水平。


不仅如此,英伟达还持续扩展CUDA平台和GPU算力的使用场景,每一个领域的扩展都在将英伟达的GPU算力进一步“通用化”,通用化的大算力也成为选择英伟达GPU的理由之一。


第三层城墙就是NVLink高速传输


大模型训练不可能只用到一张GPU,然而将两张GUP连在一起,实际算力必然会小于2,因为数据传输的速度慢于芯片算力,且过程中还存在损耗,更不要提使用几百张卡,甚至上万张卡一起建立计算集群。


而NVLink是一种链接技术,可以实现GPU之间的高速、低延迟互联,减少芯片损耗提升执行效率,从而降低整个系统的运行成本。


当然,这项技术依然是和英伟达自家芯片绑定使用的。


另外,就是英伟达的“AI铁杆联盟”了。


过去一年,据外媒统计英伟达至少有35笔人工智能投资,是全球最主要的人工智能投资人之一,活跃程度甚至超过了a16z和红杉等顶级投资机构。


积极投资的目的,其实很简单,一手投资资金,一手顶级设备,这样的买卖恐怕没人能拒绝。当然,也足以让绝大部分AI公司绑死在英伟达的船上。


就连连续造神的OpenAI也是船上的一员。早在2016年OpenAI成立之初,黄仁勋就亲手将全球首款DGX交给了OpenAI,那是英伟达当时最强的浮点运算GPU,同时还留下了一句话:“为了计算和人类的未来,我向你们献上世界上第一台DGX-1。”

后面的故事大家都知道了,ChatGPT横空出世,带来算力需求的爆发式增长,Sora又进一步引爆了全球算力需求,GPU供不应求,英伟达一飞冲天。


大家都说英伟达是生成式人工智能(AI)热潮下最大的受益者,但或许这句话换成英伟达一直站在AI发展的关键位置更合适。


谁能替代英伟达?

“无敌是多么多么寂寞。”


根据富国银行数据显示,英伟达在数据中心AI芯片市场拥有98%的市场份额,占有绝对的统治地位,第二名的AMD市场份额仅为1.2%,第三名的英特尔不足1%。

面对英伟达一家独大的局面,在算力芯片如此紧缺的当下,众多互联网及云服务厂商肯定不可能把鸡蛋放在一个篮子里——又贵又不安全。


纵观目前的AI芯片赛道,除了种子选手英伟达之外,可以分成两类重要的阵营:以AMD和英特尔为代表,在GPU市场还算有姓名的专业级“新”选手,以及以谷歌TPU、微软Athena等为代表的云厂商自研芯片


AMD被视为与英伟达水平最接近的同行。


去年6月AMD发布AMD Instinct MI300X GPU和AMD Instinct MI300A APU,根据AMD的表述,MI300X堪与英伟达H100一战,在训练方面二者性能相当,在推理方面则MI300X的推理速度是H100的1.4倍到1.6倍。


在软件生态上,AMD仍然延续兼容CUDA的策略,一方面通过迁移工具,试图将CUDA应用“翻译”成MI300可以运行的代码,另一方面开源自家的ROCm软件,提高企业和开发者的自主权。


不过比较而言,CUDA推出的时间更早,积累更多,具有先天优势,ROCm做为后发者起步晚,再加上AMD的研发实力也不如英伟达强,所以软件栈的丰富度和好用程度相比英伟达的CUDA来说要差很多。


虽然大型客户也乐于尝试AMD的芯片,比如OpenAI就表示,将使用MI300进行部分模型训练。但目前而言无论是做训练还是做推理,CUDA还都是最优选择。


被英伟达斩落皇冠的英特尔也不愿意在AI芯片中落后,开始重整旗鼓,最新的AI芯片Gaudi3将在2024年上市,按英特尔的宣传,这款芯片的带宽是Gaudi 2(7nm工艺)的1.5倍,BF16功率是其4倍,网络算力是其2倍,并表示Gaudi3的性能将优于英伟达的H100。


此外,英特尔也具备和英伟达对应的网络技术和类似CUDA的软件,同时希望凭借CPU在个人PC上的优势,率先抢占AI PC市场


同样,很多对AI芯片需求较高的大厂也纷纷开始布局自研芯片,如谷歌 TPU、微软 Athena、

亚马逊 Tranium 等。作为全球最具代表的AI企业,OpenAI也宣布了自己的造芯计划。

大型科技公司推出的新的芯片表明,它们有能力在半导体硬件上与英伟达一较高下,甚至匹配自身情况设计最合适的AI芯片。但无论是自研芯片还是生态建设都需要时间来慢慢发酵,至少在供应链紧张的问题解决之前,他们还是需要依赖英伟达。


从国产算力来看,华为昇腾910B的能力已经基本达到英伟达A100的水平,昇腾系列已建立全方位算力生态,有望引领国内智算中心国产替代加速。


虽然从客观的性能、使用成本,软硬件生态工具,华为与英伟达之间仍然有着代际的差距。但华为作为国内唯一具有芯片、服务器、交换机、自动化运维软件、AI框架、AI模型全链条解决方案的厂商,已经被英伟达视为从芯片硬件到软件,从云服务到通信解决方案的全领域竞争对手。

面对竞争对手的挑战,英伟达也不可能立正挨打全无准备,一方面英伟达持续迭代硬件产品,延续软件架构优势,在大家还在拿H100作比较的时候,H200已经发布,下一代GPUBlackwell B100也有望提前发布,并且CUDA架构开发者和下载量也在持续提升。另一方面,继续通过投资参股等方式绑定下游企业的算力需求,同时通过上百亿美金采购承诺额锁定上游产能


不过芯片行业技术代际变化非常大,只要存在技术迭代的机会,就永远有弯道超车的可能,在英伟达的挑战者中不乏拥有深厚技术研发能力和充裕的资金企业,可能在这个时间段暂时落后,但谁也无法笃定,下一次技术涌现突围的会是谁。


“英伟达们”还能狂飙多久?

“AI不止,前路不息。”


根据英伟达发布FY24 Q4财报,公司营收同比大增265%,每股收益同比暴增765%。作为生成式AI热潮下最受益的企业,英伟达业绩表现很大程度上反映了当下人工智能行业发展的情况以及未来的趋势


随着生成式AI在全球各行各业的重要性日益提高,AI军备战争已经从2023年的少数几家互联网及云服务大厂,向更多地区的更多企业和部门扩展,接下来还会有更多国家和企业入场,模型的参数数据量也会变得更大,AI训练端算力需求随之将会加大


同时,受到AI逐步落地、AI应用从文娱内容领域向更多科技和制造领域扩展等方面的影响,AI推理相关的算力需求也正在海量袭来,AI PC、AI Phone、AI Car都将会是关注度极高的板块。


根据国盛证券的测算,到2030年,训练端全球累计需要相当于2000万张H100的等量算力需求,推理端全球累计需要相当于超1.16亿张A30的等量算力需求。


预计到2032年,包括训练人工智能系统所需AI芯片,以及AI软硬件等应用端在内的生成式AI市场总营收规模将从去年的400亿美元增长到1.3万亿美元


英伟达等半导体制造商无疑被视为投资打造生成式AI基础的大赢家,与训练相关的销售预计将成为最大的细分市场,在未来10年达到4740亿美元的规模。但彭博蓬勃研究院预计微软、亚马逊和谷歌等云巨头未来10年的增速会比半导体行业的整体增速更快


而设备需求将受益于推理采用,对经训练的LLM(大语言模型)数据和内容进行解释的业务预计将达到1680亿美元的市场规模。边缘设备制造商,如戴尔(个人电脑)、苹果(智能手机)和特斯拉(联网汽车),可能会成为与生成式AI相关的对话和视觉产品需求的受益者。


从文生文、文生图到文生视频,从ChatGPT、Dall-E到Sora,AI跨越壁垒向人们展示了超越边界的想象力和爆发力,带来了泼天的富贵,也带来的激烈的竞争,“英伟达们”想要在这条路上继续一路狂飙,别忘了随时保持警惕,别被落下。

#你觉得谁会是下一个突围者?


发现报告商业局

发现报告商业局

发现报告旗下传递新经济商业知识的阵地。

我们需要先了解这个世界,才能思考,或创造。

发现报告订阅号