手握剧本的英伟达还能狂飙多久？

AIAGI大模型AI芯片算力英伟达

发布时间：2024-02-29

他赶，他追，他插翅难飞。

时光回溯20年，彼时，他是行业龙头，屹立在世界科技之巅，如高岭之花无人能敌。

而他，还只是一个刚刚崭露头角的小辈，在泥潭里摸爬滚打一圈，靠游戏显卡起家。

没有人想过要把他们相提并论，毕竟天差地别，比无可比。

然而20年光阴匆匆，他依然强大，但已不再是那个无人能敌的巨人。

而他，凭借AI青云一飞冲天，身价倍增，将他斩落马下，一跃成为行业新王。

不甘的他只能强做镇定，冷哼一句：“不过是运气。”

这听起来是不是很像哪个爽文大男主的剧本？但实际上这是英伟达和英特尔的故事。

过去英特尔一直被认为是全球最大的芯片公司，在CPU芯片市场占据垄断，是难以被挑战的王者。但在2023年，英伟达营收规模（609亿美元）超过英特尔（542亿美元），成为全球最大芯片公司，也成为了新的垄断者。

不仅如此，就在上周，英伟达市值一度突破了2万亿美元，成为全球市值第三大上市公司，那个曾经不起眼的显卡供应商已然长成技惊四座的“绿巨人”。

面对这样堪比拥有金手指的逆天崛起，让人不禁想问为什么是英伟达，真的像英特尔CEO基辛格说的那样是“非常幸运（extraordinarily lucky）”吗？展望全球，还有人能代替英伟达吗？未来“英伟达们”还能继续狂飙多久？

为什么是英伟达？

“好风凭借力，送我上青云。”

众所周知英伟达是依靠游戏显卡起家的，1999年，为了对应英特尔在CPU领域的绝对统治力，英伟达推出全球首款GPU——GeForce256显卡，GPU使显卡削减了对CPU的依赖，并执行部分原本CPU的工作，尤其是在3D图形处理时。

那CPU和GPU具体有什么区别？GPU为什么更适配AI？

简单来说，CPU和GPU都是计算机处理器，都能执行计算任务，不同点在于，CPU更擅长线性计算，而GPU更擅长并行计算。

打个比方，CPU就是一位学识渊博的教授，而GPU就像一群小学生。教授即使能力再强大，也不可能一秒钟内做500次加减法，但是500个小学生同时做就能做到。

而AI的深度学习依赖于数学和统计学计算，需要处理每秒大量的矩阵乘法运算。GPU拥有数千个内核的处理器，能够并行执行数百万个数学运算。

使用GPU做辅助计算，显然能够更快地提高AI的性能。

当然，只有GPU也不足以让英伟达成为“香饽饽”，毕竟能够生产GPU芯片的也不是只有英伟达。

GPU只是英伟达护城河的第一层城墙，第二层就是CUDA编程生态。

CUDA（Compute Unified Device Architecture，统一计算架构）是英伟达在2006年推出的一种软硬件集成技术，也是首次可以利用GPU作为C语言编译器的开发环境。

在CUDA推出之前，想要调用GPU的计算能力，必须编写大量的底层语言代码，而CUDA把多种不同的代码整合成了一气呵成的代码，极大的加快了开发模型的训练速度。

而且CUDA仅为英伟达专有，这也意味着即便竞争对手的GPU在硬件参数上比肩英伟达的GPU，但缺少CUDA的优化，计算效率还是无法达到英伟达GPU的水平。

不仅如此，英伟达还持续扩展CUDA平台和GPU算力的使用场景，每一个领域的扩展都在将英伟达的GPU算力进一步“通用化”，通用化的大算力也成为选择英伟达GPU的理由之一。

第三层城墙就是NVLink高速传输。

大模型训练不可能只用到一张GPU，然而将两张GUP连在一起，实际算力必然会小于2，因为数据传输的速度慢于芯片算力，且过程中还存在损耗，更不要提使用几百张卡，甚至上万张卡一起建立计算集群。

而NVLink是一种链接技术，可以实现GPU之间的高速、低延迟互联，减少芯片损耗提升执行效率，从而降低整个系统的运行成本。

当然，这项技术依然是和英伟达自家芯片绑定使用的。

另外，就是英伟达的“AI铁杆联盟”了。

过去一年，据外媒统计英伟达至少有35笔人工智能投资，是全球最主要的人工智能投资人之一，活跃程度甚至超过了a16z和红杉等顶级投资机构。

积极投资的目的，其实很简单，一手投资资金，一手顶级设备，这样的买卖恐怕没人能拒绝。当然，也足以让绝大部分AI公司绑死在英伟达的船上。

就连连续造神的OpenAI也是船上的一员。早在2016年OpenAI成立之初，黄仁勋就亲手将全球首款DGX交给了OpenAI，那是英伟达当时最强的浮点运算GPU，同时还留下了一句话：“为了计算和人类的未来，我向你们献上世界上第一台DGX-1。”

后面的故事大家都知道了，ChatGPT横空出世，带来算力需求的爆发式增长，Sora又进一步引爆了全球算力需求，GPU供不应求，英伟达一飞冲天。

大家都说英伟达是生成式人工智能（AI）热潮下最大的受益者，但或许这句话换成英伟达一直站在AI发展的关键位置更合适。

谁能替代英伟达？

“无敌是多么多么寂寞。”

根据富国银行数据显示，英伟达在数据中心AI芯片市场拥有98%的市场份额，占有绝对的统治地位，第二名的AMD市场份额仅为1.2%，第三名的英特尔不足1%。

面对英伟达一家独大的局面，在算力芯片如此紧缺的当下，众多互联网及云服务厂商肯定不可能把鸡蛋放在一个篮子里——又贵又不安全。

纵观目前的AI芯片赛道，除了种子选手英伟达之外，可以分成两类重要的阵营：以AMD和英特尔为代表，在GPU市场还算有姓名的专业级“新”选手，以及以谷歌TPU、微软Athena等为代表的云厂商自研芯片。

AMD被视为与英伟达水平最接近的同行。

去年6月AMD发布AMD Instinct MI300X GPU和AMD Instinct MI300A APU，根据AMD的表述，MI300X堪与英伟达H100一战，在训练方面二者性能相当，在推理方面则MI300X的推理速度是H100的1.4倍到1.6倍。

在软件生态上，AMD仍然延续兼容CUDA的策略，一方面通过迁移工具，试图将CUDA应用“翻译”成MI300可以运行的代码，另一方面开源自家的ROCm软件，提高企业和开发者的自主权。

不过比较而言，CUDA推出的时间更早，积累更多，具有先天优势，ROCm做为后发者起步晚，再加上AMD的研发实力也不如英伟达强，所以软件栈的丰富度和好用程度相比英伟达的CUDA来说要差很多。

虽然大型客户也乐于尝试AMD的芯片，比如OpenAI就表示，将使用MI300进行部分模型训练。但目前而言无论是做训练还是做推理，CUDA还都是最优选择。

被英伟达斩落皇冠的英特尔也不愿意在AI芯片中落后，开始重整旗鼓，最新的AI芯片Gaudi3将在2024年上市，按英特尔的宣传，这款芯片的带宽是Gaudi 2(7nm工艺)的1.5倍，BF16功率是其4倍，网络算力是其2倍，并表示Gaudi3的性能将优于英伟达的H100。

此外，英特尔也具备和英伟达对应的网络技术和类似CUDA的软件，同时希望凭借CPU在个人PC上的优势，率先抢占AI PC市场。

同样，很多对AI芯片需求较高的大厂也纷纷开始布局自研芯片，如谷歌 TPU、微软 Athena、

亚马逊 Tranium 等。作为全球最具代表的AI企业，OpenAI也宣布了自己的造芯计划。

大型科技公司推出的新的芯片表明，它们有能力在半导体硬件上与英伟达一较高下，甚至匹配自身情况设计最合适的AI芯片。但无论是自研芯片还是生态建设都需要时间来慢慢发酵，至少在供应链紧张的问题解决之前，他们还是需要依赖英伟达。

从国产算力来看，华为昇腾910B的能力已经基本达到英伟达A100的水平，昇腾系列已建立全方位算力生态，有望引领国内智算中心国产替代加速。

虽然从客观的性能、使用成本，软硬件生态工具，华为与英伟达之间仍然有着代际的差距。但华为作为国内唯一具有芯片、服务器、交换机、自动化运维软件、AI框架、AI模型全链条解决方案的厂商，已经被英伟达视为从芯片硬件到软件，从云服务到通信解决方案的全领域竞争对手。

面对竞争对手的挑战，英伟达也不可能立正挨打全无准备，一方面英伟达持续迭代硬件产品，延续软件架构优势，在大家还在拿H100作比较的时候，H200已经发布，下一代GPUBlackwell B100也有望提前发布，并且CUDA架构开发者和下载量也在持续提升。另一方面，继续通过投资参股等方式绑定下游企业的算力需求，同时通过上百亿美金采购承诺额锁定上游产能。

不过芯片行业技术代际变化非常大，只要存在技术迭代的机会，就永远有弯道超车的可能，在英伟达的挑战者中不乏拥有深厚技术研发能力和充裕的资金企业，可能在这个时间段暂时落后，但谁也无法笃定，下一次技术涌现突围的会是谁。