加速计算成果斐然,英伟达引领AI工业革命 计算机 2024.06.03 评级:增持 上次评级:增持 细分行业评级 李沐华(分析师)伍巍(研究助理) 010-83939797021-38031029 limuhua@gtjas.comwuwei028683@gtjas.com 登记编号S0880519080009S0880123070157 本报告导读: 2024年6月2日,英伟达CEO发表“开启产业革命全新时代”的演讲,加速计算和 AI结合有望重塑计算产业,且AI大模型在PC、工业机器人等场景应用或成主流。 相关报告 计算机《车路云大单提升交通信息化行业景气度》 2024.06.02 计算机《电力市场政策不断深化,IT建设有望加速》 股票研 究 行业通用模 板 证券研究报 告 投资要点: 投资建议:6月2日,黄仁勋演讲中系统性介绍了加速计算对当前计算产业的革命性影响以及CUDA的显著成果,在数据指数级攀升背 景下,每年迭代的高性能AI芯片对降低成本和提升效率极为重要,且物理性AI驱动的机器人对工业的革新或将引领下一波AI浪潮。在此背景下,可以预见产业链对AI算力的需求或将进一步扩张,推荐标的:浪潮信息、紫光股份、工业富联,受益标的:鸿博股份、中贝通信。 作为使用神经网络来进行深度学习的平台,CUDA显著推动了计算机科学在近20年内的进展。黄仁勋指出,当前全球已有500万名CUDA开发者,CUDA已经实现了“良性循环”,能够在运算基础不断增长 的情况下,扩大生态系统,令成本不断下降,这也将促使更多的开发人员提出创新,从而带来更多需求实验。同时,Omniverse已经帮助众多大厂实现了数字孪生。例如,通过运用Omniverse工厂可以事先规划流水线,气象学家可以精确预测极端气候等。 加速计算是解决计算成本指数级攀升的有效手段。黄仁勋指出,计算 机行业在CPU上运行的引擎,其性能扩展速度已经大大降低。然而 当前需要处理的数据却呈指数级增长,如果保持原状,将不得不经历计算膨胀和计算成本的提升,而在这种情况下,通过计算机增强CPU来提供加速计算是一种更好的方法,核心思想是让每一个处理密集型应用程序都得到加速,从而每个数据中心也就会得到加速。随着Blackwell芯片开始生产,英伟达计划每年升级AI加速器和AI芯片预计将于2025年推出BlackwellUltra,在2026年推出名为“Rubin”的下一代AI平台,该平台将采用HBM4内存。 人工智能的下一波浪潮即将来临,由物理AI驱动的机器人将会彻底改变工业。近年来,得益于基础模型的发展和对世界理解能力的提升机器人在认知能力方面取得了显著进步。机器人学的进步意味着机器 人可以更容易地适应并执行复杂的任务。目前,仍需要大量的数据对机器人进行训练。机器人可以执行与人类相似的动作,并且可以通过演示和视频提供大量的训练数据,这为机器人的学习和技能提升提供了便利。这一领域也将出现更多的创新和突破。英伟达建造具有生成式物理AI的机器人需要三台计算机,其中NvidiaAI超级计算机用于训练模型,NvidiaJetsonOrin和NvidiaJetsonThor超级计算机用于运行模型,NvidiaOmniverse提供供机器人学习和完善技能的模拟世界同时Nvidia构建了开发人员所需的平台、库以及人工智能模型。当前比亚迪、西门子、泰瑞达和Alphabet旗下公司Intrinsic等全球十多家机器人行业领先企业已经在研究、开发和生产中采用NVIDIA机器人平台。 风险提示:产品更新迭代不及预期风险、行业竞争加剧风险 2024.05.27 计算机《低空经济:万亿赛道,中国引领全球》 2024.05.16 计算机《OpenAI发布GPT-4o,AI交互迎来革新》 2024.05.14 计算机《交通信息化建设迎重磅政策催化》 2024.05.05 目录 1.AI芯片龙头持续领跑,下一波AI浪潮或出现在AIPC及机器人领域3 1.1.CUDA生态已形成良性循环,海量加速计算应用场景落地3 1.2.加速计算使大模型训练和“数字人类”成为可能4 1.3.基于下一代物理性AI,机器人可以执行更为复杂的任务4 2.投资建议6 3.风险提示6 1.AI芯片龙头持续领跑,下一波AI浪潮或出现在AIPC 及机器人领域 1.1.CUDA生态已形成良性循环,海量加速计算应用场景落地 当前处理器的性能拓展已经大大减缓,但是需要处理的数据却呈指数增长。 计算机产业距今已经有60年的历史,1964年IBMSystem360引入了中央 处理单元、通用计算、多任务处理、IO、DMA等系统,这些架构的影响力持续至今。随着计算机技术的不断发展,个人电脑革命使得计算机普遍化,在2007年IPhone引入移动计算,计算机得以便捷化,所有的功能得以通过云服务进行连接和运行。但广泛的普及带来的也是计算的膨胀,而如今,处理器的性能拓展也已经大大减缓。 Nvidia一直致力于加速计算的研究,其壁垒较高。近二十年来,Nvidia成功发明了将GPU添加至CPU上的架构,这种架构有效实现了计算加速,并且极大降低了计算的成本。在此之前之所以没采用加速计算的原因在于 实现计算加速十分困难,因为没有软件可以让应用程序的运行突然加速,但英伟达发现改变CPU的结构可以实现这点,但随之而来的软件适配问题解决起来依旧困难。 Cuda有效解决了软件适配问题,已经形成了生态良性循环。Nvidia在过去20年间创建了各个领域的库,致力于让计算变得更加容易,当前Nvidia已经约拥有了350个数据库。谷歌在云服务中加入了Colab并且加速了pandas。 目前,Cuda已经达到了所谓的流行引爆点。目前,Cuda已经形成了良性循环。Nvidia花了20年时间建立的很多数据库几乎覆盖了世界上每一个主要行业,这也为Nvidia吸引了众多的客户,使之能够投入的研发资源不断增加,从而形成了良性循环。过去十年间,通过特定的算法,计算的边际成本降低了一百万倍,这也为大模型的训练创造了基础。 图1RTX4080Super有更多核心、更快的存储 数据来源:英伟达 加速计算技术在气象等诸多领域得到较好实践。Earth2是Nvidia利用AI、物理模拟和电脑图形技术创造的模拟地球的数据孪生,它可以帮助预测地球的气候,将天气预测的精度从25公里提升到了2公里。在实现了预测精 度实现飞跃的同时,它的速度比传统的物理模拟方法快1000倍,能源效率 高3000倍。黄仁勋在会上透露,Earth2接下来将会注重找本地预测,进一步提升精度,并考虑对城市基础设施的影响。 1.2.加速计算使大模型训练和“数字人类”成为可能 Nvidia催化大模型训练的成熟。2012年,研究人员发现了CUDA,Nvidia 第一次接触AI,随着研究的不断深入,英伟达创造了AlexNet,随后Nvidia 也一直致力于人工智能领域,并于2016年向OpenAI交付了世界上第一台人工智能超级计算机DGX。2017年,Transformer的出现使得大量数据的训练成为可能,2022年11月,OpenAI发布了ChatGPT,成为历史上用户数量增长最快的应用程序。目前Nvidia已经在HuggingFace上开源了完全优化的Llama3。 过去的计算基于检索,未来的计算更注重生成。过去的计算基于检索,并且根据检索者的习惯合成一个推荐系统。但在未来,计算会尽可能多地生成信息,只检索必要的信息,生成的信息也会更具有上下文相关性。早在90年 代早期,微软就革命性的创造了封装软件,推动了计算机行业的发展,而如今,Nvidia推出了其“推理即服务”,通过一个预先训练好的模型Nim在工厂内部运行,它的运行堆栈相当复杂,有数十亿到数万亿个参数,需要多台计算机和多个GPU分配工作负载,采用了多种并行性技术从而得以提高处理速度。目前,人们已经认识到数据吞吐量的作用,测量和优化各种参数的重要性随之凸显,为了解决这一问题,Nvidia创建了AI盒子和容器,可以在Kubernetes环境中自动扩展,并具有通用API以方便用户与AI交互。 图2Nvidia推出了其“推理即服务”,运行堆栈相当复杂 数据来源:英伟达 未来大模型最重要的应用之一,就是客户服务。黄仁勋会上表示,每个行业都需要客户服务,这一领域市场空间巨大。客户服务和人工智能有天然的适配性,其原因在于应用层的改变。过去采用指令编写应用程序,如今采用人 工智能的应用程序集。未来,用户甚至不需要了解如何利用若干个应用程序协作完成任务,只需要给出指令,系统就可以自行分配任务并将结果传输给用户。“数字人类”将会使计算机像人类一样与我们进行互动,这也将彻底改变从客户服务到广告游戏等各个行业。“数字人类”建立在多语言语音识别和合成以及能够理解和生成对话的LLMs之上,能够实现视觉互动、语言处理等功能。其中,NvidiaAce是Nvidia开发的“数字人类”技术,Riva可以识别语音,协调机器人的肢体。OmniverseRTX与DLSS技术则可以提供渲染的皮肤与头发。 1.3.基于下一代物理性AI,机器人可以执行更为复杂的任务 英伟达相关软硬件已嵌入AIPC。目前市场上已经发布新款RTXAI笔记本 电脑,通过人工智能,AIPC可以帮助用户利用人工智能技术完成任务,例 如人工智能强化的照片编辑、写作等,AIPC也将承载更多人工智能的应用程序,使得AIPC成为非常重要的人工智能平台。 Nvidia继续重视数据中心的拓展,下一代AI需要重点考虑物理性。黄仁勋认为,下一代的人工智能将会建立在物理基础之上。考虑到如今的大多数人工智能并不理解物理定律,但为了生成图像、视频以及众多的物理现象,就 需要建立在物理基础上的人工智能。有两种途径可以实现这一目标,一种方法是从视频中学习,另一种方法是合成仿真数据,利用计算机相互学习。如果人工智能的数据是综合生成的,并且采用强化学习的方式,那么数据生成的速度将会继续提高,随之而来的是计算量的增长。因此,如果大模型继续发展,那么就需要更强大的GPU。 Blackwell就是为应对更复杂的场景而设计的。Blackwell涉及了几项非常重要的技术,其中之一为芯片的大小,Blackwell采用了两个尽可能大的芯片,这两个芯片被连接在一起,具有每秒10兆字节的速度,属世界之最。这两个芯片被放置在一个计算机节点上,并通过GraceCPU进行连接。 机器人的时代已经到来,基于物理性理解的AI可以助力机器人执行更为复杂的任务。黄仁勋认为,未来所有移动的东西都将自动化。人工智能是一种能够理解指令并在现实世界中自主执行复杂任务的模型,特别是多模态大 型语言模型的出现,为机器人提供了学习和理解周围环境、规划行动的能力。其中促进机器人学发展的一项重要技术是强化学习,生成式物理AI可以在模拟世界中通过物理反馈来强化学习,这将极大推动机器人学的发展。Nvidia建立了NvidiaOmniverse操作系统,Omniverse是一个虚拟世界仿真的开发平台,集合实时物理渲染、物理仿真和生成性人工智能技术,机器人可以在其中进行训练。 图3Nvidia认为人工智能的下一站是机器人领域 数据来源:英伟达 建造具有生成式物理AI的机器人需要三台计算机:NvidiaAI超级计算机用于训练模型,NvidiaJetsonOrin和NvidiaJetsonThor超级计算机用于运行模型,NvidiaOmniverse提供供机器人学习和完善技能的模拟世界。同时, Nvidia构建了开发人员所需的平台、库以及人工智能模型。 人工智能的下一波浪潮即将来临,由物理AI驱动的机器人将会彻底改变工业。Nvidia将为每种类型的机器人系统创建平台,具体包括工厂、仓库,机器人操作、移动以及类人机器人。Nvidia创建了计算机加速库于预训练模 型,并将测试和训练的所有东西集成到了Omniverse中。例如在机器人仓库方面,机器人仓库的生态系统十分复杂,