您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[天风证券]:英伟达:GTC大会纪要-AI的iPhone时刻来临20230323 - 发现报告
当前位置:首页/会议纪要/报告详情/

英伟达:GTC大会纪要-AI的iPhone时刻来临20230323

2023-03-22天风证券上***
英伟达:GTC大会纪要-AI的iPhone时刻来临20230323

会议时间:2023年3月20日-23日公司参与者:CEO黄仁勋要点提炼1.AI的iPhone时刻已经到来;3款全新推理GPU,包含AI视频、图像生成、ChatGPT等大型语言模型的推理加速,有望加速生成式AI开发及部署。英伟达推出针对AI的新的推理平台,包括四种配置和一个体系架构:包括适用于处理AI视频的8-GPU服务器L4,适用于Omniverse和图形渲染的L40,适用于扩展LLM推理的H100NVL,适用于推荐系统和向量数据库的Grace-Hopper。2.超级计算:发布Grace、Grace-Hopper和BlueField-3三款新芯片,适用于超级节能加速数据中心,更新了100个加速库,包括用于量子计算的cuQuantum、用于组合优化的cuOpt、以及用于计算光刻的cuLitho(与台积电、ASML和Synopsys合作,达到2nm及更高制程),可将计算光刻用时提速40倍。3.Omniverse应用:发布三款专为Omniverse设计的系统:由NVIDIAAdaRTXGPU和英特尔最新款CPU提供动力支持,适合光线追踪、物理仿真、神经图形和生成式AI的新工作站,由Omniverse优化而来的新型NVIDIAOVX服务器,基于NVIDIAOVX运算系统推出OmniverseCloud,每一层Omniverse堆栈包括芯片、系统、网络和软件都是新发明,正将Omniverse连接到微软365生产力套件。纪要全文NVIDIA推理平台软件SDKNVIDIATriton用于数据中心的推理服务,支持多种深度学习框架,支持GPU和CPU。TensorRT和Triton已有4万余客户,包括MicrosoftOffice和Teams、Amazon等。新功能发布:支持集成模型的模型分析器,并发多模型服务,以及适用于GPT-3大语言模型的多GPU、多节点推理。NVIDIATritonManagementService:可在数据中心自动扩展和编排Triton推理实例,提高部署模型的吞吐量和成本效率。加速计算方面加速库用于量子电路模拟的加速库cuQuantum,OpenQuantumCUDA模型、Spark-RAPIDS、RAFT、NVIDIAcuOpt库;推理平台软件SDKNVIDIATriton用于数据中心的推理服务,支持多种深度学习框架;CV-CUDA&VPF,宣布推出NVIDIAParabricksAI加速库,与Medtronic合作打造的通用系统平台,与台积电、ASML和Synopsis合作开发cuLitho计算光刻库;GraceCPU含72个Arm核心,由超高速片内可扩展的、缓存一致的网络连接,可提供3.2TB/s的截面带宽。Grace超级芯片 900GB/s低功耗芯片到芯片缓存一致接口,连接2个CPU芯片之间的144个核;NVIDIABlueField-3已投入生产中,并被领先的云服务提供商所采用以加速云计算平台NVIDIADGXCloud推出,通过与微软Azure、谷歌GCP和甲骨文OCI的合作,将NVIDIADGXAI超级计算机从浏览器即时接入每家公司。NVIDIAAIFoundations推出,定制LLM和生成式AI,使用其专有数据用于处理特定领域的任务,包括语言、视觉和生物学模型制作服务。NVIDIAOneArchitecture平台,兼具加速功能和弹性,包括L4、L40、PCIEH100与Grace-Hopper针对Omniverse设计的系统Omniverse可大幅提高工厂的生产效率同时减少成本,包括工作站、NVIDIAOVX服务器以及NVIDIAOmniverseCloudAI加速计算平台加速库——解决新挑战、开辟新市场CFD求解器:汽车和航空航天工业使用CDF进行湍流和空气动力学仿真,电子行业使用CDF进行热管理设计。Ansys、SiemensCadence和其他领先的CDF求解器现已采用CUDA加速。NVIDIAQuantum平台由库和系统组成,供研究人员推进量子编程模型、系统架构和算法。cuQuantum:用于量子电路模拟的加速库,IBMQiskit、GoogleCirq、百度量易伏等已将cuQuantum集成仿真框架中。OpenQuantumCUDA:混合GPU-Quantum编程模型,IonQ、ORCAComputing、Atom等已集成。量子控制链路:与QuantumMachines合作开发,将NVIDIAGPU连接到量子计算机,以极高的速度进行校正。Spark-RAPIDSNvidia加速的ApacheSpark数据处理引擎。Spark-RAPIDS现在可加速主要云数据处理平台,包括GCPDataproc、AmazonEMR、Databricks和Cloudera。RAFT用于加速索引、数据加载和近邻检索,我们正在将RAFT的加速引入到Meta的开源FAISSAI相似性搜索,超过1000家组织使用的Milvus开源向量数据库以及Docker镜像下下载次数超过40亿次的Redis。NVIDIAcuOpt使用进化算法和加速计算,每秒分析300亿次动作。AT&T与NVIDIA合作:(1)借助cuOpt,AT&T可以将查找解决方案的速度加快100倍并实时更新调度方案;(2)除了Spark-RAPIDS和cuOpt之外,AT&T还将Riva用于对话式AI,并将Omniverse用于数字人。 cuOpt可以优化物流服务,每年4000亿个包裹被投递到3770亿个站点。德勤、Capgemini、Softserve、埃森哲和Quantiphi正在使用NVIDIAcuOpt来帮助客户优化运营。CV-CUDA&VPFCV-CUDA包括30个用于检测、分割和分类的计算机视觉算子,VPF是一个Python视频编解码加速库,CV-CUDA和VPF处于抢先体验阶段。NVIDIAParabricksNvidiaParabricks是一套AI加速库,用于云端或仪器设备内的端到端基因组分析,适用于各种公有云和基因组学平台。宣布推出NVIDIAParabricks4.1,将会在PacBio、OxfordNanopore、Ultima、Singular、BioNano和Nanostring的Nvidia加速基因组学设备上运行。与Medtronic合作打造的通用系统平台Medtronic宣布基于NVIDIAHoloscan构建新一代GIGenius系统,将AI用于早期检测结肠癌并将于今年年底推出。cuLitho计算光刻库与台积电、ASML和Synopsis密切合作,将计算光刻速度提高了40多倍。台积电可以通过在500个DGXH100系统上使用cuLitho加速,将功率从35MW降到5MW,替代用于计算光刻的4万台CPU服务器,从而缩短原型周期时间、提高产量,减少制造过程中的碳足迹,并为2nm及以上的生产做好准备。台积电将从6月份开始对cuLitho进行生产资格认证。GraceCPUAI工作负载由GPU加速,擅长单线程执行和内存处理。包含72个Arm核心,由超高速片内可扩展的、缓存一致的网络连接,可提供3.2TB/s的截面带宽。GraceSuperchip通过900GB/s低功耗芯片到芯片缓存一致接口,连接2个CPU芯片之间的144个核;内存系统由LPDDR低功耗内存构成,提供1TB/s的带宽,是当今系统的2.5倍,但功耗只是其1/8。整个144核GraceSuperchip模组仅为5x8英寸,内存高达1TB。功耗超低,风冷即可。微服务方面,Grace比最新一代x86CPU的平均速度快1.3倍,数据处理快1.2倍,整机功率仅为原来服务器的60%。测量就可以实现更高的性能。GraceCPU正在进行样品调测,华硕、Atos、CB、HPE等目前正在构建系统。 NVIDIABlueFieldNVIDIABlueField卸载并加速数据中心操作系统和基础设施软件。包括CheckPoint、思科、DDN、DellEMC等20多个生态系统合作伙伴使用BlueField的数据中心加速技术更高效地运行软件平台。BlueField-3已投入生产中,并被领先的云服务提供商所采用以加速云计算平台,如百度、CoreWeave等。NVIDIADGXH100DGX配有8个H100GPU模组,配有Transformer引擎,通过NVIDIASwitch彼此连接,实现全面无阻塞通信,现在已全面投入生产。微软宣布Azure将为其H100AI超级计算机开放私人预览版。NVIDIADGXCloud宣布推出NVIDIADGXCloud,通过与微软Azure、谷歌GCP和甲骨文OCI的合作,将NVIDIADGXAI超级计算机从浏览器即时接入每家公司。DGXCloud经优化可运行NVIDIAAIEnterprise,是世界领先的加速库套件,用于AI端到端开发和部署。OracleCloudInfrastructure将成为第一个NVIDIADGXCloud。OCI有2层计算网络和管理网络,拥有业界最佳RDMA功能的NvidiaCX-7,BlueField-3将成为管理网络的基础设施处理器。NVIDIAAIFoundations定制LLM和生成式AI,使用其专有数据用于处理特定领域的任务,包括语言、视觉和生物学模型制作服务。NVIDIANeMo用于构建定制的语言文本转文本生成式模型。客户可以引入自己的模型或从Nemo涵盖数十亿参数的预训练模型入手,NVIDIAAI专家将全程合作。借助Nemo服务,可以轻松自定义模型并进行参数调优,教授专业技能,将模型连接到专有知识库,通过添加逻辑、监控输入、输出、毒性和偏差阈值来提供防护栏。NVIDIAPicasso视觉语言模型制作服务,面向希望使用许可或专有内容来训练自定义模型的客户。NVIDIAPicasso是一种云服务,用于构建和部署生成AI赋能的图像、视频和3D应用程序。从NVIDIAEdify模型开始,使用自己的数据训练这些模型,以创建产品或服务。 GettyImages将使用Picasso服务构建Edify图片和Edify视频生成式模型。扩展与Adobe的长期合作将生成式AI融入营销人员和创意专业人士的日常工作流程中,新的生成式AI模型将针对图像创作、视频3D和动画进行优化。NVIDIABioNeMo--用于药物研发的生成式AI模型BioNeMo可以帮助研究人员使用专有数据创建、微调和提供自定义模,可作为云服务提供,让用户随时访问研发工作流。BioNeMo包括AlphaFold、ESMFold和OpenFold等用于三维蛋白质结构预测的模型;ProtGPT用于蛋白质生成;ESM1和ESM2用于蛋白质特性预测;MegaMolBART和MoFlow用于分子生成;DiffDock用于分子对接;药物研发团队可通过BioNeMo的Web界面或云API使用模型。借助NVIDIADGXCloud,BioNeMo还可提供按需超级计算基础设施,以进一步优化和训练模型。Amgen、AstraZeneca、InsilicoMedicine、Evozyne、Innophore和AlchemabTherapeutics已体验过BioNeMo。NVIDIAOneArchitectureL4--针对AI视频工作负载针对视频解码和转码、视频内容审核以及视频通话功能例如背景替换、重新打光、眼神交流转录和实时翻译进行了优化。大多数云端视频都在CPU上处理,一台8-GPUL4服务器将取代一百多台用于处理AI视频的双插槽CPU服务器。Snap是NVIDIAAI在计算机视觉和推荐系统领域领先的用户,会将L4用于AV1视频处理生成式AI和增强现实。Google将在其GCP上提供NVIDIAL4,双方正在加速在L4上部署主要工作负载,有以下五个:加速针对Wombo和Descript等云服务的生成式AI模型的推理;将Triton推理服务器与GoogleKubernetesEngine和VertexAI集成;使用NVIDIASpark-RAPIDS加速GoogleDataproc