您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:英伟达2022秋季GTC大会系列纪要【中信前瞻】-调研纪要 - 发现报告
当前位置:首页/会议纪要/报告详情/

英伟达2022秋季GTC大会系列纪要【中信前瞻】-调研纪要

2022-09-21未知机构为***
英伟达2022秋季GTC大会系列纪要【中信前瞻】-调研纪要

会议纪要会议主题:《GTC 2022 Keynote》会议时间:2022年9月20日主办方:英伟达欢迎联系:中信证券研究部前瞻团队【新产品发布】Ada Lovelace——集成76,000,000,000个晶体管和超过18,000个CUDA核心,更新全部的三个RTX处理器。DLLS 3——新的光流加速器、游戏引擎运动矢量、卷积自动编码AI生成器以及REFLEX超低延迟流水线。GeForce RTX 4090——支持着色器执行重排序的全新SM多单元流处理器、支持opacity micromap engine和micro-mesh engine的全新RT core,支持FP8 Transformer Engine的全新Tensor core,一个用于DLSS3像素处理的300投片上光流加速器。($1599,10.15上市)GeForce RTX 4080——16gb和12gb版本,RacerX上RTX 4080性能是RTX 3080ti的三倍,建议零售价899美元。自动驾驶芯片Thor替代了Altan,性能达到2000TFLOPS,是Orin的8倍。【详细内容】 今天向您展示NVIDIA RTX、NVIDIA AI和NVIDIA OMNIVERSE的最新进展。我们首次通过云服务拓展了NVIDIA平台的覆盖范围。 Racer X是一个全交互的仿真模拟。使用NVIDIA Omniverse构建的Racer X是物理模拟的,照明反射和折射靠光线追踪,没有任何东西是预先渲染和烘焙的,汽车的部件和关节单独建模,它们的物理属性影响驾驶动态。环境中的事物不是静态道具,而是刚体、布和流体仿真。烟、火和灰尘是体积仿真。未来的游戏将是仿真的。Racer X在一个单一的GPU上运行。在近四分之一个世纪前引入可编程着色GPU彻底改变了3D图形,创造了一个具有无限可能的媒介。 在SIGGRAPH 2018上,我们推出NVIDIA RTX,这个新的GPU架构通过2个新的处理器扩展了可编程着色器。Rt core加速实时光线追踪。Tensor核心处理深度学习的核心矩阵操作。Rtx为计算机科学家打开了一个新的领域,出现了大量的新算法。RTX 神经网络渲染的新时代已经开始。今天,我们发布第三代RTX的Ada Lovelace,以数学家Ada Lovelace命名,她通常被认为是世界上第一个计算机程序员。Nvidia工程师与台积电紧密合作,创造了为GPU优化的4N工艺,集成76,000,000,000个晶体管和超过18,000个CUDA核心,比安培一代多出70%。Ada涉及3个RTX处理器都有更新。 1.新的流媒体多处理器, 90 tflops的全新SM多单元流处理器超过前一代的2倍。Ada的SM包括着色器执行重排(SER),它在飞行中重新安排工作,使速度提高2至3倍。SER是一项和CPU乱序执行一样的重大创新。2.新的RT核心,两倍于光线和三角形求交性能,以及两个重要的新硬件单元、一个新的不透明微图引擎,将光线追踪的Alpha-test性能提高了2倍。一个新的micro-mesh引擎在不增加BVH构建和存储成本的情况下,增加了几何学的丰富性。3.一个新的张量核心,带有Hopper Fpa变换器引擎和1.4 petaflops的张量处理。原始光线追踪的性能不足以确保高帧率。光线追踪很难并行处理,因为光线会在各个方向上反弹,并与各种类型的表面相交。Gpu高度并行并且在同时处理类似的工作时效率最高,光线追踪的工作负载导致不同的线程处理不同的着色器。SER通过实时重新安排着色器工作负载来提高执行效率,以更好地利用GPU资源。光线追踪方面有高达2到3倍的增长,整体游戏性能有25%的增长。像加 速计算一样,计算机图形是一个全栈挑战。突破需要架构和设计以及算法方面的创新。例如,Nvidia的RTX GI使用光线追踪来做实时的、多反弹的间接照明。RTXDI使用光线追踪来做直接照明计算光线投影,RTXDI用于发光表面。视频实时去噪器(NRD)是一种空间时域去噪技术,它采用不完整的光线追踪图像,并推断出地面真相,减少所需的光线数量。DLSS深度学习超级分辨率是我们最伟大的成就之一。光线追踪需要极其庞大的计算量。一部CGI电影的每一帧都需要几个小时的时间来渲染。Nvidia RTX为世界打开了实时光线追踪的大门。RTcore可以进行BVH遍历和光线-三角形相交测试,这使SMS无需在每个光线上花费成千上万的指令。但是游戏的帧率仍然太低。 DLSS使用卷积自动编码器人工智能模型,以低分辨率的当前帧和高分辨率的上一帧为基础,逐像素预测高分辨率的当前帧。人工智能模型被训练来预测一个16K的超高分辨率参考图像。预测的图像和参考图像之间的差异被用来训练神经网络。这个过程要重复数万次,直到网络能够预测出高质量的图像。Ada推出DLLS 3,这是一种新的人工智能,可以生成全新的帧,而不仅仅是像素。DLSS3包含四个组件:新的光流加速器、游戏引擎运动矢量、卷积自动编码AI生成器以及REFLEX超低延迟流水线。DLSS3会处理新帧和上一帧,以了解场景变化情况,光流加速器为神经网络提供了像素级的帧到帧的运动方向和速度信息,此后通过综合游戏中的帧以及几何图形和像素的运动矢量并将其输入神经网络,就能计算出中间帧了。DLSS3在不涉及图形管线处理的前提下生成全新的帧,相较于单纯的渲染提升了游戏性能4倍。DLSS3可独立与游戏内容直接生成全新帧,因此这项技术可以令无论是对GPU性能要求高的游戏和受到CPU限制的游戏都将从中受益。对于受到CPU限制的游戏(例如物理计算密集型游戏或大型场景游戏)DLSS3令ada GPU能够为玩家带来远高于CPU可计算的帧率。DLSS3是我们最好的神经网络渲染创新之一。 这是借助SER和DLSS3在全机制光线追踪模式下展示的“赛博朋克2077”(video)用当下的先进图形技术展示未来世界需要的计算能力难以想象。在现代游戏,我们对每个像素执行超过6000次光线追踪来确定光照,相较于4年前我们首次引入实时光线追踪技术提升16倍。但是GPU中负责此了计算的晶体管数量并没有增加,这就是RTX的强大之处,借助AI在4年内将性能提升16倍。一些像素通过计算得出,大多数则是预测得出。我们来欣赏一下“微软模拟飞行”这款游戏,因现实的物理属性和游戏世界受到GPU的限制,是历史最悠久的系列游戏之一,今年是其发行的40周年。在ada和DLSS3的加持下运行丝滑。我们推出“传送门”rtx款,nividia lightspeed studios 使用omniverse重置了“传送门”,其兼具怀旧和未来感。“传送门”rtx款是一款游戏MOD,使 用omniverse搭建。MOD是手中庞大的游戏文化,人们都是创作者,有很多modders,打造游戏mod。十款最热门竞技游戏中九个是MOD。我们为mod打造了RTX Remix 的omniverse应用,启动游戏并将其捕获到已加载至omniverse的USD文件中。这里展示的是一款有名的改装游戏。一旦进入RTX Remix既可以使用AI辅助工具及包含的深度学习模型来提升纹理和素材的分辨率,也可以使用AI模型把材质转化为既有物理属性的材质。同时RTX Remix创意工具生态系统可用于增强游戏素材。完成后导出RTX mod包即可游戏。RTX Remix是非常出色的技术和先进的mod工具,“传送门”rtx和RTX Remix将在ADA发布后不久推出。RTX神经渲染算法可在可编程着色器、RT core和Tensor core上运行来创建图像。总的来说,Ada的性能相比于AMPERE实现了巨大的突破。ADA可实现2倍的传统光栅化游戏性能提升对光线追踪游戏性能提升4倍。ADA有惊人能耗表 现,相较于ampere2倍的性能提升,实验室中ADA超频到3G Hz以上。RTX从新定义图形。现在ADA正在为完全基于仿真的游戏铺路。今天我们推出采用NIVIDIA Ada Lovelace架构的GPU——GeForce RTX 4090:支持着色器执行重排序的全新SM多单元流处理器、支持opacity micromap engine和micro-mesh engine的全新RT core,支持FP8 Transformer Engine的全新Tensor core,一个用于DLSS3像素处理的300投片上光流加速器。总的来说处理吞吐量提升四倍。相较于目前的旗舰GPU3090ti ,GeForce RTX 4090使得模拟飞行速度提升2倍,传送门速度提升3倍,RacerX速度提升4倍。GeForce RTX 4090建议零售价1599美元,10月12日上市。GeForce RTX 4080提供16gb和12gb版本,RacerX上RTX 4080性能是RTX 3080ti的三倍,建议零售价899美元。 30系列GPU起售价329美元,这是为主流游戏玩家提供的最优质GPU。RTX 4090&4080 GPU起售价899美元。ADA lovelace架构改进了所有三个RTX处理器即神经渲染引擎。ADA对游戏玩家是一次巨大飞跃,为在omniverse等全模拟仿真世界的创作者铺平道路。互联网的下一次演化称为元宇宙,由3d技术实现扩展。今天互联网连接了html的网站,用户通过浏览器进行查看。 元宇宙连接了以usd描述的虚拟3d世界,用户可用过模拟引擎进行查看。Omniverse是用来构建和运行元宇宙的平台。无论数字世界和现实世界在何处交汇,omniverse都能发挥作用。Omniverse的重要用途是机器人开发。在这里AI和物理世界交汇。Omniverse是一个全新平台,是实时的大型数据库、可共享的3d世界。Omniverse是基于USD构建的网络,连接了3d世界。Omniverse式计算平台可以编写运行的应用,这些应用是进入omniverse虚拟世界的门户。我们将发布omniverse的重大更新,支持ADA lovelace GPU,在光线追踪和大型场景性能方面实现巨大飞跃。基于GAN和扩散模型的新型神经渲染工具。Omnigraph是一个图形执行引擎,可通过程序化的方式控制行为。Omniverse physics的重大更新用来处理复杂得多连接部件对象的运动情况。全新的cloud XR,支持在VR中实现ADA的强大光线追踪能力,首个用于合成数据和数字孪生模拟的SimReady素材库。Replicator是备受青睐的omniverse应用之一用来合成数据,从而训练自动驾驶汽车、机器人和各种计算机视觉模型。新的omniverseJT连接器是一款大型应用。Siemens发明了JT,这是产品生命周期 管理的行业标准语言,也是NX、Creo、CATIA和inventor等CAD系统的互操作格式。JT连接器使得工业和制造业可以使用omniverse。Omniverse是一个企业平台适用于从移动产品设计和造型到工程策划、制造营销和运营的整个产品生命周期。无论是制作游戏或电影、生产汽车或任何消费品还是建立运营工厂和仓库核心都是复杂的3D制作流程。在不同团队工作的专业设计师会采用不同工具传递工作事项,公司会储存不同数据格式。视觉特效制作流程会采取5到7种工具每种都用于工作流的特定方面,例如建模绑定动画或模拟。DNEG是一家备受赞誉的视觉特效和动画工作室,在工作流中采用Autodesk Maya、sidefx Houdini、Adobe substance3D、和foundry nuke。omniverse连接了3D世界。 借助omniverse,DNEG的创作者能通过不同工具采集全保真度数据,并在共享的omniverse世界中开展交互式协作。团队可以创建自定义的3D制作流程,采取简便的开箱即用型omniverse工具来编排和管理复杂的工作流。这些omniverse功能对几乎所有行业都至关重要。Nividia racerx由30位艺术家创建而成,采用11种工具支持跨12个时区开展协作,他们仅在3个月内完成创建