您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [未知机构]:NVIDIA 张量核心演进20250624 - 发现报告

NVIDIA 张量核心演进20250624

2025-06-24 未知机构 小酒窝大门牙
报告封面

NVDATensorCoreEvoution:FromVotaToBackwe//AmdahʼsLaw,StrongScaing, AsynchronousExecution,Backwe,Hopper,Ampere,Turing,Vota,TMA NVDATensorCore演进史:从Vota到Backwe——阿姆达尔定律、强扩展性、异步执行、Backwe、Hopper、Ampere、Turing、Vota、TMA 21minutes 21分钟Nocomments无评论Byand作者:DyanPate与KimboChenDyanPateKimboChen nour,wediscussedhowmutipestacksofAscaingawshavecontinuedtodrivetheAindustryforward,enabinggreaterthanMooreʼsLawgrowthinmodecapabiitiesasweasacommensurateyrapidreductioninunittokencosts.Thesescaingawsaredrivenbytrainingandinferenceoptimizationsandinnovations,butadvancementsincomputecapabiitiestranscendingMooreʼsLawhaveasopayedacriticaroe.AScaingLawsarticefromateastyear 在我们去年末发表的《A扩展定律》一文中,我们探讨了多重A扩展定律如何持续推动人工智能行业发展,使模型能力的提升速度超越摩尔定律,同时单位token成本也相应快速下降。这些扩展定律由训练和推理的优化与创新驱动,但超越摩尔定律的计算能力进步同样发挥了关键作用。 Onethisfront,intheAScaingLawsartice,werevisitedthedecades-ongdebatearoundcomputescaing,recountingtheendofDennardScaingintheate2000sasweastheendofcassicMooreʼsLawpacecostpertransistordecinesbytheate2010s.Despitethis,computecapabiitieshavecontinuedto improveatarapidpace,withthebatonbeingpassedtoothertechnoogiessuchas,,andspeciaizedarchitecturessuchastheGPU.advancedpackagingDstacking newtransistortypes 在《A扩展定律》文章中,我们重温了这场持续数十年的计算扩展之争,回顾了2000年代末丹纳德缩放定律的终结,以及2010年代末经典摩尔定律下晶体管成本下降速度的终止。尽管如此,计算能力仍以惊人速度持续提升,接力棒已传递给先进封装、D堆叠、新型晶体管以及GPU等专用架构技术。 WhenitcomestoAanddeepearning,GPUcomputecapabiitieshaveimprovedatafasterthanMooreʼsawpace,consistentydeiveringremarkabe“ˮperformanceimprovementsyearafteryear.ThetechnoogythatisattheheartofdrivingthisimprovementistheTensorCore.HuangʼsLaw 在人工智能和深度学习领域,GPU计算能力的提升速度已远超摩尔定律,年复一年地展现出惊人的"黄氏定律"性能跃升。而推动这一进步的核心技术正是张量核心(TensorCore)。 ThoughtheTensorCoreisunquestionabythebedrockuponwhichthefoundationsofmodernAandmachineearningarebuit,itisnotweunderstood,evenbymanyexperiencedpractitionersinthefied.TherapidevoutionofGPUarchitectureandprogrammingmodesthatrunonthisarchitecturemeansthatitisincreasingychaengingforMachineLearningresearchersandscientiststokeepupwiththeatestchangestoTensorCoresandgrasptheimpicationsofthesechanges. 尽管张量核心无疑是现代人工智能和机器学习发展的基石,但即使该领域许多经验丰富的从业者,对其理解也未必深入。GPU架构及其编程模型的快速迭代,使得机器学习研究者和科学家越来越难以跟上张量核心的最新变革,并充分理解这些变化带来的影响。 Source:SemiAnaysis,HC202K2HardwareforDeepLearning 来源:SemiAnaysis,HC202K2:深度学习硬件专题 nthisreport,wewiintroducethecorefeaturesofthemajordatacenterGPUs,firstexpainingimportantfirstprincipesofperformanceengineering.WewithentracetheevoutionofNvidiaʼsTensorCorearchitecturesandprogramming modes,highightingthemotivationsbehindthisevoution.OurendgoaistoprovidearesourceforunderstandingNvidiaʼsGPUarchitectureandofferintuitiveinsightsintotheirarchitecturaevoution.OnyafterexpainingeacharchitecturecanweexpainthebeautyoftheBackwetensorcoreandthenewmemoryhierarchyofit. 在本报告中,我们将介绍主流数据中心GPU的核心特性,首先阐释性能工程学中的重要基础原理。随后追溯英伟达TensorCore架构与编程模型的演进历程,着重分析其迭代背后的驱动因素。我们的最终目标是提供理解英伟达GPU架构的知识资源,并对其架构演进给予直观解读。唯有在详解各代架构之后,方能阐释Backwe张量核的精妙之处及其新型内存层次结构。 tisimportantthatweexpainthatasoidgraspofcomputerarchitectureisaprerequisiteforbeingabetofoowmanyoftheexpanationsanddiscussionsinthisartice,andthisarticewiprovideabriefsectionaboutCUDAprogrammingasarefresherratherthanexpainingfoundationaconceptsofGPUarchitecture.nstead,webuidontheforefrontofTensorCoreknowedge,extendingunderstandingofthiscutting-edgetechnoogybydocumentingwhatiscurrentytribaknowedgeintoaccessibe,structuredinsightthroughdetaiedexpanation. 需要特别说明的是,扎实的计算机体系结构知识是理解本文诸多论述的前提条件。本文将以CUDA编程的简要章节作为知识回顾,而非从头讲解GPU架构基础概念。相反,我们将立足张量核技术前沿,通过系统化解析将当前行业内的经验性认知转化为可被广泛理解的结构化洞见,从而拓展对这项尖端技术的认知边界。 Justasauniversitywiteach101coursesasweas000evecourses,differentarticesatSemiAnaysiswicatertovaryingevesofunderstandingofthesubjectmatterasweastoreadersindifferentvocationsandspeciaizations. 正如大学会同时开设基础课程与高阶课程,SemiAnaysis的不同文章也将兼顾读者对主题的理解深度差异,并服务于不同职业背景的专业人士。 Wewoudikethankourcoaborators: 我们要特别感谢以下合作者: JayShah,CofaxResearch:TerrificCUTLASStutoriasandnumerousmeetingsmeticuousycheckingthetechnicadetais JayShah(CofaxResearch):出色的CUTLASS教程指导,以及多次会议中对技术细节的严谨核查 BenSpector,StanfordHazyResearch:Offeredgreatinsightsintoprogrammingmodechangeandwritingadvice BenSpector(斯坦福大学Hazy研究中心):对编程模型变革的深刻见解及写作建议 TriDao,PrincetonandTogetherARevieweddraftsandgavedetaiedfeedback 普林斯顿大学与TogetherA的TriDao:审阅草稿并提供详细反馈 NeiMovva,TogetherARevieweddraftsandofferedinsightsintoGPUkernewriting TogetherA的NeiMovva:审阅草稿并提供GPU内核编写方面的见解 CharesFrye,Moda:PedagogicaGPUGossaryandgenerareviewofthedraft Moda的CharesFrye:编写GPU术语教学指南并对草稿进行全面审校 SimonGuo,StanfordHazyResearch:ustratorofthecoverimage 斯坦福大学HazyResearch的SimonGuo:封面图片绘制 NVDASharedcontextaroundtheprogressionofTensorCoredesigns.Teamsincude: NVDA:关于TensorCore设计演进历程的共享背景。相关团队包括: anBuck,CUDA架构发明者 JonahAben,HeadofGPUArchitectureandEngineering JonahAben,GPU架构与工程负责人 ManyotherGPUwizards 众多其他GPU技术专家 SemiAnaysiswibepostingexcusivecontentonandsta