行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

NVIDIA 张量核心演进20250624

2025-06-24 未知机构小酒窝大门牙

核心观点

多重扩展定律推动 AI 行业发展：多重扩展定律持续推动 AI 行业发展，使模型能力提升速度超越摩尔定律，同时单位 token 成本快速下降。计算能力进步超越摩尔定律也发挥了关键作用。
GPU 计算能力提升速度远超摩尔定律：在人工智能和深度学习领域，GPU 计算能力的提升速度已远超摩尔定律，年复一年地展现出惊人的“黄氏定律”性能跃升。而推动这一进步的核心技术正是张量核心（Tensor Core）。
张量核心是现代 AI 和机器学习的基石：尽管张量核心是现代 AI 和机器学习发展的基石，但即使该领域许多经验丰富的从业者，对其理解也未必深入。
报告目标：介绍主流数据中心 GPU 的核心特性，阐释性能工程学中的重要基础原理，追溯英伟达 Tensor Core 架构与编程模型的演进历程，着重分析其迭代背后的驱动因素，提供理解英伟达 GPU 架构的知识资源，并对其架构演进给予直观解读。

关键数据

阿姆达尔定律：对于固定规模的问题，通过增加计算资源并行化所能获得的最大加速比由阿姆达尔定律规定，最大性能提升比为 S / (S + p)，其中 S 代表并行工作的执行时间，p 表示可并行化工作的加速比。
强扩展与弱扩展：强扩展指通过增加计算资源来解决固定规模问题，弱扩展则指通过增加计算资源在恒定时间内解决更大规模的问题。
伏特架构：伏特架构的 Tensor Core 是在开发后期才加入的，每个流式多处理器(SM)包含 8 个张量核心，每组包含 2 个核心，每个核心每周期可完成等效 1024 次矩阵乘法运算，相当于每个 SM 每周期实现 1024 次浮点运算。
安培架构：安培架构每个 SM 配备 128 个 Tensor Core，每个核心每周期可执行 512 次浮点运算，使得每个 SM 每周期可完成 20MB 次稠密浮点运算，性能较伏特架构提升一倍。安培架构支持异步数据拷贝，通过 PTX 指令 cp.async 实现。
霍珀架构：霍珀架构新增了线程块集群（Thread Block Cluster），对应物理位置上同属一个图形处理集群（GPC）的 SM 组。每个流式多处理器(SM)中加入了张量内存加速器(TMA)，可加速全局内存与共享内存间的大批量数据异步传输。Hopper 架构支持新型 warp 级同步矩阵乘累加运算（wgmma），支持更丰富的运算形态，例如混合精度 MMA 支持 m64nNk16。
布莱克威尔架构：布莱克威尔架构引入了张量内存（TMEM），专为张量核心运算设计，每个 SM 中的 TMEM 包含 128 行（通道）和 512 列 32 字节存储单元，总容量达 25KB。第五代 Tensor Core 支持微缩浮点格式（MXFP），包括 MXFP8、MXFP16 和 MXFP32。

研究结论

张量核心规模增长：历经数代演进，英伟达对张量核心规模的扩展策略比对核心数量的提升更为激进，这源于张量核心的规模扩展更契合矩阵乘法运算的性能特性。
编程模型演变：NVDA 在张量核心编程中转向了单 CTA 占用率方案，因为他们选择对矩阵乘法采用强扩展策略。同时，编程模型演变得更加显式异步化，通过软件流水线等技术实现数据加载与计算的重叠执行。
数据类型精度缩减：NVDA 持续引入更低精度的数据类型，从 1 位逐步下探至 32 位，以实现更高的计算吞吐量和更低的功耗。
结构化稀疏性：安培架构引入了 2x 结构化稀疏特性，理论上可使张量核心吞吐量翻倍。但实际应用中，由于结构化剪枝时保持模型精度的困难、cuSPARSELt 核未充分优化以及热设计功耗限制，其效果未达预期。

NVDATensorCoreEvoution:FromVotaToBackwe//AmdahʼsLaw,StrongScaing, AsynchronousExecution,Backwe,Hopper,Ampere,Turing,Vota,TMA NVDATensorCore演进史：从Vota到Backwe——阿姆达尔定律、强扩展性、异步执行、Backwe、Hopper、Ampere、Turing、Vota、TMA 21minutes 21分钟Nocomments无评论Byand作者：DyanPate与KimboChenDyanPateKimboChen nour,wediscussedhowmutipestacksofAscaingawshavecontinuedtodrivetheAindustryforward,enabinggreaterthanMooreʼsLawgrowthinmodecapabiitiesasweasacommensurateyrapidreductioninunittokencosts.Thesescaingawsaredrivenbytrainingandinferenceoptimizationsandinnovations,butadvancementsincomputecapabiitiestranscendingMooreʼsLawhaveasopayedacriticaroe.AScaingLawsarticefromateastyear 在我们去年末发表的《A扩展定律》一文中，我们探讨了多重A扩展定律如何持续推动人工智能行业发展，使模型能力的提升速度超越摩尔定律，同时单位token成本也相应快速下降。这些扩展定律由训练和推理的优化与创新驱动，但超越摩尔定律的计算能力进步同样发挥了关键作用。 Onethisfront,intheAScaingLawsartice,werevisitedthedecades-ongdebatearoundcomputescaing,recountingtheendofDennardScaingintheate2000sasweastheendofcassicMooreʼsLawpacecostpertransistordecinesbytheate2010s.Despitethis,computecapabiitieshavecontinuedto improveatarapidpace,withthebatonbeingpassedtoothertechnoogiessuchas,,andspeciaizedarchitecturessuchastheGPU.advancedpackagingDstacking newtransistortypes 在《A扩展定律》文章中，我们重温了这场持续数十年的计算扩展之争，回顾了2000年代末丹纳德缩放定律的终结，以及2010年代末经典摩尔定律下晶体管成本下降速度的终止。尽管如此，计算能力仍以惊人速度持续提升，接力棒已传递给先进封装、D堆叠、新型晶体管以及GPU等专用架构技术。 WhenitcomestoAanddeepearning,GPUcomputecapabiitieshaveimprovedatafasterthanMooreʼsawpace,consistentydeiveringremarkabe“ˮperformanceimprovementsyearafteryear.ThetechnoogythatisattheheartofdrivingthisimprovementistheTensorCore.HuangʼsLaw 在人工智能和深度学习领域，GPU计算能力的提升速度已远超摩尔定律，年复一年地展现出惊人的"黄氏定律"性能跃升。而推动这一进步的核心技术正是张量核心(TensorCore)。 ThoughtheTensorCoreisunquestionabythebedrockuponwhichthefoundationsofmodernAandmachineearningarebuit,itisnotweunderstood,evenbymanyexperiencedpractitionersinthefied.TherapidevoutionofGPUarchitectureandprogrammingmodesthatrunonthisarchitecturemeansthatitisincreasingychaengingforMachineLearningresearchersandscientiststokeepupwiththeatestchangestoTensorCoresandgrasptheimpicationsofthesechanges. 尽管张量核心无疑是现代人工智能和机器学习发展的基石，但即使该领域许多经验丰富的从业者，对其理解也未必深入。GPU架构及其编程模型的快速迭代，使得机器学习研究者和科学家越来越难以跟上张量核心的最新变革，并充分理解这些变化带来的影响。 Source:SemiAnaysis,HC202K2HardwareforDeepLearning 来源：SemiAnaysis，HC202K2：深度学习硬件专题 nthisreport,wewiintroducethecorefeaturesofthemajordatacenterGPUs,firstexpainingimportantfirstprincipesofperformanceengineering.WewithentracetheevoutionofNvidiaʼsTensorCorearchitecturesandprogramming modes,highightingthemotivationsbehindthisevoution.OurendgoaistoprovidearesourceforunderstandingNvidiaʼsGPUarchitectureandofferintuitiveinsightsintotheirarchitecturaevoution.OnyafterexpainingeacharchitecturecanweexpainthebeautyoftheBackwetensorcoreandthenewmemoryhierarchyofit. 在本报告中，我们将介绍主流数据中心GPU的核心特性，首先阐释性能工程学中的重要基础原理。随后追溯英伟达TensorCore架构与编程模型的演进历程，着重分析其迭代背后的驱动因素。我们的最终目标是提供理解英伟达GPU架构的知识资源，并对其架构演进给予直观解读。唯有在详解各代架构之后，方能阐释Backwe张量核的精妙之处及其新型内存层次结构。 tisimportantthatweexpainthatasoidgraspofcomputerarchitectureisaprerequisiteforbeingabetofoowmanyoftheexpanationsanddiscussionsinthisartice,andthisarticewiprovideabriefsectionaboutCUDAprogrammingasarefresherratherthanexpainingfoundationaconceptsofGPUarchitecture.nstead,webuidontheforefrontofTensorCoreknowedge,extendingunderstandingofthiscutting-edgetechnoogybydocumentingwhatiscurrentytribaknowedgeintoaccessibe,structuredinsightthroughdetaiedexpanation. 需要特别说明的是，扎实的计算机体系结构知识是理解本文诸多论述的前提条件。本文将以CUDA编程的简要章节作为知识回顾，而非从头讲解GPU架构基础概念。相反，我们将立足张量核技术前沿，通过系统化解析将当前行业内的经验性认知转化为可被广泛理解的结构化洞见，从而拓展对这项尖端技术的认知边界。 Justasauniversitywiteach101coursesasweas000evecourses,differentarticesatSemiAnaysiswicatertovaryingevesofunderstandingofthesubjectmatterasweastoreadersindifferentvocationsandspeciaizations. 正如大学会同时开设基础课程与高阶课程，SemiAnaysis的不同文章也将兼顾读者对主题的理解深度差异，并服务于不同职业背景的专业人士。 Wewoudikethankourcoaborators: 我们要特别感谢以下合作者： JayShah,CofaxResearch:TerrificCUTLASStutoriasandnumerousmeetingsmeticuousycheckingthetechnicadetais JayShah（CofaxResearch）：出色的CUTLASS教程指导，以及多次会议中对技术细节的严谨核查 BenSpector,StanfordHazyResearch:Offeredgreatinsightsintoprogrammingmodechangeandwritingadvice BenSpector（斯坦福大学Hazy研究中心）：对编程模型变革的深刻见解及写作建议 TriDao,PrincetonandTogetherARevieweddraftsandgavedetaiedfeedback 普林斯顿大学与TogetherA的TriDao：审阅草稿并提供详细反馈 NeiMovva,TogetherARevieweddraftsandofferedinsightsintoGPUkernewriting TogetherA的NeiMovva：审阅草稿并提供GPU内核编写方面的见解 CharesFrye,Moda:PedagogicaGPUGossaryandgenerareviewofthedraft Moda的CharesFrye：编写GPU术语教学指南并对草稿进行全面审校 SimonGuo,StanfordHazyResearch:ustratorofthecoverimage 斯坦福大学HazyResearch的SimonGuo：封面图片绘制 NVDASharedcontextaroundtheprogressionofTensorCoredesigns.Teamsincude: NVDA：关于TensorCore设计演进历程的共享背景。相关团队包括： anBuck，CUDA架构发明者 JonahAben,HeadofGPUArchitectureandEngineering JonahAben，GPU架构与工程负责人 ManyotherGPUwizards 众多其他GPU技术专家 SemiAnaysiswibepostingexcusivecontentonandsta

点击免费查看完整报告

你可能感兴趣

NVIDIA 张量核心演进20250624

核心观点

关键数据

研究结论

你可能感兴趣

英伟达黄仁勋GTC 2025大会（NVIDIA GTC 2025）演讲核心要点：AI工厂、机器人革命与算力的未来

现代化金融核心系统白皮书：核心系统基于云向现代化演进的展望与路径实践

智能汽车产业专题报告（智能座舱&智能驾驶、高阶智驾技术路线的演进、核心车企的智驾配置情况等）

5g 高级时代：5g 演进对移动核心的重要性

东北计算机上游核心通胀在ccl铜箔lowdk产品高阶化演进核心看Q布