您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [东兴证券]:科技龙头巡礼专题(三):国产算力AI芯片专题,一文读懂华为昇腾310芯片 - 发现报告

科技龙头巡礼专题(三):国产算力AI芯片专题,一文读懂华为昇腾310芯片

信息技术 2025-02-21 刘航,李科融 东兴证券 肖峰
报告封面

SECORTES 国产算力AI芯片专题:一文读懂华为昇腾310芯片科技龙头巡礼专(三) 分析师刘航执业证书编号:S1480522060001研究助理李科融执业证书编号:S1480124050020 摘要 Q1:海外龙头复盘:如何看待英伟达的发展历程?英伟达自1993年成立以来,通过战略性的研发和合作,在GPU领域取得显著成就。英伟达公司在1999年上市,2006年推出CUDA平台,使得GPU的应用扩展至数据科学和人工智能等多个领域。2016年,英伟达发布了支持深度学习的超级计算机DGX-1,进一步巩固其在AI时代的领导地位。目前,英伟达在数据中心、游戏、专业可视化和自动驾驶领域拥有广泛的产品和应用。英伟 Q2:华为昇腾的发展情况是怎样的?华为昇腾顺应国家政策指引,推动国内AI计算发展。自2018年起,昇腾先后发布多款AI芯片和开源开发平台,致力于构建国产AI计算解决方案。随着国内AI算力需求快速增长,异腾形成了涵盖基础软件、硬件、开发工具的完整生态系统,并广泛应用于政府、交通、电力等多个行业,异腾在多领域建立了落地应用生态,如A/+自动驾驶、A+医疗等。基于华为的云,网、边、端协同优势,异腾加速推动AI技术在各行业的落地,提升了其产品在市场中的竞争力。 Q3:以算腾310芯片竞为例,异腾芯片有优势有哪些?异腾AI处理器本质上是一个SoC,主要可以应用在和图像、视频、语音、文字处理相关的应用场景。其中AICore是异腾AI芯片的计算核心,主要负责执行矩阵、向量、标量计算密集的算子任务,采用达芬奇架构310芯片集成了2个为A芯片,异构计算架构主要负责调度分配计算到对应的硬件上。算腾的A处理器在算力方面具备一定优势,算腾310芯片主要应用于边缘计算产品和移动端设备等低功耗的领域,从算力上看,异腾910和英伟达A100性能基本上相当,高性能的Atlas系列AI加速卡为数据中心提供强劲算力, 算力中心的适配工作。2025年2月1日,硅基流动与华为云携手宣布联合首发,并正式上线基于华为云异腾云服务的DeepSeekR1V3推理服务 Q5:华为异腾有哪些相关的受益标的?算腾作为AI硬件提供商的积极发展将为相关企业带来优质国产算力升级,助力AI领域的产业落地,AI领华达等。 风险提示:产品研发及拓展不及预期、制造端产能不及预期、国产替代进度不及预期、贸易摩擦加剧。 Q1 海外龙头复盘:如何看待英伟达的发展历程? 1.1如何看待英伟达的发展历程? 英伟达在发展的各个阶段都有前瞻性地做出发展规划,提前布局选择赛道,因此在当下人工智能技术蓬勃发展的阶段,英伟达凭借其优秀的市场表现和领先的技术水平,走在行业的前列。 1.2.英伟达的产品多元,业务分布广阔 主要产品:消费型GPUGeForce系列GeForceRTX30系列GeForceRTX40系列GeForceGTX系列(早期型号) 英伟达提供用于PC端游戏的GeForceRTX和GeForceGTX系列显卡,NvIDIAAdaLovelace架构能够模拟真实世界中的光线特性,借助GeForceRTX40系列显卡和第三代RTCore的强劲性能使游戏体验更加逼真。 借助基于GPU、DPU和CPU三种新一代架构构建的NVIDIA加速计算平台,重塑AI时代的数据中心。英伟达数据中心服务器架构主要有Hopper GPU、Grace CPU和BlueFieldDPU 游戏业务 作为全球出色的专业视觉计算平台,NVIDIARTXGPU-一直在推动建筑和工业设计、高级特效以及复杂的科学可视化等方面的创新。数百万创意人员和技术用户均对NVIDIARTXGPU和NVIDIAQuadro专业解决方案信赖有加。借助适用于专业可视化和远程协作的NVIDIAEGX平台,设计师和工程师可以随时随地处理图形密集的工作负载。该解决方案将高端NVIDIAGPU、NVIDIA 虚拟GPU软件和NVIDIAOmniverse协作平台相结合,可实现强大的视觉计算功能(包括虚拟工作站上的泣染、工程模拟和交互式图形)和远程协作。 英伟达的DRIVEOrinSoC芯片适用于智能汽车的中央计算平台。它能够为自动驾驶功能、置信度视图、数字仪表盘以及AI座舱提供强力支持。DRIVEHyperion架构将基于DRIVEOrin的AI计算与完整的传感器套件集成在一起,能够加速开发、测试和验证过程。 1.3.英伟达成长启示:超前布局+构筑软硬件生态壁垒 英伟达飞速发展,直接原因在于搭上了人工智能的顺风车。之所以英伟达能够利用好这两个风口,根源是其于2006-年决定布局GPGPU(道用目的图形处理器),开发CUDA-平台,使得英伟达的GPU不仅可以用于加速计算、人工智能领域,还自带底层的算法、模型和应用。GPGPU+CUDA的软硬件生态佳为英停达构筑了强大的竞争壁垒。 AGI产业发展提升全球算力需求,英伟达作为算力芯片龙头,凭借超前布局+构筑软硬件生态壁垒在算力芯片领域稳居龙头地位,在AI产业爆发期实现利润及估值双提升。在分析英伟达通过超前布局与软硬件生态壁垒奠定A1芯片霸主地位的基础上,华为异腾的发展路径展现出对这一模式的借鉴与创新。 CUDAToolkit -FreeToolsand Training Q2 华为昇腾的发展背景是怎样的? 2.1.昇腾发展历程:迎合大政方针,引导行业风向 国家大政方针引导向明显: 我国AI芯片市场规模快速扩大: 国务院《“十四”五规划和2035远景目标纲要》工信部等制定《算力基础设施高质量发展行动计划》规划2025年算力水平和智能算力发展目标,积极推进数字中国建设,促进东西部算力平衡协调发展 2021年中国人工智能服务器市场规模达到59.2亿美元,国内市场22-24年增速有望超40%预计到2026年,中国人工智能服务器市场规模将达到123.4亿美元。 昇腾发展背景 国际局势制约国内产业发展: AI计算需求快速增长: 自2012年后,A1计算的总需求量呈现出指数级增长趋势,2021年后,我国智能和通用算力规模也走上迈入增长的阶段,算力水平复合增长率高。 由于外部环境变化,国内芯片市场的供给并不稳定,2020年开启“鹏+异腾”双引擎的计算战略以来,打造国产芯片和国内生态。 推出再腾AI计算架构,包括再腾处理器、并腾AI加速模块和并腾AI开发环境,初步形成AI计算解决方案。 2018年10月发布人工智能推理芯片开腾310、训练芯片并腾910. 2022年Al加速卡Atlas3001推理卡上市。 2.2.昇腾发展现状:产业生态逐渐形成,落地应用案例丰富 2.3.昇腾产业生态建设成果丰硕一丰富的大客户落地经验 2.4.华为计算,系统、大模型快速协同发展成果突出 在云计算领域,华为云基于鲲鹏、昇腾等ICT技术积累,践行“--切皆服务”战略,立足行业数字化“云底座”和“使能器”的定位,以云作为数字经济重要底座,以AI加快重塑千行百业。华为面向金融、汽车、制造、港口等传统行业和各类新兴企业,把在*云一网一边-端-芯”的技术积累,以云服务的方式开放给全球客户,提供包括数据库、iDME、ERP、盘古大模型等众多产品在内的解决方案。 基于异腾丰富的行业经验,在华为异腾、鲲鹏、盘古大模型以及其开源社区的协同发展中,华为异腾作为业内领先的基础硬件的提供方,将进一步发挥重要作用,促进人工智能解决方案在各行落地,促进经济高质量发展 Q3 以异腾310芯片为例,异腾芯片有优势有哪些? 3.1.异腾AI处理器本质上是一个S0C 满足飞速发展的深度神经网络对芯片算力的需求,异腾Al处理器本质上是一个SoC(SystemonChip)。以异腾310Al处理器为例,主要可以应用在和图像、视颁、语音、文字处理相关的应用场景。其主要的架构组成部件包括特制的计算单元、大容量的存储单元和相应的控制单元。该芯片大致可以划为:芯片系统控制CPU(ControlCPU),AI计算引擎(包括AlCore和AlCPU):多层级的片上系统缓存(Cache)或缓冲区(Buffer):数字视觉预处理模块(DigitalVisionPre-Processing,DVPP)等。 Ascend310Al处理器集成了2个AlCore。AlCore是计算核心,负责执行短阵、向量、标量计算的算子任务,AlCPU承担非短阵类复杂计算。Cache&Buffer:SoC片内有层次化的memory结构,Alcore内部有两级memorybuffer,SoC片上还有8MBL2buffer,专用于AlCore、AlCPU,提供高带宽、低延迟的memory访问。芯片还集成了LPDDR4x控制器,为芯片提供更大容量的DDR内存。 3.2.AICore是昇腾AI处理器的计算核心,采用华为自研的达芬奇架构 AICore是异腾AI处理器的计算核心,采用华为自研的达芬奇架构,实现了高通量、大算力和低功耗。达芬奇架构的主要包括:计算单元:包含三种基础计算资源(矩阵计算单元、向量计算单元、标量计算单元):存储系统:AICore的片上存储单元和相应的数据通路构成了存储系统;控制单元:整个计算过程提供了指令控制,相当于AlCore的司令部,负责整个AlCore的运行。在AlCore中,存储单元为各个计算单元提供被转置过并符合要求的数据,计算单元返回运算的结采给存储单元,控制单元为计算单元和存储单元提供指令控制,三者相互协调合作完成计算任务。 达芬奇架构针对AI运算特征而设计,以高性能3DCube计算引擎为基础,实现算力和能效比大幅提升。每个AICore可以在1个时钟周期内完成4096次MAC运算。集成了张量、失量、标量等多种计算单元支持多种混合精度计算,支撑训练和推理两种场景的数据精度要求。统一的架构,可以支得从儿十毫瓦到儿百瓦芯片。 3.3.CANN架构开发对标英伟达CUDA+CuDNN的核心软件层 异构计算架构(CANN)是对标英伟达的CUDA+CuDNN的核心软件层,包括引擎、编译器、执行器、算子库等,承载计算机的单元为AI芯片,异构计算架构主要负责调度分配计算到对应的硬件上。 从层级来看,CAVN_上承AI框架,下接AI处理器硬件,先进的异构架构使得神经网络执行过程的硬件交互时间有效缩短,从而实现对硬件性能的进一步利用。 AscendC算子开发语言CANN针对算子开发场茶出的编程语言。原生支待C和C++标准规范,兼具开发效率和运行性能。自动并行调度,可获得最优执行性能结构化核函教编程,简化算子开发逆解CPU/NPU李生调试,报升算子调试效率。 GE图引季 通过统一的图开发接口提供多种AI框架的支持,不同AI框架的计算图可以实现到Ascend图的转换。图模式下,GE可以通过计算图优化、多流并行、内存复用和模型下沉等技术手段,加速模型抗行效率,减少模型内存占用。 HCCL集会道讯库 AOL耳子加这库提供了一系列车窝的深度优化、硬件亲和的高性能茸子,Neural Network,DigitalVision Pre-Processing算子等为种经网络在异政件上加速计算美定了基础。 支持AllReduce,BroaleastAllGather. ReduceScatterAlltoAll等通信原语,Ring、Mesh- Halving-Doubling(HD)等道信算法,基子HCCS、RoCE和PCle高连路实现集合通信。 毕昇编译器 运行时 毕昇编评器的可热行程序命名为bishcig,衬xB6、aarch64等主机系统,并且原生支待设备侧AICorc架构指令集编译。 供了高效的硬件资源管理、煤媒体数据预处理、单算子加战执行、模型推理等开发接,供开发者轻松构建高性能人工智能应用。 通过使用毕异编详器,用户可以更加高效地进行针对异腾AI处理器的程和开发工作, 3.4.硬件生态发展迅速Ascend310和Ascend910基础芯片族日趋完善 3.5.硬件生态发展迅速一Ascend