您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国盛证券]:国产算力佼佼者,昇腾产业链有望受益 - 发现报告

国产算力佼佼者,昇腾产业链有望受益

电子设备2025-05-06郑震湘、佘凌星、刘嘉元国盛证券肖***
AI智能总结
查看更多
国产算力佼佼者,昇腾产业链有望受益

软硬件协同,构建昇腾强大生态体系。昇腾计算产业构建了涵盖多方的强大生态,其软硬件系统包含硬件体系、基础软件和应用使能。硬件体系以达芬奇架构为基石,从单卡到集群形成完善矩阵,Ascend910等芯片性能 出色;软件方面,昇腾CANN对标英伟达CUDA,提供高性能算子库和多种开发方式,MindSpore开源框架助力高效开发;应用使能的MindX通过 “2+1+X”模式,降低行业开发门槛,推动昇腾计算成为全场景AI基础 设施。 集群能力显著提升,CloudMatrix 384规模上线。昇腾产品矩阵完善, 能全面适配DeepSeek V3/R1系列模型,13家伙伴基于昇腾产品打造一体机,拓展AI应用边界。华为CloudMatrix 384超节点集群已在芜湖数据中心规模上线,其算力规模相比NVL72提升67%,在DeepSeek-R1上可比肩H100部署性能,且性价比提升,未来有望持续优化。UB-Mesh架构降低成本、提升性能,其4D-FM+Clos架构CapEx显著降低,OpEx减少约35%,成本效率提升2.04倍。 国产算力佼佼者,产业链有望受益。2024-2028年中国智算中心市场投资规模预计大幅增长,互联网及云厂商建设的智算中心算力规模占比达35%。在H20出口限制下,国产芯片替代空间广阔。 1)整机:昇腾构建庞大生态伙伴网络,战略级、领先级、优选级等伙伴 基于昇腾产品二次开发,如昆仑技术、华鲲振宇、神州鲲泰、长江计算等企业推出多种服务器产品,应用于多领域。 2)电源:芯片性能升级使功耗提升,带动电源价值量增长。AI服务器供电环节多,GB200 NVL72等对PSU需求提升,Atlas系列服务器电源模块也在升级。泰嘉股份与华为长期合作,杰华特DrMOS和多相控制器产品已量产爬坡。 3)散热:单机柜功耗增加推动液冷技术应用,冷板式液冷和浸没式液冷为主要形式。2026年中国液冷数据中心规模有望达180亿元,浸没式液冷发展迅速。英维克、申菱环境等国产厂商液冷技术收入增长,还有众多液冷基础设施厂商积极布局。 4)连接:AI背板连接器需求旺盛,2025年通信连接器市场规模将达600亿元,外企垄断AI服务器高速连接器市场。华丰科技连接器产品矩阵完善,具备核心技术,有望实现国产替代。 风险提示:技术路线演进风险、研发进展不及预期、资本开支不及预期。 重点标的 股票代码 1、软硬件协同,构建昇腾强大生态体系 全产业链助力,构建昇腾计算产业强大生态。这一生态涵盖学术、技术、公益及商业活动,涉及知识、产品及各类合作伙伴,包括原始设备制造商(OEM)、原始设计制造商(ODM)、独立硬件开发商(IHV)、咨询与解决方案集成商(C&S1)、独立软件开发商(ISV)、云服务提供商(XaaS)等。此外,昇腾的合作伙伴体系还包括服务交付伙伴、人才联盟伙伴(提供培训服务)以及投融资运营伙伴。昇腾计算的基础软硬件是产业核心,也是AI计算能力的来源。华为作为生态核心成员,是基础软硬件系统的主要贡献者。 昇腾计算软硬件包括硬件系统、基础软件和应用使能三部分: 硬件系统:1)基于华为达芬奇内核的昇腾系列处理器;2)基于昇腾处理器的硬件产品,如嵌入式模组、板卡、小站、服务器及集群等。 基础软件体系:1)异构计算架构CANN,涵盖驱动、运行时、加速库、编译器、调试调优工具、开发工具链MindStudio及运维管理工具,向开发者与客户开放;2)AI计算框架,包括开源的MindSpore及其他业界流行框架,支持多种计算框架对接。 应用使能:1)MindX支持上层ModelArts、HiAI等应用使能服务,同时兼容第三方平台;2)行业应用覆盖千行百业,如互联网推荐、自然语言处理、视频分析、图像分类、目标识别、语音识别及机器人等场景;3)支持IaaS、PaaS、SaaS等多种云服务模式,并通过端边云协同能力,推动昇腾计算成为全场景AI基础设施。 图表1:昇腾计算产业生态 1.1硬件体系:从单卡到集群,矩阵完善 华为昇腾硬件体系作为全栈AI计算平台的核心底座,以达芬奇架构为技术基石,构建了覆盖端边云全场景的完整产品矩阵,其从单卡到集群的垂直化布局充分展现了技术纵深和生态协同能力。 当前国产高性能芯片发展迅速,在多个关键指标上展现出显著进步。目前国内自主研发芯片的企业主要包括华为海思、寒武纪、海光信息等,其中华为Ascend910凭借自研Da Vinci架构和较高的能效比,成为国产高性能芯片的代表之一,尤其适用于AI训练和推理场景。其运算能力达512TOPS@INT8,位于国产芯片前列,仅次于平头哥含光800(825TOPS@INT8)。Ascend910性能功耗比为2TOPS/W,与英伟达A100持平,表明其能耗控制能力达到国际主流水平。然而,国产芯片在显存带宽、架构等领域仍需持续提升,以提高全球竞争力。 图表2:主流高性能芯片特性对比 华为达芬奇架构(Da Vinci Architecture)是华为于2018年推出的自主研发AI计算架构,专为人工智能(AI)计算任务设计,如矩阵计算、向量计算、张量计算。其核心目标是以最小的计算代价增加矩阵乘的算力,实现更高的AI能效。 核心设计特点 1)计算单元 昇腾AI处理器的计算核心主要由AI Core构成,包含三种基础计算资源:矩阵计算单元(Cube Unit)、向量计算单元(Vector Unit)和标量计算单元(Scalar Unit),分别负责执行张量、矢量、标量计算。 2)存储系统 为了配合AI Core中数据的传输和搬运,围绕着三种计算资源还分布式的设置了一系列的片上缓冲区,比如用来放置整体图像特征数据、网络参数以及中间结果的输入缓冲区(Input Buffer,IB)和输出缓冲区(Output Buffer,OB),以及提供一些临时变量的高速寄存器单元,这些寄存器单元位于各个计算单元中。输入缓冲区之后设置了一个存储转换单元(Memory Transfer Unit,MTE)。这是达芬奇架构的特色之一,主要的目的是为了以极高的效率实现数据格式的转换。 3)控制单元 控制单元主要包括系统控制模块、标量指令处理队列、指令发射模块、矩阵运算队列、向量运算队列、存储转换队列和事件同步模块。系统控制模块负责指挥和协调AI Core的整体运行模式,配置参数和实现功耗控制等。不同的执行单元可以并行的按照指令来进行计算或处理数据,同一个指令队列中指令执行的流程被称作为指令流水线。事件同步模块时刻控制每条流水线的执行状态,并分析不同流水线的依赖关系,从而解决数据依赖和同步的问题。 图表3:达芬奇架构 1)单卡级产品 华为昇腾加速卡系列是一组高性能的计算加速解决方案,为满足各种人工智能和大数据处理需求而设计。该系列加速卡包括多款不同型号的产品,旨在提供灵活多样的计算能力,以满足不同应用场景下的性能需求。 华为昇腾加速卡采用了先进的处理器架构和高速内存技术,确保了卓越的计算性能和数据处理能力。其中,Ascend系列处理器作为核心计算引擎,提供了强大的AI算力和CPU算力,支持多种算法和模型的高效运行。同时,这些加速卡还支持多种视频编解码格式和JPEG图片编解码,进一步扩展了它们在多媒体处理领域的应用范围。在硬件规格方面,华为昇腾加速卡提供了丰富的选择,包括不同数量的处理器核心、内存容量和存储容量等配置。这些规格的选择旨在满足不同用户对计算性能和存储容量的需求,确保在各种应用场景下都能获得最佳的性能表现。 图表4:华为昇腾加速卡系列 华为昇腾910 华为昇腾910是一款具有超高算力的AI处理器。它集成了多个基于达芬奇架构的AI核,以及CPU、DVPP和任务调度器等组件,形成了一个高集成度的片上系统(SOC),从而具有自我管理能力,可以充分发挥其高算力的优势。在实际测试中,昇腾910的半精度(FP16)算力达到256TeraFLOPS,整数精度(INT8)算力达到512TeraOPS,且额定TDP仅为300W,能效比表现出色。凭借其强大的算力和高效的能效比,昇腾910在AI训练等场景中展现出了卓越的性能,是华为在AI领域的一项重要技术成果。 图表5:华为昇腾910结构 华为昇腾910B 华为昇腾910B芯片最大功耗400w,配备64GB HBM2e,FP16性能达320TFLOPS。 于2023年推出,采用7+nm制程工艺和华为自主研发的达芬奇架构,最大功耗为400瓦,配备64GB HBM2e高带宽内存。在计算性能方面,该芯片在FP16和INT8精度下表现突出,分别达到320 TFLOPS和640 TFLOPS,适合高吞吐量的人工智能推理和训练场景。整体来看,该芯片展现了华为在AI芯片领域的技术积累,尤其在低精度计算和能效设计方面具备竞争力。 图表6:主流高性能芯片特性对比 图表7:主流高性能芯片特性对比 2)服务器级产品 华为昇腾的服务器系列涵盖了高性能计算、训练和推理等多个领域,其中Atlas800系列和Atlas500Pro系列是其中的重要代表。Atlas800系列服务器专为高性能计算和大规模数据处理而设计,包括多种型号以满足不同场景的需求。例如,Atlas800T推理服务器以其强大的处理能力和高效的资源利用率,在需要高性能推理的应用场景中表现出色。 Atlas500Pro智能边缘服务器则专为边缘计算场景而设计。它紧凑的结构和高效的性能,使得它能够在资源受限的边缘环境中提供强大的计算和推理能力。 图表8:华为昇腾服务器系列 3)AI集群 Atlas 900 A2 PoD支持高达50.5kW的最大功耗。其中Atlas 900A2 PoD支持256个DDR4内存插槽,内存带宽最高可达3200MT/s,确保了数据的高速读写和高效处理。而Atlas 900 AI集群则整合了HCCS、PCIe 4.0和100G RoCE三种高速连接接口,不仅提供了高效的数据传输通道,还支持多种网络通信协议和存储协议,方便用户根据实际需求进行灵活配置和扩展。在功耗和散热方面,华为昇腾AI集群系列采用了先进的液冷散热技术,不仅有效降低了加速卡在工作过程中的温度,还提高了系统的稳定性和可靠性。 同时,Atlas 900 A2 PoD还支持高达50.5kW的最大功耗,确保了在高负载情况下的稳定运行。 图表9:华为昇腾AI集群 1.2软件:昇腾CANN提供高性能算子库 英伟达CUDA((Compute Unified Device Architecture)将GPU从专用的图形处理器转变为通用并行计算功能的平台。2006年,英伟达推出了第一款支持通用运算的显卡GeForce 8800 GTX,并在不久后推出了CUDA。从此以后,原本只是图像渲染用的显卡开始在其他领域大放异彩。CUDA核心思想是将异构计算平台(如CPU和GPU)抽象为统一的编程模型,使得开发者能够使用熟悉的C/C++语言来编写同时针对CPU和GPU的程序,而无需深入了解底层硬件的复杂细节。CUDA通过提供一系列的API和库函数,使得程序员可以轻松地将计算任务分配给最适合的设备,从而充分发挥异构计算系统的性能优势。 CUDA扩展GPU的并行计算能力,构建英伟达护城河。如AI、深度学习、大数据分析、科学计算等多个领域。例如,英伟达的A100、V100等GPU通过CUDA提供了巨大的计算加速,成为AI训练、推理以及科学模拟等领域的核心计算引擎。像GPT-3等大规模语言模型的训练,就依赖于CUDA加速的英伟达GPU实现高效的并行计算。英伟达每款GPU(如(Tesla、A100、RTX系列等)都经过CUDA优化,使得它们能够在多个应用领域中发挥卓越的性能。这种软硬件的深度集成是英伟达产品线能够保持市场领先的关键所在,确保硬件和软件的无缝协作,增强了市场的依赖性和用户粘性,被称为英伟达的“CUDA护城河”。 图表10:CUDA在计算体系中的层级示意 华为昇腾CANN是针对AI场景推出的异构计算架构,