您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华为]:华为算力专题报告:昇腾鲲鹏构筑国内算力第二极 - 发现报告

华为算力专题报告:昇腾鲲鹏构筑国内算力第二极

信息技术2023-12-27华为欧***
AI智能总结
查看更多
华为算力专题报告:昇腾鲲鹏构筑国内算力第二极

——昇腾鲲鹏构筑国内算力第二极 行业评级:看好2023年12月 李佩京lipeijing@stocke.com.cnS1230522060001 分析师邮箱证书编号 分析师邮箱证书编号 刘雯蜀liuwenshu03@stocke.com.cnS1230523020002 投资要点 AI算力有望在未来三年实现加速国产化,2024年国产AI服务器总规模有望达到400亿 复盘我国超算、普通云计算算力发展史可以发现,从8年前开始,我国的关键芯片行业已从幕后到台前;我们认为整体发展规律上,国产AI算力有望在未来三年实现从“可用”到“好用”再到“主动用”的发展阶段,我们预计2024年国内AI算力总需求有望达到211.50EFlops,其中国产算力需求为98.24EFlops,国产化比例为46.45%,对应国产AI芯片出货量为30.7万张,潜在市场规模约为307亿,折合8卡AI服务器3.84万台,潜在市场规模为409.33亿。 ◼华为昇腾对标英伟达,有望成为国内第二AI算力生态 自2006年推出至今,CUDA已拥有超400万开发人员,下载量累计4000万,在超过3000个应用程序中被广泛部署;华为对标CUDA打造了自己的昇腾生态,凭借完善的生态体系和全场景互联兼容能力,华为昇腾在国产AI芯片中的市占率遥遥领先,IDC数据显示,2022年中国AI加速卡(公开市场)出货量约为109万张,其中英伟达在中国AI加速卡市场份额为85%,华为市占率为10%,百度市占率为2%、寒武纪和燧原科技均为1%,我们预计未来华为昇腾有望成为国内第二AI算力生态。 ◼昇腾生态合作伙伴主要基于华为主板进行迭代,关注现金流更充足、具备多G端场景的标的 基于Atlas系列模组板卡,华为整机伙伴推出了自有品牌服务器,我们认为整机伙伴已经从从“春秋”进入到“战国”阶段,现金流、股东背景、客户资源是关键,具备持续且充足的现金流的公司有望在长期占据第一梯队,可以拿到更多大额订单和头部优质客户的份额,集中度有望上升;一体机可以很大程度上降低软硬件投资成本以及安装维护技术门槛,并且从物理层面上解决了数据安全问题,未来政府端的私有化部署将成为首先放量的需求,具备G端真实场景积累的标的有望获益。 ◼相关标的 (1)关键零部件:华丰科技、卓易信息等;(2)服务器:四川长虹、高新发展、神州数码、中国长城、烽火通信、拓维信息、广电运通、特发信息、同方股份、软通动力等;(3)一体机:云从科技、科大讯飞、医渡科技、安恒信息、中软国际、恒为科技、中软国际、开普云等;(4)软件生态及盘古大模型应用:云天励飞、格灵深瞳、软通动力、北路智控、能科科技、航天宏图、中科星图、超图软件等; ◼风险提示 国际形势变化风险、芯片等关键部件供应风险、下游客户需求总额或释放节奏不及预期、国产替代进程不及预期、技术风险、竞争加剧风险等 2024年国产AI服务器总规模有望达到400亿 我国关键芯片行业已从幕后逐步走向台前 复盘我国超算、普通云计算算力发展史可以发现,从8年前开始,我国的关键芯片行业已从幕后到台前: ➢1)超算领域,2015年4月美国商务部就开始拒绝Intel、AMD等主要厂商向中国出口CPU芯片,此后我国的《“十三五”国家科技创新规划》明确提出要突破超级计算机中央处理器(CPU)架构设计技术,根据前瞻经济学人,2022年中国TOP100高性能计算机中自主研发的集群占95%,至今我国超算行业已进入互联互通及使用率提升阶段; ➢2)云计算领域,2019年开始,我国党政信创大规模启动,以PC为载体的国产算力经历了“可用”到“好用”的政策驱动+产品磨合迭代期,目前已进入八大行业信创客户“主动用”的半政策半市场驱动+性价比提升期。 AI算力有望在未来三年实现加速国产化 我们认为,我国AI算力有望在未来三年实现加速国产化: ➢1)整体发展规律上,国产AI算力有望类似超算、云计算,在未来经历从产品打磨到性价比提升的步骤,以及从“可用”到“好用”再到“主动用”的发展阶段; ➢2)驱动因素上,由于AI的巨大商业化潜力,在美国不断加紧制裁的背景下,市场化驱动力更强;➢3)产品迭代周期上,以华为海思、海光、寒武纪为代表的国产算力厂商基于云计算信创积累的经验,有望实现产品的加速迭代; 2024年国产AI服务器市场规模有望达到400亿 ➢根据我们的《算力框架报告》测算,考虑到我国国产AI芯片供应商的产能供应、生态适配、综合性价比等情况,国内AI芯片与英伟达H100芯片相比仍有一定差距,因此我们认为政策性客户有望逐步全面转向国产AI芯片,商用客户如互联网有望将百亿参数模型的部分训练和推理需求转向国产AI芯片,2024年我国国产芯片主要需求将包括:政府智算中心、运营商、金融、第三方大模型厂商、互联网厂商,我们预计2024年国产AI芯片出货量为30.7万张,潜在市场规模约为307亿,折合AI服务器3.84万台,潜在市场规模为409.33亿。 02 华为昇腾——世界AI算力新星 生态:英伟达基于CUDA构筑坚固生态护城河 ➢CUDA(ComputeUnifiedDeviceArchitecture)生态为从CUDA编程框架发展出的一系列软硬件及扩展体系。底层硬件包括主要负责向量运算的CUDACore(FP32/FP64)以及主要负责低精度浮点运算的Tensor Core(FP16、INT8),软件则包括中层API接口、驱动、编译器以及上层CUDA-X系列算法库(包括cuDNN、cuML、TensorRT、cuDF、cuGraph及其他13个以及超过13个的其他库),基于CUDA软件栈进行第三方应用及工具扩展就形成了广义的CUDA生态体系; ➢生态优势凸显。自2006年推出至今,CUDA已拥有超400万开发人员,下载量累计4000万,在超过3000个应用程序中被广泛部署,目前已经成为全球领先的AI加速计算生态。 生态:对标英伟达,华为昇腾为世界提供AI算力的第二选择 ➢昇腾计算产业:基于昇腾系列(HUAWEI Ascend)处理器和基础软件构建的全栈AI计算基础设施、行业应用及服务,包括昇腾系列处理器、系列硬件、CANN(ComputeArchitectureforNeuralNetworks,异构计算架构)、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链。 ➢华为昇腾AI产业生态包括昇腾AI基础软硬件平台,即Atlas系列硬件、异构计算架构CANN、全场景AI框架昇思MindSpore、昇腾应用使能MindX以及一站式开发平台ModelArts等。基于昇腾910系列板卡,华为推出了AI训练集群Atlas900、AI训练服务器Atlas800、智能小站Atlas500、AI推理与训练卡Atlas300和AI加速模块Atlas200,完成了Atlas全系列产品布局,支持万亿参数大模型训练,同时覆盖云、边、端全场景。 ➢华为提出了具备分层开放、体系协同、敏捷高效、安全可信等特征的,全行业通用的行业智能化参考架构。其中智能底座提供大规模AI算力、海量存储及并行计算框架,支撑大模型训练,提升训练效率,提供高性能的存算网协同。根据场景需求不同,提供系列化的算力能力。适应不同场景,提供系列化、分层、友好的开放能力。另外,智能底座层还包含品类多样的边缘计算设备,支撑边缘推理和数据分析等业务场景。 处理器:神经网络拟合过程需要芯片具备大规模简单计算能力 ➢类GPU芯片更强调并行计算能力,适用于大规模简单计算场景。CPU为顺序执行指令,重点是减少指令执行延迟,将大量芯片面积专门用于可减少指令延迟的功能,例如大缓存、更少的ALU和更多的控制单元;GPU专为大规模并行性和高吞吐量而设计,使用大量SM(流式多处理器)来最大化其计算能力和吞吐量,它们使用非常少量的芯片区域作为缓存和控制单元,使得其具有很高的延迟; ➢神经网络的拟合过程涉及海量的函数运算、对计算资源的要求非常高,类GPU芯片为目前性价比首选。在AI运算中,像素、字符等经常会被转化成为矢量数据进行处理,处理方式主要是MAC(乘积累加)运算,即先做乘法然后再把结果相加循环往复,如在图像识别中每个像素都有一个向量值,这个值要跟权重信息不断相乘相加最终提取出图像特征;GPU由于运算核心为CPU的上百倍,因而更适用于AI运算,如Intel2023年初推出的最新的数据中心处理器第四代至强可扩展处理器(代号Sapphire Rapids)最多支持60核,而Nvidia H100 GPU则有132个SM,每个SM有64个Core,总共有8448个Core; 处理器:英伟达的核心技术——快速设计迭代的微架构 ➢微架构(microarchitecture),是指一种计算机硬件的设计和实现方法,它描述了处理器是如何执行指令集(指令集,即芯片中用来计算和控制计算机系统的一套指令的集合)的,因为同一指令可以通过不同的电路单元或组合来实现,所以同一指令集可以有不同的微架构; ➢英伟达的核心技术之一为微架构的设计和迭代能力。英伟达自2006年首次提出首个通用GPU计算架构——Tesla以来,不断加大研发投入和迭代速度,平均1-2年推出一版新架构;根据JPR,在独立显卡市场中,2023年Q2英伟达市场份额达到了87%。 处理器:华为基于自研达芬奇微架构形成面向AI计算的NPU芯片 ➢昇腾AI处理器为华为以面向AI计算为设计理念的自研达芬奇微架构NPU芯片。与基于存储和处理分离的经典冯·诺伊曼结构GPU(如英伟达A100)不同,华为昇腾芯片将存储和处理一体化,用电路模拟人类的神经元和突触结构,将每个神经元抽象为一个激励函数,该函数的输入由与其相连的神经元的输出以及连接神经元的突触共同决定,使用者通常需要(通过某些特定的算法)调整人工神经网络中突触的取值、网络的拓扑结构等,该过程称为“学习”;因而昇腾AI系列芯片既是NPU(神经网络处理器),也是一个集成了CPU、DVPP以及任务管理器的Soc(高度集成的片上系统),基于该设计理念,单颗昇腾910可以独立完成整个AI的训练流程,最小化与Host的交互,从而充分发挥其算力。 ➢昇腾处理器的AI Core计算单元专门为AI而生。主要包含矩阵计算单元、向量计算单元、标量计算单元和累加器,分别负责完成张量、向量和标量运算:1)矩阵计算单元特意对矩阵计算进行了深度的优化并定制了相应的矩阵计算单元来支持高吞吐量的矩阵处理,可以用一条指令完成两个16*16矩阵的相乘运算,即16^3=4096个乘加运算(因而也称为达芬奇3D Cube技术),并且可以实现FP16的运算精度;2)向量计算单元能够实现向量和标量,或双向量之间的计算,功能覆盖各种基本和多种定制的计算类型,主要包括FP32、FP16、INT32和INT8等数据类型,全面完善了AI Core对非矩阵类型数据计算的能力;3)标量计算单元则相当于一个微型CPU,控制整个AI Core的运行,可以对程序中的循环进行控制,可以实现分支判断,其结果可以通过在事件同步模块中插入同步符的方式来控制AI Core中其它功能性单元的执行流水。 处理器:昇腾支持全场景,性能接近A100,市占率国内领先 ➢昇腾处理器支持全场景。昇腾处理器是全球首个覆盖全场景AI芯片,基于统一的达芬奇架构,可以支持端边云不同场景的差异化算力需求,并具备从几十毫瓦IP到几百瓦芯片的平滑扩展,覆盖了端边云全场景部署的能力: ➢昇腾910训练处理器具有超高算力,FP16下性能最高可达320TFLOPS。昇腾910集成了CPU Core、DVPP和任务调度器(Task Scheduler),可以减少和Host CPU的交互,充分发挥其高算力的优势;还集成了HCCS、PCle 4.0和ROCE v2接口,为构建横向扩展(Scale Out)和纵向扩展(Scale Up)系统提供了灵活高效的方法,科大讯飞创始人、董事长刘庆峰表示华为的GPU能力可以对标英伟达A