您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [国盛证券]:华为算力进展不断 - 发现报告

华为算力进展不断

信息技术 2023-10-17 刘高畅 国盛证券 caddie💞
报告封面

昇腾计算:全栈AI基础设施及应用服务。1)昇腾计算产业基于昇腾系列处理器和基础软件,构建全栈AI计算基础设施、行业应用及服务,包括系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等。2)昇腾310和910处理器为华为AI算力领域核心产品,基于达芬奇架构,覆盖端边云全场景,可满足不同部署环境差异性的算力需求,从算力和功耗来看,目前昇腾910单卡Int8算力大致可达0.6 P,最大功耗为300W。3)基于昇腾910和310 AI处理器,昇腾计算产业在硬件方面坚持“硬件开放”策略,通过自有硬件和合作硬件相结合的方式为客户提供多样化的算力选择。其中,自有硬件主要为Atlas系列硬件产品,包含模组、板卡、小站、服务器、集群等多个产品形态,可广泛用于“平安城市、智能交通、智能医疗、智能零售、智能金融”等领域;合作硬件则为合作伙伴基于Atlas系列硬件进行集成和二次开发,联合打造有竞争力的产品,目前已在机器人、电力巡检等领域落地。 算力为基,乘风而行。1)AI算力需求持续提升:以ChatGPT为代表的大模型落地,标志AI技术落地应用进入全新阶段,并引发训练与推理算力需求激增。华为早在2021年发布盘古大模型,包括自然语言大模型、视觉大模型、多模态大模型、预测大模型、科学计算大模型,提供满足行业场景的多种技能。众多厂商竞相布局大模型,同时大模型自身技术路线也逐步多元化,多模态有望成为重要方向,算力需求未来有望持续释放。2)华为智车持续突破:今年以来,华为自动驾驶ADS 2.0迎来实质性飞跃,可实现无图高阶自动驾驶,而在2023年底则有望在全国范围实现NCA功能。自动驾驶级别的提升目前L2级别的自动驾驶汽车需要10 TOPS左右的算力,L3级别需100 TOPS左,L4级别后算力需求将大幅度提升至1000 TOPS以上。依托昇腾系列芯片,华为MDC平台可赋能多级别自动驾驶场景,为目前已经量产、最大算力、最全系列的智能驾驶计算平台。3)各地算力基建持续推进:近年,通过支持各地AI集群中心和华为云中心的建设,华为积累了丰富的集群交付和部署经验,已经累计部署超千柜昇腾AI集群,是AI集群部署数量最多的厂商。截止2023年7月6日,昇腾AI集群已支撑全国25个城市的人工智能计算中心建设。 4)自主可控加速落地:外部环境错综复杂,全球产业链供应链面临重塑,应换尽换、真替真用共识进一步强化。在此国际大背景下,华为作为中国信创领域巨头,行业大单不断落地。 投资建议:昇腾算力提升有望带来相关硬件持续突破,同时,依托华为自身庞大合作生态,应用使能,带动整体产业链共振。1)服务器厂商:昇腾910为2019年发布产品,从性能看已经可对标主流AI芯片产品,考虑到产品稳定性和性能的代际提升,有望从底层芯片出发赋能相关硬件产品,其中服务器为AI算力建设刚性需求,有望直接受益。建议关注中国长城、高新发展、神州数码、拓维信息、四川长虹、烽火通信、广电运通等;2)华为智车:考虑到华为在自动驾驶、智能座舱、智能安全等方面的产业引领效应,在整机厂竞争加剧环境下,华为合作生态有望提升产品力,产业链相关公司则有望依托生态优势,受益国内智能汽车发展红利,形成先发卡位。建议关注赛力斯、长安汽车、江淮汽车、德赛西威、中科创达、经纬恒润、润和软件、北汽蓝谷、光庭信息等。3)应用使能:从昇腾计算产业生态看,不同行业的场景应用有望伴随昇腾算力的提升优化,不断进行模型、算法的迭代优化,同时,更加稳定可靠、高能效、高性价比的算力支撑也有望加速相关应用落地。建议关注长期与华为进行合作的和核心ISV,如润和软件、软通动力、常山北明、智洋创新、梅安森、智度股份、北路智控、佳都科技等。 风险提示:技术迭代不及预期、经济下行超预期、行业竞争加剧。 一、昇腾计算:全栈AI基础设施及应用服务 2019年的第四届华为全联接大会上,华为首次发布对计算产业的理解与战略,宣布以“一云两翼双引擎”的布局全面进军计算产业。 双引擎:指鲲鹏和昇腾两大基础芯片族,构筑异构计算架构。其中鲲鹏代表通用计算,昇腾代表AI加速能力。 两翼:指华为智能计算业务与智能数据与存储业务。1)在智能计算领域,华为面向端、边、云场景,打造“鲲鹏+昇腾+x86+GPU”的多样性算力,发布全球训练最快的AI训练集群Atlas 900、AI推理和训练卡Atlas 300和AI训练服务器Atlas 800。 2)在智能数据与存储领域,华为融合存储、大数据、数据库、AI能力,围绕数据全生命周期给出技术和产品支撑。 一云:指华为云。通过全栈创新,提供安全可靠的混合云服务,成为生态伙伴的黑土地,为世界提供普惠算力。 图表1:华为“一云两翼双引擎”计算产业布局 1.1全栈AI计算基础设施、行业应用及服务 昇腾计算产业是基于昇腾系列(HUAWEI Ascend)处理器和基础软件构建的全栈AI计算基础设施、行业应用及服务,包括系列处理器、系列硬件、CANN(Compute Architecture for Neural Networks,异构计算架构)、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链。 图表2:昇腾计算架构介绍 昇腾计算的基础软硬件是产业的核心,也是AI计算能力的来源。华为作为昇腾计算产业生态的一员,是基础软硬件系统的核心贡献者。 1)昇腾计算的硬件系统: 基于华为达芬奇内核的昇腾系列处理器等多样化AI算力。 基于昇腾处理器的系列硬件产品,如嵌入式模组、板卡、小站、服务器、集群等。 2)昇腾计算的基础软件体系: 异构计算架构CANN及对应的驱动、运行时、加速库、编译器、调试调优工具、开发工具链MindStudio和各种运维管理工具等,开放给广大的开发者和客户。 AI计算框架,包括开源的MindSpore,以及各种业界流行的框架,作为生态的有机组成部分。同时,昇腾计算产业秉承开放的生态建设思路,支持各种计算框架对接。 围绕昇腾计算体系,诞生了大量优秀应用,如互联网推荐、自然语言处理、视频分析、图像分类、目标识别、语音识别、机器人等各种场景;昇腾计算产业也拥抱各种云服务场景,支持laas,Paas,SaaS等多种云服务模式;同时,端边云协同的能力推动昇腾计算成为全场景的AI基础设施。 1.2自有+合作硬件体系,提供澎湃算力底座 昇腾(HUAWEI Ascend)310是一款高能效、灵活可编程的人工智能处理器,在典型配置下,半精度(FP16)算力达到16TFLOPS,整数精度(INT8)算力达到8TOPS,功耗仅为8W。采用自研华为达芬奇架构,集成丰富的计算单元,提高AI计算完备度和效率,进而扩展该芯片的适用性。全AI业务流程加速,大幅提高AI全系统的性能,有效降低部署成本。 昇腾(HUAWEI Ascend)910是业界算力最强的AI处理器,基于自研华为达芬奇架构3D Cube技术,实现业界最佳AI性能与能效,架构灵活伸缩,支持云边端全栈全场景应用。算力方面,昇腾910完全达到设计规格,半精度(FP16)算力达到320 TFLOPS,整数精度(INT8)算力达到640 TOPS,功耗310W。 图表3:昇腾310与昇腾910芯片 图表4:昇腾310与昇腾910关键特性对比 昇腾910性能可对标英伟达A100。从主流GPGPU/ASIC产品算力看,昇腾910在整型算力(INT8)可基本对标英伟达A100PCIe80GB产品。 图表5:主流GPGPU/AISC产品性能对比 网、寒武纪官网、国盛证券研究所 基于昇腾910和310 AI处理器,昇腾计算产业在硬件方面坚持“硬件开放”策略,通过自有硬件和合作硬件相结合的方式为客户提供多样化选择。 自有硬件:Atlas系列硬件产品基于昇腾处理器和业界主流异构计算部件,通过模组、板卡、小站、服务器、集群等丰富的产品形态,打造面向“云、边、端”的全场景AI基础设施方案,包括Atlas 200 Al加速模块、Atlas 200 DK AI开发者套件、Atlas 300 Al加速卡、Atlas 500智能小站、Atlas 800 Al服务器、Atlas 900 Al集群等产品,可广泛用于“平安城市、智能交通、智能医疗、智能零售、智能金融”等领域。 合作硬件:华为将Atlas系列硬件开放给合作伙伴,让伙伴基于Atlas系列硬件进行集成和二次开发,联合打造有竞争力的产品。比如华为可以提供Atlas 200 Al加速模块,合作伙伴集成后形成机器人、机器狗、输电智能巡检方案等AI系统;华为也可以提供Atlas 300AI加速卡,合作伙伴可以集成后形成AI服务器;华为也可以通过OEM/ODM的方式使能伙伴开发自有品牌的服务器整机。 图表7:昇腾AI基础软硬件平台架构 图表6:昇腾计算AI基础设施 1)模组和板卡:昇腾计算提供模组、板卡两种类型,其中板卡根据使用场景分为推理卡及训练卡。 Atlas 200 Al加速模块(型号:3000):集成了昇腾推理处理器,半张信用卡大小即可提供22TOPS INT8算力,可以在端侧实现人脸识别、图像分类等,广泛用于智能摄像机、机器人、无人机等端侧AI场景。 Atlas 300I推理卡(型号:3000/3010):基于昇腾推理处理器,单卡算力可达88 TOPS INT8,目前可支持80路高清视频实时分析,是业界水平的2倍,可广泛应用于智慧城市、智慧交通、智慧金融等场景。 Atlas 300T训练卡(型号:9000):基于昇腾训练处理器,配合服务器,为数据中心提供强劲算力的训练卡,单卡可提供320 TFLOPS FP16算力,加快深度学习训练进程。具有高计算密度、大内存、高带宽等优点,适用于通用服务器。满足运营商、互联网、金融等需要AI训练以及高性能计算领域的算力需求。 图表8:华为Atlas 200 AI加速模块(型号:3000) 图表9:华为Atlas 300T训练卡(型号:9000) 图表10:华为昇腾计算模块与板卡技术规格 2)智能小站:昇腾计算产业为客户和伙伴提供了基于昇腾推理处理器的智能小站Atlas 500,具有超强计算性能、体积小、环境适应性强、易于维护和支持云边协同等特点,可以在边缘环境广泛部署,满足在安防、交通、社区、园区、商场、超市等复杂环境区域的应用需求。 图表11:华为Atlas 500智能小站技术规格 图表13:华为Atlas500智能小站产品特性 图表12:华为Atlas 500智能小站(型号:3000) 3)服务器:昇腾计算提供了Atlas 800系列服务器和Atlas 500 Pro服务器。 Atlas 800推理服务器(型号:3000/3010):基于昇腾推理处理器和鲲鹏/Intel处理器平台,集AI推理、存储和网络于一体,可以容纳最大8张AI推理卡,提供最大704 TOPS INT8推理性能,可用于视频分析、OCR、精准营销、医疗影像分析等推理服务。 Atlas 800训练服务器(型号:9000/9010):基于昇腾训练处理器和鲲鹏或Intel处理器平台,集成8颗昇腾训练处理器,提供2.24P FLOPS FP16高算力,可广泛应用于深度学习模型开发和训练,适用于智慧城市、智慧医疗、天文探索、石油勘探等需要大算力的行业领域。 Atlas 500 Pro智能边缘服务器(型号:3000):面向边缘应用,基于昇腾推理处理器和鲲鹏处理器平台,集AI推理、存储和网络于一体,可以容纳最大4张AI推理卡,提供352 TOPS INT8高Al推理性能,拥有475mm的短机箱,支持600mm的短机柜,可以在边缘场景中广泛部署。 图表15:华为Atlas 800训练服务器(型号:9000) 图表14:华为Atlas 800推理服务器(型号:3000) 图表16:华为推理、训练、边缘服务器技术规格 4)集群:Atlas 900 Al集群由上万颗昇腾训练处理器构成,通过华为集群通信库和作业调度平