人工智能产业加速发展,推荐算力相关标的。伴随着大模型带来的产业跃迁式进展,人工智能算力需求快速提升,A股相关标的也将获得明显投资机会,受益标的:拓维信息,神州数码。 华为昇腾是目前性能最强的国产AI芯片。通常所说的华为“昇腾AI芯片”包括两款产品,一个是2018年发布的昇腾310,它主要针对的是推理应用,还有一个是2019年发布的针对训练应用的昇腾910。 因为昇腾910主要用于训练,所以对于计算性能做了优化(高算力),使用台积电7纳米工艺制造,FP16算力可以达到256TFLOPS,INT8算力高达512TOPS,同时支持128通道全高清视频解码。而昇腾310主要在移动端应用,所以针对功耗进行了优化(低功耗),采用12纳米工艺进行制造,最大功耗仅为8W。 2022年昇腾AI加速发展,走进更多城市、高校和科研单位。截止目前有三十多家硬件伙伴,两百多家软件伙伴,打造了2500多个AI解决方案。华为将联合伙伴把大模型带入更多的场景。目前昇腾开发者突破180万人,基于昇腾孵化了三十多个大模型,昇腾算力支撑了中国一半的大模型(华为2023年昇腾大会公开数据)。 华为通过支持各地的数据中心建设,累计了大量集群建设经验,已经建设完成接近10000P算力。近期已经建成七个基于昇腾的人工智能计算中心,包括武汉、北京、大连等地的数据中心。华为也会把在城市AI集群建设经验复制到行业里面去,更好的赋能各个行业建设,加速使能行业大模型发展。 风险提示:芯片产能风险,需求回落风险 1.华为昇腾:国产最强AI算力 通常所说的华为“昇腾AI芯片”包括两款产品。一个是2018年发布的昇腾310,它主要针对的是推理应用,还有一个是2019年发布的针对训练应用的昇腾910。因为昇腾910主要用于训练,所以对于计算性能做了优化(高算力),使用台积电7纳米工艺制造,FP16算力可以达到256TFLOPS,INT8算力高达512TOPS,同时支持128通道全高清视频解码。而昇腾310主要在移动端应用,所以针对功耗进行了优化(低功耗),采用12纳米工艺进行制造,最大功耗仅为8W。在性能方面,它的FP16算力达到了8TFLOPS,INT8的算力可以达到16TOPS,同时也集成了16通道的全高清视频解码器。 图1:华为昇腾910在2019年推出时计算性能全球第一 从硬件架构上说,昇腾芯片采用了华为自研的达芬奇架构。达芬奇架构可以分为三个主要的组成部分,分别对应数据的计算、存储和控制。昇腾AI处理器的计算核心主要由DaVinci Core(简称AI Core)构成,负责执行向量和张量相关的计算密集型算子。AI Core基本结构如图所示,整个AI Core可以看成是一个相对简化的现代微处理器的基本架构,其中包含计算单元、存储单元、与控制单元,并有指令流水线的设计。 图2:昇腾AI处理器计算核心是DaVinciCore 与英伟达的CUDA生态对应,华为也为昇腾芯片提供了一个多层的软件栈和开发工具链,来帮助开发者更好的使用和开发昇腾。通过软件的多样性,可以在很大程度上弥补专用芯片灵活性不足的劣势。华为的AI 软件框架层主要包括自研框架MindSpore(昇思)和第三方框架(PyTorch、TensorFlow等),其中MindSpore完全由华为自主研发,第三方框架华为做了适配和优化,让PyTorch和TensorFlow等框架编写的模型可以高效的跑在昇腾芯片上。 华为基于昇腾系列AI处理器和基础软件构建Atlas人工智能计算解决方案。包括Atlas系列模块、板卡、小站、服务器、集群等丰富的产品形态,打造面向“端、边、云”的全场景AI基础设施方案,可以满足不同场景的大模型计算需求。比如:Atlas 800(型号:9000)是训练服务器,包含8个训练卡(Atlas 300 T:采用昇腾910)。Atlas 900是训练集群(由128台Atlas 800(型号:9000)构成),相当于是由一批训练服务器组合而成。Atlas800(型号:3000)是推理服务器,包含8个推理卡(Atlas 300 I:采用昇腾310)。 图3:华为昇腾已经形成完整生态 2.华为昇腾生态正在快速演进 2022年昇腾AI加速发展,走进更多城市、高校和科研单位。截止目前有三十多家硬件伙伴,两百多家软件伙伴,打造了2500多个AI解决方案。华为将联合伙伴把大模型带入更多的场景。目前昇腾开发者突破180万人,基于昇腾孵化了三十多个大模型,昇腾算力支撑了中国一半的大模型发展(华为2023年昇腾大会公开数据)。 图4:2022年昇腾AI加速发展 从单点算力到集群算力,从节点创新到系统创新。华为通过系统级协同升级了AI集群的规模和效率,通过系统设计改变了过去服务器的堆叠,相当于把AI数据中心打造为一台AI的超级计算机。通过节点、机柜、集群的设计,实现系统级故障可识别可诊断可预测可实现。华为2023年7月宣布推出Atlas900集群,到6月已经支持到单机8000卡的商用,华为工程师团队还在持续努力,目标是2023年底或者2024年初做到超过16000张卡的集群,成为业界首个万卡集群。经过评估,1750亿参数的大模型,半天就可以训练完成(华为2023年昇腾大会公开数据)。 图5:华为推出算力集群 华为通过支持各地的数据中心建设,累计了大量集群建设经验,已经建设完成接近10000P算力。近期已经建成七个基于昇腾的人工智能计算中心,包括武汉、北京、大连等地的数据中心。华为也会把在城市AI集群建设经验复制到行业里面去,更好的赋能各个行业建设,加速使能行业大模型发展。 图6:华为已经积累丰富的集群部署经验 为了更好地促进大模型创新,华为也在框架、工具链上面进行深耕,在大模型开发模式上,从APIbased走向模型based。华为提供了大模型开发套件,只需要十几行代码就可以实现框架开发,降低了门槛。微调作为大模型被赋予行业场景的关键步骤,华为提供了低参微调模块,提供了多种微调算法,仅需5%的参数就可以实现全参微调的效果。大模型参数巨大,推理部署难,华为集成了自动剪枝整流的技术,做到了20倍模型压缩。推理上实现了推理时延小于50ms。 图7:华为在框架、工具链进行深耕 3.投资建议 人工智能产业加速发展,推荐算力相关标的。伴随着大模型带来的产业跃迁式进展,人工智能算力需求快速提升,A股相关标的也将获得明显投资机会,受益标的:拓维信息,神州数码。 4.风险提示 1)芯片产能风险 目前由于美国制裁,国内AI芯片厂商产能普遍受限,存在库存不足风险。 2)需求回落风险 人工智能大模型快速发展,目前国内大模型数量已经超过一百家,有过热风险,未来行业热度一旦回落,算力的需求也会随之下降。