
算力是人工智能发展的三要素之一,目前全球的算力供给龙头是英伟达,在GPU领域几乎一家独大。国内企业也在奋起追赶,其中最有王者之相的还是华为昇腾,已经得到了众多国内企业和各地政府的支持,因为供应链安全已经成为中国人工智能产业发展不可忽视的因素。 1、华为昇腾的技术路线 通常所说的华为“昇腾AI芯片”包括两款产品。一个是2018年发布的昇腾310 ,它主要针对的是推理应用,还有一个是2019年发布的针对训练应用的昇腾910。因为昇腾910主要用于训练,所以对于计算性能做了优化(高算力),使用台积电7纳米工艺制造,FP16算力可以达到256TFLOPS,INT8算力高达512TOPS,同时支持128通道全高清视频解码。而昇腾310主要在移动端应用,所以针对功耗进行了优化(低功耗),采用12纳米工艺进行制造,最大功耗仅为8W。在性能方面,它的FP16算力达到了8TFLOPS,INT8的算力可以达到16TOPS,同时也集成了16通道的全高清视频解码器。 从硬件架构上说,昇腾芯片采用了华为自研的达芬奇架构。达芬奇架构可以分为三个主要的组成部分,分别对应数据的计算、存储和控制。昇腾AI处理器的计算核心主要由DaVinciCore(简称AICore)构成,负责执行向量和张量相关的计算密集型算子。AICore基本结构如图所示,整个AICore可以看成是一个相对简化的现代微处理器的基本架构,其中包含计算单元、存储单元、与控制单元,并有指令流水线的设计。 与英伟达的CUDA生态对应,华为也为昇腾芯片提供了一个多层的软件栈和开发工具链,来帮助开发者更好的使用和开发昇腾。通过软件的多样性,可以在很大程度上弥补专用芯片灵活性不足的劣势。华为的AI软件框架层主要包括自研框架MindSpore(昇思)和第三方框架(PyTorch、TensorFlow等),其中MindSpore完全由华为自主研发,第三方框架华为只是做了适配和优化,让PyTorch和TensorFlow等框架编写的模型可以高效的跑在昇腾芯片上。 华为基于昇腾系列AI处理器和基础软件构建Atlas人工智能计算解决方案。包括Atlas系列模块、板卡、小站、服务器、集群等丰富的产品形态,打造面向“端 、边、云”的全场景AI基础设施方案,可以满足不同场景的大模型计算需求。比如:Atlas800(型号:9000)是训练服务器,包含8个训练卡(Atlas300T :采用昇腾910)。Atlas900是训练集群(由128台Atlas800(型号:9000)构成),相当于是由一批训练服务器组合而成。Atlas800(型号:3000)是推理服务器,包含8个推理卡(Atlas300I:采用昇腾310)。 2、昇腾算力最新进展 2022年年昇腾AI加速发展,走进更多城市、高校和科研单位。截止目前有三十多家硬件伙伴,两百多家软件伙伴,打造了2500多个AI解决方案。华为将联合伙伴把大模型带入更多的场景。目前昇腾开发者突破180万人,基于昇腾孵化了三十多个大模型,昇腾算力支撑了中国一半的大模型(华为2023年昇腾大会公开数据)。 从单点算力到集群算力,从节点创新到系统创新。华为通过系统级协同升级了AI集群的规模和效率,通过系统设计改变了过去服务器的堆叠,相当于把AI数据中心打造为一台AI的超级计算机。通过节点、机柜、集群的设计,实现系统 级故障可识别可诊断可预测可实现。华为2023年7月宣布推出Atlas900集群,到6月已经支持到单机8000卡的商用,华为工程师团队还在持续努力,目标是今年年底或者明年年初做到超过16000张卡的集群,成为业界首个万卡集群。经过评估,1750亿参数的大模型,半天就可以训练完成。 这几年华为通过支持各地的数据中心建设,累计了大量集群建设经验,已经建设完成接近10000P算力。近期已经建成七个基于昇腾的人工智能计算中心,包括武汉、北京、大连等地的数据中心。华为也会把在城市AI集群建设经验复制到行业里面去,更好的赋能各个行业建设,加速使能行业大模型发展。 为了更好地促进大模型创新,华为也在框架、工具链上面进行深耕,在大模型开发模式上,从APIbased走向模型based。华为提供了大模型开发套件,只需要十几行代码就可以实现框架开发,降低了门槛。微调作为大模型被赋予行业场景的关键步骤,华为提供了低参微调模块,提供了多种微调算法,仅需5%的参数就可以实现全参微调的效果。大模型参数巨大,推理部署难,华为集成了自动剪枝整流的技术,做到了20倍模型压缩。推理上实现了推理时延小于50ms。