您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华西证券]:电子行业走进“芯”时代系列深度之四十九“AI芯片”:AI领强算力时代,GPU启新场景落地 - 发现报告
当前位置:首页/行业研究/报告详情/

电子行业走进“芯”时代系列深度之四十九“AI芯片”:AI领强算力时代,GPU启新场景落地

电子设备2021-11-28孙远峰、熊军、王海维华西证券听***
电子行业走进“芯”时代系列深度之四十九“AI芯片”:AI领强算力时代,GPU启新场景落地

AI领强算力时代,GPU启新场景落地请仔细阅读在本报告尾部的重要法律声明仅供机构投资者使用证券研究报告孙远峰/熊军/王海维/王臣复/刘奕司SAC NO:S1120519080005SAC NO:S11205191200012021年11月28日华西电子团队—走进“芯”时代系列深度之四十九“AI芯片” 核心观点1、在人工智能时代,终端AI芯片针对特定场景实现优化方案AI芯片主要承担推断任务,通过将终端设备上的传感器(麦克风阵列、摄像头等)收集的数据代入训练好的模型推理得出推断结果。由于终端场景多种多样各不相同,对于算力和能耗等性能需求也有大有小,应用于终端芯片需要针对特殊场景进行针对性设计以实现最优解方案,最终实现有时间关联度的三维处理能力,这将实现更深层次的产业链升级,是设计、制造、封测和设备材料,以及软件环境的全产业链协同升级过程。2、GPU服务器渗透率提升,自动驾驶等级提升推动GPU算力需求相比于传统CPU服务器,在提供相同算力情况下,GPU服务器在成本、空间占用和能耗分别为传统方案的1/8、1/15和1/8。人工智能服务器是AI算力基础设施的主要角色,在服务器中渗透率不断提升。L3自动驾驶算力需求为30-60TOPS,L4需求100TOPS以上,L5需求甚至达1,000TOPS,GPU算力需求提升明显,芯片主要向着大算力、低功耗和高制程三个方向发展。3、软硬件生态构筑Nvidia核心优势,国内AI企业加速发展2006年Nvidia推出CUDA计算平台,让GPU支持CUDA,在优化硬件性能的同时,赋予良好的兼容性,构筑通用计算平台系统和核心优势。国内AI企业产品如景嘉微J9系列,寒武纪思元370、燧原邃思2.0、地平线征途5、黑芝麻华山二号A1000 由低算力逐渐向高算力发展,由终端侧往云端和车载方向发展,加快软硬件和开发者生态系统建设。核心标的:【重点推荐】:终端侧AI芯片:瑞芯微、全志科技、晶晨股份、富瀚微;【受益标的】:景嘉微(国产图显GPU)、寒武纪(云边端车GPU)、云天励飞(神经网络处理器芯片),芯原股份(GPU IP供应商);【产业链重点标的】:沐曦、壁仞科技、燧原科技、地平线、黑芝麻;【海外标的】: NVIDIA、AMD、CAN.O;风险提示:产能不及预期风险; 国产替代不及预期; 国产GPU生态不及预期 oPwOtNxPsNwOwPtRrQwPtR9PaO7NnPqQmOnMkPoPoPiNoMuN6MmNqQwMqMrONZpOpM目录21 算力时代,GPU开拓新场景2 GPU 下游三大应用市场3 海外GPU巨头Nvidia4国产GPU赛道掀起投资热潮5重点投资机会6风险提示 1.1 人工智能经历过三阶段,迎来爆发式增长 广义上讲只要能够运行人工智能算法的芯片都叫作AI 芯片。但是通常意义上的AI 芯片指的是针对人工智能算法做了特殊加速设计的芯片。AI芯片也被称为AI加速器或计算卡,即专门用于处理人工智能应用中的大量计算任务的模块(其他非计算任务仍由CPU负责)。第一阶段:因为芯片算力不足,所以神经网络没有受到重视第二阶段:通用芯片CPU的算力大幅提升,但仍然无法满足神经网络的需求第三阶段:GPU和和新架构的AI芯片推进人工智能落地事件1:2014年李天石博士“DianNao”系列论文让科学界看到,在冯诺依曼架构下也可以实现AI专用芯片事件2:Google推出的TPU运算架构的AlphaGo,接连打败李世石和柯洁,看到了专用芯片的商业价值。图:AI芯片算力发展阶段起步发展期反思发展期发展应用期低迷发展期稳步发展期蓬勃发展期第一阶段第二阶段第三阶段 1.2 推荐式系统模型参数复杂度大幅增加资料来源:CSDN, Nvidia官网,华西证券研究所GPT-3模型目前已入选了《麻省理工科技评论》2021年“十大突破性技术。GPT-3的模型使用的最大数据集在处理前容量达到了45TB。根据OpenAI的算力统计单位petaflops/s-days,训练AlphaGoZero需要1800-2000pfs-day,而GPT-3用了3640pfs-day。递归卷积神经网络-视觉模式/图像识别LeNet-56 万个参数(1998)AlexNet6000 万个参数(2012)VGG-161.38亿参数(2014)ResNet-5025000 万个参数(2015)自然语言模型/会话式AI平台Open Al GPT-11.5亿个参数(2018)Google BERT-Large 3.4亿个参数(2018)Microsof MT-DNN3.3亿个参数(2019)Open AI GPT-215.42亿个参数(2019)Alibaba PERSEUS-BERT1.1亿个参数(2019)NVIDIA Pmojert Megatron83亿个参数(2019)Facebook RoBERTa3.35亿个参数(2019)FacbookXILM6.65亿个参数(2019)NVlDIAMegaltron-Scaled Version of OpenAIGPT-283亿个参数(2019)Microsoft-NLG172亿个参数(2020)Open A GPT-3多达1750亿个参数(2020)表递归卷积神经网络-视觉模式/囹像识别表自然语言模型/会话式AI平台 1.3 深度学习模型复杂度对芯片算力需求激增 AI运算指以“深度学习”为代表的神经网络算法,需要系统能够高效处理大量非结构化数据(文本、视频、图像、语音等)。需要硬件具有高效的线性代数运算能力,计算任务具有:单位计算任务简单,逻辑控制难度要求低,但并行运算量大、参数多的特点。对于芯片的多核并行运算、片上存储、带宽、低延时的访存等提出了较高的需求。自2012年以来,人工智能训练任务所需求的算力每3.43 个月就会翻倍,大大超越了芯片产业长期存在的摩尔定律(每18 个月芯片的性能翻一倍)。针对不同应用场景,AI芯片还应满足:对主流AI算法框架兼容、可编程、可拓展、低功耗、体积及价格等需求。从AlexNet到GPT-3,算力增长迅速 1.4 部署位置对AI芯片性能要求差异 根据机器学习算法步骤,可分为训练(training)芯片和推断(inference)芯片。训练芯片主要是指通过大量的数据输入,构建复杂的深度神经网络模型的一种AI芯片,运算能力较强。推断芯片主要是指利用训练出来的模型加载数据,计算“推理”出各种结论的一种AI芯片,侧重考虑单位能耗算力、时延、成本等性能。从部署的位置来看,AI芯片可分为云端(服务器端)、终端(移动端)两大类。云端芯片,是指部署在公有云、私有云或混合云上的AI芯片,不仅可用于训练,还可用于推断,算力强劲。终端芯片,是指应用于手机等嵌入式、移动终端等领域的AI芯片,此类芯片一般体积小、耗电低、性能无需特别强大。表不同部署位置的AI芯片算力要求不同部署位置的AI芯片比较应用场景芯片需求典型计算能力典型功耗典型应用领城终端低功耗、高能效、推理任务为主、成本敏感、硬件产品形态众多<8TOPS<5瓦各类消费类电子、物联网云端高性能、高计算密度、兼有推理和训练任务、单价高、硬件产品形态少>30TOPS>50瓦云计算数据中心、企业私有云等边缘端对功耗、性能、尺寸的要求常介于终端与云端之间、推理任务为主、多用于插电设备、硬件产品形态相对较少5TOPS至30TOPS4瓦至15瓦智能制造、智能家居、智能零售、智慧交通、智慧金融、智慧医疗、智能驾驶等众多应用领域 1.5 GPU 是较为成熟的通用型人工智能芯片7 整理表三种技术架构AI芯片类型比较GPUFPGA(半定制化)ASIC(全定制化)定制化程度通用性半定制化定制化灵活度好好不好成本高较高低编程语言/架构CUDA、OpenCL等Verilog/VHDL等硬件描述语言,OpenCL、HLS/功耗大较大小主要优点峰值计算能力强、产品成熟平均性能较高、功耗较低、灵活性强平均性能很强、功耗很低、体积小主要缺点效率不高、不可编辑、功耗高量产单价高、峰值计算能力较低、编程语言难度大前期投入成本高、不可编辑、研发成本长、技术风险大主要应用场景云端训练、云端推断云端推断、终端推断云端训练、云端推断、终端推断代表企业芯片英伟达Tesla、高通Adreno等赛灵思Versal、英特尔Arria、百度XPU等谷歌TPU、寒武纪Cambricon从技术架构来看,AI芯片主要分为图形处理器(GPU)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、类脑芯片四大类。其中,GPU是较为成熟的通用型人工智能芯片,FPGA和ASIC则是针对人工智能需求特征的半定制和全定制芯片,类脑芯片颠覆传统冯诺依曼架构,是一种模拟人脑神经元结构的芯片,类脑芯片的发展尚处于起步阶段。 1.6 GPU设计之初用于显示图像使用GPU 图形渲染流水线的具体实现可分为六个阶段,如右图所示。顶点着色器(Vertex Shader)形状装配(Shape Assembly),又称图元装配几何着色器(Geometry Shader)光栅化(Rasterization)片段着色器(Fragment Shader)测试与混合(Tests and Blending) 9英伟达GeForceRTX30系列AMD RadeonRX6900 XT 整理GPU(图形处理器)又称显示核心、显卡、视觉处理器、显示芯片或绘图芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上运行绘图运算工作的微处理器。GPU使显卡减少对CPU的依赖,并分担部分原本是由CPU所担当的工作,尤其是在进行三维绘图运算时,功效更加明显。图形处理器所采用的核心技术有硬件坐标转换与光源、立体环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图、双重纹理四像素256位渲染引擎等。GPU是一种特殊类型的处理器,具有数百或数千个内核,经过优化,可并行运行大量计算。虽然GPU在游戏中以3D渲染而闻名,但它们对运行分析、深度学习和机器学习算法尤其有用。1.7 GPU适合并行运行大量计算 10资料来源:华西证券研究所整理CPU与GPU构架对比CPUGPU定义与组成CPU 由数百万个晶体管组成,可以有多个处理内核,通常被称为计算机的大脑。它是所有现代计算系统必不可少的组成部分,因为它执行计算机和操作系统所需的命令和流程。GPU 是由许多更小、更专业的内核组成的处理器。在多个内核之间划分并执行一项处理任务时,通过协同工作,这些内核可以提供强大的性能。微构架CPU的功能模块多,擅长分支预测等复杂的运算环境,大部分晶体管用在控制电路和Cache上,少部分晶体管用来完成运算工作。GPU的控制相对简单,且不需要很大的Cache,大部分晶体管可被用于各类专用电路和流水线,GPU的计算速度因此大增,拥有强大的浮点运算能力。适用领域CPU 适用于一系列广泛的工作负载,特别是那些对于延迟和单位内核性能要求较高的工作负载。作为强大的执行引擎,CPU 将它数量相对较少的内核集中用于处理单个任务,并快速将其完成。这使它尤其适合用于处理从串行计算到数据库运行等类型的工作。GPU 最初是作为专门用于加速特定3D 渲染任务的ASIC 开发而成的。随着时间的推移,这些功能固定的引擎变得更加可编程化、更加灵活。尽管图形处理和当下视觉效果越来越真实的顶级游戏仍是GPU 的主要功能,但同时,其他开发人员也开始利用GPU的功能来显着加速高性能计算(HPC),深度学习等领域中的其他工作负载。表CPU与GPU构架对比1.8 GPUvsCPUCPU和GPU相比,是由于其设计目标的不同,它们分别针对了两种不同的应用场景。CPU需要很强的通用性来处理各种不同的数据类型,同时又要逻辑判断又会引入大量的分支跳转和中断的处理。这些都使得CPU的内部结构异常复杂。而GPU面对的则是类型高度统一的、相互无依赖的大规模数据和不需要被打断的纯净的计算环境。 1.9 AI开源平台众多 广义上AI