AI智能总结
评级及分析师信息 Groq横空出世,算力的下一种可能:Groq爆火主要是因为其处理速度非常快。该公司的芯片推理速度较英伟达GPU提高10倍,成本只有其1/10。运行的大模型生成速度接近每秒500tokens,碾压ChatGPT-3.5大约40 tokens/秒的速度。极限情况下,Groq的Llama2 7B甚至能实现每秒750 tokens,为GPT-3.5的18倍。价格上,根据芯语消息,Groq的一张LPU卡仅有230MB的内存,售价为2万多美元。Groq的出世为算力提供更多选择:我们认为Groq的爆火其背后意义有两点 ,分别是:1、算力市场持续火热,算卡依旧是供不应求;2、科技厂商有意搭建自己规模化的体系,来应对英伟达、AMD等一家独大现象。 打响关键自主可控保卫战,华为领先演绎国产计算生态崛起:算力是衡量单卡性能的直观指标:参数方面,我们认为昇腾910芯片单卡算力已经可以与英伟达A100相媲美。根据昇腾官网消息,华为昇腾计算平台CANN已经实现从0至1突破,已支持50+主流大模型,为应用创新提供丰富选择例如讯飞星火、GPT-3、Stable Diffusion等,同时兼容主流加速库及开发套件。根据财联社消息,中央企业要把发展人工智能放在全局工作中统筹谋划加快建设一批智能算力中心,我们认为此举同样有望进一步加速国产算力生态建设速度。 投资建议: 受益标的: 1、高新发展、神州数码、拓维信息、泰嘉股份、恒为科技、开普云、中国长城、海光信息等; 2、北京君正、成都华微、恒烁股份、兆易创新等。 风险提示 核心技术水平升级不及预期的风险,AI伦理风险,政策推进不及预期的风险,中美贸易摩擦升级的风险。 正文目录 1. Groq横空出世,算力的下一种可能性.............................................................................................................................................32.投资建议....................................................................................................................................................................................................73.风险提示....................................................................................................................................................................................................7 图表目录 图表1算力发展速度远超存储器........................................................................................................................................................3图表2存储墙瓶颈..................................................................................................................................................................................3图表3存算一体发展简史.....................................................................................................................................................................4图表4 Groq模型推理生成速度...........................................................................................................................................................4图表5 LPU与GPU差异...........................................................................................................................................................................5图表6存储分类示意图..........................................................................................................................................................................5图表7英伟达与华为参数比对............................................................................................................................................................6图表8昇腾全栈AI软硬件平台........................................................................................................................................................6图表9华为CANN时间线.......................................................................................................................................................................7图表10华为CANN生态情况.................................................................................................................................................................7 1.Groq横空出世,算力的下一种可能性 算力发展速度远超存储,存储带宽限制计算系统的速度:在过去二十年,处理器性能以每年大约55%的速度提升,内存性能的提升速度每年只有10%左右。因此,目前的存储速度严重滞后于处理器的计算速度。能耗方面,从处理 单元外的存储器提取所需的时间往往是运算时间的成百上千倍,因此能效非常低;“存储墙”成为加速学习时代下的一代挑战,原因是数据在计算单元和存储单元的频 繁移动。 存储墙、带宽墙和功耗墙成为首要限制关键:在传统计算机架构中,存储与计算分离,存储单元服务于计算单元,因此会考虑两者优先级;如今由 于海量数据和AI加速时代来临,不得不考虑以最佳的配合方式为数据采集、传输、处理服务,然而存储墙、带宽墙和功耗墙成为首要挑战,虽然多核并行加速技 术也能提升算力,但在后摩尔时代,存储带宽制约了计算系统的有效带宽,芯片 算力增长步履维艰。 存算一体有望打破冯诺依曼架构,是后摩尔时代下的必然选择:存算一体是在存储器中嵌入计算能力,以新的运算架构进行二维和三维矩阵乘法/加法运算。存内计算和存内逻辑,即存算一体技术优势在于可直接利用存储器进行 数据处理或计算,从而把数据存储与计算融合在同一个芯片的同一片区之中,可 以彻底消除冯诺依曼计算架构瓶颈,特别适用于深度学习神经网络这种大数据量 大规模并行的应用场景。 资料来源:知乎@陈巍谈芯,华西证券研究所 存算一体概念已有50年历史:早在1969年,斯坦福研究所的Kautz等人提出了存算一体计算机的概念。但受限于当时的芯片制造技术和算力需求 的匮乏,那时存算一体仅仅停留在理论研究阶段,并未得到实际应用。然而为了 打破冯诺依曼架构,降低“存储-内存-处理单元”过程数据搬移带来的开销,业内广泛采用3D封装技术实现3D堆叠提供更大带宽,但是并没有改变数据存储与数据处理分离的问题。 近年来,存算一体随着人工智能的驱动得到较快发展:随着半导体制造技术突破,以及AI等算力密集的应用场景的崛起,为存算一体技术提供新的制造平台和产业驱动力。2016年,美国加州大学团队提出使用RRAM构建存算一体架构的深度学习神经网络(PRIME)。相较于传统冯诺伊曼架构的传统方案,PRIME可以实现功耗降低约20倍、速度提升约50倍;此外,2017年,英伟达、微软、三星等提出存算一体原型;同年起,国产存算一体芯片企业开始“扎堆”入场, 例如千芯科技、智芯微、亿铸科技、后摩时代、苹芯科技等。 资料来源:知乎@陈巍谈芯,与非望等,华西证券研究所 Groq横空出世,算力的下一种可能:近日,AI芯片创企Groq开放了自家产品的免费试用。相比其他AI聊天机器人,Groq闪电般的响应速度迅速引爆互联网讨论。其大模型每秒能输出750个tokens,比GPT-3.5快18倍,自研LPU推理速度是英伟达GPU的10倍。Groq成立于2016年,定位为一家人工智能解决方案公司,Groq爆火主要是因为其处理速度非常快。该公司的芯片推理速度较英伟达GPU提高10倍,成本只有其1/10。运行的大模型生成速度接近每秒500 tokens,碾压ChatGPT-3.5大约40 tokens/秒的速度。极限情况下,Groq的Llama2 7B甚至能实现每秒750 tokens,为GPT-3.5的18倍。价格上,根据芯语消息,Groq的一张LPU卡仅有230MB的内存,售价为2万多美元。 Groq采取的是LPU技术:根据华尔街见闻消息,LPU的工作原理与GPU截然不同。它采用了时序指令集计算机(Temporal Instruction Set Computer)架构,这意味着它无需像使用高带宽存储器(HBM)的GPU那样频繁地从内存中加载数据。这一特点不仅有助于避免HBM短缺的问题,还能有效降低成本。不同于Nvidia GPU需要依赖高速数据传输,Groq的LPU在其系统中没有采用高带宽存储器(HBM)。它使用的是SRAM,其速度比GPU所用的存储器快约20倍。鉴于AI的推理计算相较于模型训练需要的数据量远小,Groq的LPU因此更节能。在执行推理任务时, 它从外部内存读取的数据更少,消耗的电量也低于Nvidia的GPU。可以理解 成Groq是定制化的AI芯片,而英伟达是通用化芯片。 资料来源:华尔街见闻,华西证券研究所 SRAM和DRAM在AI领域中扮演者不同的角色:SRAM由于其较高的成本,通常用于高速缓存中,以提高CPU与其他存储设备之间的数据交换速度而DRAM则因其较低的成本(仅需一个场效应管和一个电容),被广泛应用于内存中,尤其是在内存条中。这是因为DRAM能够提供更大的