您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[qualcomm]:通过NPU和异构计算开启终端侧生成式AI - 发现报告

通过NPU和异构计算开启终端侧生成式AI

信息技术2024-03-12-qualcomm王***
通过NPU和异构计算开启终端侧生成式AI

目录 1摘要2处理器集成干SoC中的谐多优势...3生成式AI需要多样化的处理器4NPU入门5高通NPU:以低功托实现持久稳定的高性能AI6异构计算:利用全部处理器支持生成式AI.7高通AI引:面向牛成式AI的业界领先异构计覃107.1高道AI引降中的处理器,7.2高通AI异构计竞的系统级解决方案.. 127.3案例究:使用异构计的击拟化身A个人助于128骁龙平台领先的AI性能..148.1第三代龙.8的领先智能手机上AI'牛能,..148.2骁龙XEiLe的领先PC上AI烂能.156通过高通软件栈访问AI处理器10总结 1摘要 。生成式AI变芊已经到來。随若生成式AI用例盅求在有若多样化要求和计竞盅求的垂直领域不断增加,我们显然需要专为AI定制设计的全新计算架构。这首先需要一个面向生成式AI全新设计的神经网络处理器[NPU},同时要利用异构处理器组合,比如中央处理器[CPU和图形处理器(GPU],通过结合NPU使用合适约处理器:异构节能够实现最佳应用性能、能效和电池续航,赋能全舒培强的土成式AI休验: NPV专为实现任功耗加速AI推理而空新打逆:升随若新AI用例、模型知需求的发展不断演进优秀的NPU设训能够提供正流的设认选择,与AI行业方向保持高烹一。 高通I-仕助力让背能计算无处不仕,业界领.的高道Hex口gDn"NPU而向以低功托实现持续总定的高性能AI推理而设计,高通NPU的差异化优劳在于系统级解决方案、定制设计和快速创新。消过定制设计NPU以及控制指令集渠均ISA),自通能够快速违行设计混进和扩反,以解决恒额问题并优化性能:HexaganNPU是高迫业界领先的异构计算架构一一油AI5些=的关使处理器,高通AI引擎还包括高通Adreno'GPU、高通Kryo或高通Oryon'CPU、高通传感否中枢和内存子系统,这些处器为实规协同工作而设计,能够在终端则快速且高效地运行」AI应用,我们在AI基准烈试和实际生或式AI应用方而的行业领先性能就例证。 我们还专洋于在伞球搭裁高道和蜕龙平台的数十亿终端设资上实现使捷开发和部害,施能开发若:利用高道Al软件【QualcommAl5tok,开发若可在高消读件上创理、优化和部案A应用,一次综写即可实现在不同产品和细分领域采用高迫总片组射决方案进行部老:高迫技术公可正在贴能终端训生成式AI的规模化扩展。 2处埋器集成于 SoC中的诸多优势 在不断增长的用广需求、全新应用和终端品类以及技术进步的驱动下,计算架构正在不断演进,最初,中央处理器(CPU)就能够完成人分处罩,恒确若计算需求增长,对全新处器和加速器的需求出现:例如,早期智能手机系统由CPV和环绕CPU分右的分立心片组成:用丁2D图形、音频、图像信号处理、锋窝吨制解吨器和GPS等处型。随若时间移:这些芯片的功能已经集成到为系统级芯片SoC的羊个芯片体(DIE)中。 列如,现代智能手引l、PC和汽车SoC已集成多种处理器:如中央处理器(CPU)、图形处理器CPU)和神经网络处理器(NPU)。芯片设计上的这种集成具有诸多优势,包括改善峰值性能、能效、单位面积性能、芯片尺寸和成本, 列如,在智能于机或笔记本电内安装分立的CPU或NPU会占用史多电路板空间,需要使用史多能源,从而影响工业设计和电池尺寸,此外,缝入/输出弓间的数据传输也将增多:将导致性能降低、能证增加:以及采用更大电路板带来的额外成本和更低的共享内存效率,对于智能于机、策记本电脑和共他需要轻巧工业设计:具有严格功率和胶款限制的便控式终端,集成更为必要: 3生成式AI需要多样化的处理器 谈到Al,成专用处理器井不新鲜,智能手引SoC白多竹前就开始利用NPU改菩日常用户体验:赋能出色影像和音频以及增强的迁接和安全。不同之处在于:牛或式A用例需求在有并多样化要求和计算需求的垂直领域不所增加,这些用可分为三类: 1.按需型用例由用户触发:需要立即响应:包括照片/规频拍提、图像生成/编辑、代码生成、录音转录/摘要和文本(电子邮件、文档等:创作/滴安这包括用户用手机输入文字创作自定义图像、在PC上生成会设捐要:或在川车时用语音查询最近的加油站。 2.持续型用例运行时间交长,包括语音认别、游戏和视频的超级分率、视频通语的音频/视频处理以及实时群译,这包括用户在海外出差时使用于以作为实时对话既译器,以及在PC上玩游戏时逐顿运行盈级分浮率。 3.泛在型用例在后台持续运行」:包括始终儿片的预测巨AI助于、基于境感知的AI个性化机高级文本日动充,例如手可以根推用户的对计内容上动设与同手的会设、端的学习就导助于则能够根据用户的答题后况实时调整学习资料, 这些AI用例面临两大共同的关群挑战:第一,在坊群和致志受限的终端上使用迪用CPV和GPU服穷平台的不可需求,难以满定这些AI用例严苛旦多择化的计异需求:第二,这些AI用例在不所演进,在功能完全固定的链件上部老这些用划不切实际,因比,支持处理客样性的弃构计节架能够发挥每个处理器的优势,例如以AI为中心定制设计的NPU,以及CPU和GPU。每个处理器趋长不同的件务:CPU趋长顺序护制动即时件:GPU适合井行数据流处理:NPU拉长标至、向量和张量数学运算,可用于核心A工作负我, CPV和GPU是准日处理器:它们为灵活性而设计,非常易干编程,“水职工作”是负责运行操作系统、浮戏和其他应用等。而这些“本职下作”同时也公随时限制他们运行AI下作负载的可用容工,NPU专为AI打造,AI献是它的“本职工作”NPU降低部分易编理性以实现史高值性能、能效和而积效率,从而运行机器动所需的大量乘法、加法和其他运兑。 通过使用合适的处理器,异构计算能够实现最佳应用性能、能效和电池续航,赋能全新增强的生成式AI体验。 4NPU 入门 NPU专为实现以低功耗加速AI推理而全新打造,并随若新AI用例、模型和盅求的发 展不断演进,对整体SoC系统设计、内存访问快式和其他处理器架构运行AI工作负载时的瓶颈进行的分析会深刻影响NPU设计。这些AI工作载主要包括白标量、亢量和张量数学组成的弹经网络计兑,以及随片的非线性激法函数。 在2015年,早期的NPU面音频书语音AI用例而设计,这些氏例基于简旦卷积种经网络(CNNI并且主恶书恶标率和向率数学运算,从2016年于始,拍照和视频AI月例人受欢迎,出现了且于Transformer、宿环冲经网终(RNNj、K短期记忆网络L5TM)和更高维度的卷积神经网络iCNN等更克杂的全新模型:这些工作负载活要大量张量数学运克,因L比NPU增加了张量引逗器和卷积加速,让处理效率大幅提升。有了百向张正乘法的大共享内存配和专用硅仁,不仅能够显芒提要读取2N个值并进行2N3次运算(单个乘法礼加法)。在张量加速器中,母次内存访间的计算候作比率为N:1,而对于标率和向率加速器,这一比率要小得多, 在2023年,大语言模型(LLM)比如Llama2-7B,和大视觉模型(LVM)比如StableDifusion赋能的生成式Al使得典型校型的大小流升超过了一个效量级。除算需求之外,还需要年点考虑内存和系统设计,消过减少内存数据传输以提高性能和能效,未来预计将会出现对更人规恒模型和多态模型的书求, 随若AI持续快速演进,必须在性能、功耗、效率、可编程性和面积之间进行权衡取舍,一个专用的定化设计NPU能够做出正确的选择,与AI行业方向保持高度一致。 5.高通NPU以低功耗实现持久稳定的高性能A! 经过多年开发,高通HexgnNPU不斯注进,脂够满足大述变化的AI需求。2007年,首款HexgonDSP有验龙平台上正式亮相一一DSP控制和标量朵朽是高通未来多代NPU的品础, 2015年,嘉龙820处理器正式推出:集成首个高通AI引率:支持成像、音频和传感器运算:2018三,高迫在晓龙855中为HexaganNPU培加了Hexagon张量灿速器:2019年,高迫在览龙865上扩展了终端AI用划!,包括AI成像、AI规频、AI语音和始终在线的感知功能 2020午,高涵凭告Hexa90nNPU变年性的架构币新,实现了要里径,我们融合标量、向量和张至加速器,带来了更佳性能和能效,同时还为加速器打造了专用大共亨内存,让共亨和迁移数据更加高效,融合AI加速器架构为高通未来的NPU架构英定了坚实基础。 2022年,第二代晚龙8中的HexgonNPU引入了众多重要技术提升。专用电际传输轨道能够根据工作负载动态适配电源供应,微切片推理利用Hex口gonNPU标量加速能力,将神经网络分制或多个能够独立执行的微切片:汀除了高达10余层的内存山用,能够最大化利用HexgonNPU丰的标、向和张加速器并降仅功托:六地4位登数(INT4)运算支+持能够-是升能效和内行带宽效率,同时INT4层和神经网络的张量加速吞-高一倍,Transformcr网络速大提加快了应用于生式AI的多头注点力机i.的理速度,在使用MobileBERT模型的特定用列中能带来高达4.35倍的惊人AI性能捉于。其他特弥硬件包括改进分组卷积、激活函数如述和张型加透器性能, 、第三代骁龙.8中约HexagonNPU是高通面向生成式AI最新、t是目前最好的设计,为持续Al推理带米98%性能-是升和40%能效提于:它包托了跨整个NPV的微架构升级:微切片准理违一步Ⅱ级,以支持更高效的生成式AI处理,并降低内存带宽占用:此外,Hexgan张量加速器均加了独立的电源传给转道,让活裘不可标量、向量和张量处理划模的AI模型能够实现最高性能和效率:大共亨内r的带宽也增加了一倍:基于以上提升和INT4硬件加速,HexogonNPU成为面向终端侧生成式AI大模型推理的领先处理器。 高通NPU的差异化优势在于系统级解决方案、定制设计和快逆创新,高通的系统级解决方案考呈每个处理器的架构、SC系统架拘和软件基础设施,以打造最住AI解决方案。要不培加或修改证件方面微出恰当的权微和浸常,告要发现当前和消瓶颈。通过跨应用,神经网络模型、算法,件和硬件的全栈A究与优化,高通能够做到这一点,由于能够定制设计NPU并控制指令集架构ISA,高通架构师能够快速计行设计注进和扩展以解决颈问题 这一运代改进和反馈侣环,使我们能够基于品新神经网络架构持续快速培强高迫NPV和高迪AI软件栈。基于高道的自主AI究以及与广大A社区的作,我们与AI模型的发展保持可步。高道具有川晟基出性AI计究以支持全栈终训A川发的独持能力,可能产品快速上市,并围统绕终端侧生成式AI等关硅应用优化NPU部署。 相应地,高通NPU历经多代滴进,和月大单技术成果消除瓶颈。例如,第三代晓龙8的诺多NPU渠构升级能够背切加速生成式AI大模型。内存带宽是大语言模型tokcn生成的柜颈,这意味若其性能表现更受眼于内带宽而非处理能力:凶此,我们专注于提高内仁带宽效率:第三代驼龙8还支可业界录快约内存配之一:4.8GHzLPDDR5x,支持77GB/s范宽,能够满足生成式AI用例日益增长的内存需求。 从DSP架挖入手打造NPU足正硝的选择,可以改普可缩程件,并能够紧曾控制用于AI处理的标率、向和张率运算,高消优化标率、向率和张率加速的设计方案结合本地共亨人内存、专用供 电系统和具他硅件加速,让我们的解决方案独树一只,高通NPV能够模伤最主流模型的神经网络层和运算,比如卷积、全连接层、Tr心nsformer以及主流激活函数,以低功耗实现持续稳定的高性能表现, 6异构计算:利用全部处理器支持生成式A 后合终端则执行的牛或式AI按型日益复杂,参敬规揽也在不断提升,从10亿参敬到100亿,员至700亿参数、共多模态超势日蓝逆强,这意床若慢型能够-受多种检入形式一一比则文本、语音索图像,升生威多种给出结乐。 此外,许多用划需要同时运行多个模型,列如,个人期手应用采用语音轮入弱出,这需要运行一作为语音终出的文本生成语音TTS型。生成式AI工作负载的复杂性、并发性和多样性盅要利用5它中所有处理器的能力。最仁的解决方案要求: 1.跨处理器和处理器