AI智能总结
行业投资评级:强大于市|维持 中邮证券研究所电子团队分析师:吴文吉研究助理:翟一梦S1340523050004S1340123040020 投资要点 ➢大模型赋能端侧AI。在人工智能的飞速发展中,大型语言模型(LLMs)以其在自然语言处理(NLP)领域的革命性突破,引领着技术进步的新浪潮。自2017年Transformer架构的诞生以来,OpenAI的GPT系列到Meta的LLaMA系列等一系列模型崛起。这些模型传统上主要部署在云端服务器上,这种做法虽然保证了强大的计算力支持,却也带来了一系列挑战:网络延迟、数据安全、持续的联网要求等。这些问题在一定程度上限制了LLMs的广泛应用和用户的即时体验。正因如此,将LLMs部署在端侧设备上的探索应运而生,不仅能够提供更快的响应速度,还能在保护用户隐私的同时,实现个性化的用户体验。端侧AI市场的全球规模正以惊人的速度增长,预计从2022年的152亿美元增长到2032年的1436亿美元,这一近十倍的增长不仅反映了市场对边缘AI解决方案的迫切需求,也预示着在制造、汽车、消费品等多个行业中,端侧AI技术将发挥越来越重要的作用。 ➢存算一体技术的成熟为端侧AI大模型的商业化落地提供了技术基础。作为一种新的计算架构,存算一体的核心是将存储与计算完全融合,存储器中叠加计算能力,以新的高效运算架构进行二维和三维矩阵计算,结合后摩尔时代先进封装、新型存储器件等技术,能有效克服冯·诺依曼架构瓶颈,实现计算能效的数量级提升。存算一体可分为近存计算(PNM)、存内处理(PIM)以及存内计算(CIM)。1)近存计算通过将计算单元靠近内存单元,减少数据传输路径,提升访存带宽和效率,适合需要大规模并行处理和优化内存带宽的应用;2)存内处理将计算单元嵌入存储芯片中,使存储器本身具备一定的计算能力,适合数据密集型任务,能够显著提升数据处理效率和能效比;3)存内计算将存储单元和计算单元深度融合,使存储单元直接参与数据处理,适合高并行性计算和定制化硬件优化,能够消除数据访存延迟;在端侧AI大模型的商业化落地中,选择哪种技术取决于具体的应用需求和性能优化目标。 ➢NPU赋能端侧大模型。智能手机SoC自多年前就开始利用NPU(神经网络处理器)改善日常用户体验,赋能出色影像和音频,以及增强的连接和安全。不同之处在于,生成式AI用例需求在有着多样化要求和计算需求的垂直领域不断增加,这些AI用例面临两大共同的关键挑战:1)在功耗和散热受限的终端上使用通用CPU和GPU服务平台的不同需求,难以满足这些AI用例严苛且多样化的计算需求;2)这些AI用例在不断演进,在功能完全固定的硬件上部署这些用例不切实际。因此,支持处理多样性的异构计算架构能够发挥每个处理器的优势,例如以AI为中心定制设计的NPU,以及CPU和GPU。CPU擅长顺序控制和即时性,GPU适合并行数据流处理,NPU擅长标量、向量和张量数学运算,可用于核心AI工作负载。NPU降低部分易编程性以实现更高的峰值性能、能效和面积效率,从而运行机器学习所需的大量乘法、加法和其他运算。通过使用合适的处理器,异构计算能够实现最佳应用性能、能效和电池续航,赋能全新增强的生成式AI体验。 ➢异构计算架构的实现需要先进封装技术的支持。异构计算架构通过将不同功能的芯片(如CPU、GPU、FPGA、DSP等)或不同制程工艺的芯片集成在一起,实现高性能、高能效和多功能的计算系统,这种架构的实现需要先进的封装技术来支持。先进封装技术旨在通过创新的封装架构和工艺,提升芯片性能、降低功耗、减小尺寸,并优化成本。后文参考SiP与先进封装技术,将先进封装分为两大类梳理:①基于XY平面延伸的先进封装技术,主要通过RDL进行信号的延伸和互连;②基于Z轴延伸的先进封装技术,主要是通过TSV进行信号延伸和互连。 投资要点 ➢CUBE技术助力变革边缘AI计算。华邦电子开发的创新型CUBE(CustomizedUltraBandwidthElement,定制化超高带宽元件)技术,作为客制化的高宽带存储芯片3DTSVDRAM,专门为边缘AI运算装置所设计的存储架构,利用3D堆叠技术并结合异质键合技术以提供高带宽、低功耗、单颗256Mb至8Gb的存储芯片,并且可供模组制造商和SoC厂商直接部署。 ➢CUBE架构:CUBE是将SoCdie置上(散热较好),DRAMdie置下,可以省去SoC中的TSV工艺,进而降低了SoCdie的尺寸与成本。同时,3DDRAMTSV工艺可以将SoC信号引至外部,使它们成为同一颗芯片,进一步缩减了封装尺寸。 ➢CUBE制造:由联电推动,联电负责CMOS晶圆制造和晶圆对晶圆混合封装技术,华邦电导入客制化CUBE架构,智原提供全面的3D先进封装一站式服务,以及存储IP和ASIC小芯片设计服务,日月光则提供晶圆切割、封装和测试服务,另外还有Cadence负责晶圆对晶圆设计流程,提取TSV特性和签核认证。 ➢CUBE容量及主要特性: ✓1)基于D20工艺(20nm)的CUBE可以设计为1-8Gb/die容量,基于D16工艺的为16Gb/die容量。非TSV和TSV堆叠均可用,这为各种应用提供了优化内存带宽的灵活性。 ✓2)CUBE具有出色的能效,在D20工艺中功耗低于1pJ/bit。 ✓3)CUBE的IO速度于1KI/O可高达2Gbps,提供从16GB/s至256GB/s的总带宽。通过这种方式,CUBE能够确保带来高于行业标准的性能提升,并通过uBump或混合键合增强电源和信号完整性。 ✓4)基于D20标准的1-8Gb/die产品,以及灵活的设计和3D堆叠选择,使得CUBE能够适应更小的外形尺寸。TSV的引入也进一步提高了性能,改善了信号完整性、电源完整性和散热性能。TSV技术以及uBump/混合键合可降低功耗并节省SoC设计面积,从而实现高效且极具成本效益的解决方案。利用TSV实现高效的3D堆叠,简化了与先进封装技术的集成难度。通过减小芯片尺寸,CUBE能以更短的电源路径以及更紧凑、更轻巧的设计来降低器件成本、提高能效。 ➢建议关注: ✓存储:兆易创新 ✓数字:瑞芯微,寒武纪,国科微,北京君正,全志科技,炬芯科技 ✓IP:芯原股份 ✓封装:长电科技,通富微电,华天科技,甬矽电子,晶方科技 ➢风险提示:AI端侧发展不及预期风险。 端侧大模型近存计算NPUDRAM技术发展路径先进封装定制化存储:华邦CUBE介绍相关标的 一二三四五六七 目录 端侧大模型 端侧大型语言模型演进 ◼在人工智能的浪潮中,端侧大型语言模型(On-DeviceLLMs)迅猛发展且具备广泛的应用前景。自2023年起,随着参数量低于10B的模型系列如Meta的LLaMA、Microsoft的Phi系列等的涌现,LLMs在边缘设备上运行的可行性和重要性逐渐被验证。这些模型不仅在性能上取得了长足的进步,更通过混合专家、量化和压缩等技术,保持了参数量的优化,为边缘设备的多样化应用场景提供了强大支持。进入2024年,新模型的推出愈发 密 集,如 左 图 所 示,NexaAI的Octopus系列、Google的Gemma系 列 等,不仅在文本处理上有所增强,更在多模态能力上展现了新的可能性,如结合文本与图像等多模态输入,以适应更复杂的用户交互需求。 大语言模型架构基础 ◼传统文本大型语言模型:从Transformer架构发展而来,最初由编码器和解码器组成。如今,流行的模型如GPT和LLaMA主要使用仅解码器架构。GPT模型在自注意力机制后应用层归一化,而LLaMA在每个子层前应用归一化以提高训练稳定性。在注意力机制方面,GPT模型使用标准自注意力机制,允许模型在生成序列时考虑输入序列中所有位置的信息,而LLaMA使用分组查询注意力(GQA),优化计算和内存效率。混合专家(MoE)概念最早于1991年提出,在现代语言模型预训练中关键。MoE使用稀疏层减少计算资源,包含多个独立的“专家”网络和一个门控网络,以确定token的路由。 ◼多模态大型语言模型:依托Transformer强大的学习能力,这些模型可以同时处理文本、图像、声音等多种模态。其内部 运作机 制 如 下 :A)使 用标准交叉注意 力层在模型内部 层对多 模 态 输 入 进 行 深 度 融 合(如MultiModal-GPT);B)使用定制设计的层在模型内部层对多模态输入进行深度融合(LLaMA-Adapter,MoE-LLaVa);C)在模型输入阶段对多模态输入进行早期融合,使用特定模态的编码器(LLaVa,Qwen-VL);D)在输入阶段进行早期融合,但使用tokenization技术(如分词器)处理不同模态。 ◼在资源有限的设备上部署大型语言模型面临内存和计算能力的挑战。为解决这些问题,采用协作和分层模型方法分配计算负载。在资源受限设备上进行训练的经典方法包括量化感知缩放、稀疏更新、微型训练引擎(TTE)以及贡献分析。 端侧大语言模型的性能指标 ◼在评估设备端大型语言模型的性能时,有几个关键指标需要考虑:延迟、推理速度、内存使用以及存储和能耗,通过优化这些性能指标,设备端大型语言模型能够在更广泛的场景中高效运行,为用户提供更好的体验。同时硬件技术的持续进步显著影响了设备端大语言模型的部署和性能。 边缘智能的新纪元 ◼在人工智能的飞速发展中,大型语言模型(LLMs)以其在自然语言处理(NLP)领域的革命性突破,引领着技术进步的新浪潮。自2017年Transformer架构的诞生以来,OpenAI的GPT系列到Meta的LLaMA系列等一系列模型崛起。这些模型传统上主要部署在云端服务器上,这种做法虽然保证了强大的计算力支持,却也带来了一系列挑战:网络延迟、数据安全、持续的联网要求等。这些问题在一定程度上限制了LLMs的广泛应用和用户的即时体验。正因如此,将LLMs部署在端侧设备上的探索应运而生,不仅能够提供更快的响应速度,还能在保护用户隐私的同时,实现个性化的用户体验。 ◼随着技术的不断进步,端侧AI市场的全球规模正以惊人的速度增长,预计从2022年的152亿美元增长到2032年的1436亿美元,这一近十倍的增长不仅反映了市场对边缘AI解决方案的迫切需求,也预示着在制造、汽车、消费品等多个行业中,端侧AI技术将发挥越来越重要的作用。 端侧AI出货量 ◼AI手机:在定义AI手机时,有几项核心硬件能力至关重要。对专用处理器,如ASIC、GPU以及其他零部件进行优化,以高效运行端侧AI模型和应用。根据Canalys预测,2024年,全球16%的智能手机出货为AI手机,到2028年,这一比例将激增至54%。受消费者对AI助手和端侧处理等增强功能需求的推动,2023年至2028年间,AI手机市场以63%的年均复合增长率(CAGR)增长。预计这一转变将先出现在高端机型上,然后逐渐为中端智能手机所采用,反映出端侧生成式AI作为更普适性的先进技术渗透整体手机市场的趋势。 ◼AIPC:Gartner将AIPC定义为带有嵌入式神经处理单元(NPU)的PC,并以此为基础进行预测。AIPC包括在WindowsonArm、macOSonArm和x86onWindowsPC上安装NPU的PC。根据Gartner,2024年AI PC的出货量将达到4300万台,较2023年增长99.8%,2025年全球AI PC出货量将达到1.14亿台,较2024年增长165.5%,2025年,AI PC出货量在PC总出货量中的占比将从2024年的17%增长至43%;预计AI笔记本电脑的需求将高于AI台式电脑,2025年AI笔记本电脑的出货量将占到笔记本电脑总出货量的51%。 近存计算 存算一体技术分类 ◼作为一种新的计算架构,存算一体的核心是将存储与计算完全融合,存储器中叠加计算能力,以新的高效运算架构进行二维和三维矩阵计算,结合后摩尔时代先进封装、新型存储器件等技术,能有效克服冯·诺依曼架构瓶颈,实现计算能效的数量级提升。存算一