行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

科技前瞻系列专题：科技公司的端侧AI布局

信息技术 2024-06-11 王湘杰,杨镇宇西南证券灰灰

苹果AI布局

模型侧：

MM1：苹果发布了多模态大模型MM1，拥有最高300亿参数，具备密集模型和混合专家（MoE）变体。MM1在预训练指标中表现最优，并在多模态基准上监督微调后也保持竞争力。该模型在上下文预测、多图像和思维链推理等方面表现良好。
OpenELM：苹果宣布了开源大语言模型OpenELM，包含多种参数版本，旨在运行成本更低，适用于手机和笔记本电脑等设备。OpenELM使用了分层缩放策略，提升了准确率，且需要的预训练token数量减少了50%。
Ferret-UI：苹果展示了多模态模型Ferret-UI，专门用于增强移动端UI屏幕的理解，具备引用、定位和推理功能。Ferret-UI可执行多种基本和高级任务，展现了对移动UI屏幕的理解和交互能力。

硬件侧：

端侧AI计算单元：苹果从A11芯片开始引入端侧神经网络处理器（NPU）加速器，用于AI计算。
M系列芯片：苹果自2020年11月起推出M系列芯片，包括M3、M4等，采用统一内存架构，支持高效并行计算，能效比高。
AI模型推理效率：苹果提出了一种方法，在内存有限的设备上高效运行大型语言模型，通过优化模型参数存储和数据传输，实现了推理效率的提升。

应用侧：

改进Siri：苹果计划在Siri中引入生成式AI，使其更具有对话性和多功能性，增强与用户的交互体验。
AI原生应用：苹果正在探索将AI技术融入其原生应用中，提升服务业务的价值，如通过AI增强办公、生活娱乐等应用的功能。

终端未来：

AI Vision Pro：苹果的Vision Pro设备将开启空间计算时代，通过集成先进的AI技术提供全新的3D交互方式，推动XR设备的广泛应用。

投资保障：

苹果持续加大AI研发投入，通过优化现金流和资本支出，确保深度布局AI的战略实施。

高通AI布局

高通AI研究方向：

高通致力于推动AI更加高效，聚焦于功耗效率、AI个性化和高效深度学习等方面。

端侧AI挑战：

端侧AI面临计算密集度高、热效率限制、电池寿命要求和存储/内存带宽限制等挑战。

模型优化：

高通通过模型压缩、量化和编译等技术优化AI模型，包括模型压缩、量化策略，以及使用AIMET工具集。

AIMET工具库：

AIMET提供模型压缩与量化、知识蒸馏、剪枝与结构优化以及元训练与迁移学习等工具，帮助提高模型性能和降低资源需求。

硬件与软件：

高通AI引擎整合了多个硬件组件，实现跨处理器的生成式AI处理，优化了AI模型的执行效率。

高通NPU发展方向：

随着AI模型和用例的演进，高通NPU持续优化，关注高性能低功耗，适应更多规模和多模态模型的需求。

三星AI布局

文本内容中未提及三星的具体AI布局细节，因此无法提供具体的总结。如需总结三星的AI布局，请提供相关文本内容以便进行分析。

科技前瞻系列专题科技公司的端侧AI布局西南证券研究发展中心海外研究团队2024年6月目录 1苹果AI布局 2高通AI布局 3三星AI布局 4相关标的 5风险提示 1 1.1.1苹果AI：模型侧：MM1 3月苹果正式公布自家的多模态大模型MM1，MM1是一个具有最高300亿参数的多模态LLM系列。MM1由密集模型和混合专家（MoE）变体组成，具有300亿、70亿、30亿参数等多个版本。MM1不仅在预训练指标中实现最优性能SOTA，在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。 得益于大规模多模态预训练，MM1模型在上下文预测、多图像和思维链推理等方面表现不错。MM1模型在指令调优后展现出强大的少样本学习能力。在几乎所有基准测试中，苹果的MoE模型比密集模型取得更好的性能，显示MoE进一步扩展的巨大潜力。由于其大规模多模态预训练，MM1可进行上下文预测。这使得MM1能够：a）计数对象并遵循自定义格式；b）引用图像的部分并执行OCR；c）展示关于日常物品的常识和词汇知识；d）执行基本的数学函数。 MM1模型可以遵循指令进行跨图像推理。示例和图像来自VILA；当使用思维链提示时，VILA能够正确回答。数据来源：《MM1:Methods,Analysis&InsightsfromMultimodalLLMPre-training》，西南证券整理2 1.1.2苹果AI：模型侧：OpenELM 4月26日，苹果宣布了更大的端侧AI推进，推出全新的开源大语言模型OpenELM。OpenELM包含2.7亿、4.5亿、11亿和30亿个参数的四种版本，定位于超小规模模型，运行成本更低，可在手机和笔记本电脑等设备上运行文本生成任务。同时，公司开源了OpenELM模型权重和推理代码、数据集、训练日志、神经网络库CoreNet。 OpenELM使用了“分层缩放”策略，来有效分配Transformer模型每一层参数，从而提升准确率。在约10亿参数规模下，OpenELM与OLMo相比，准确率提高了2.36%，同时需要的预训练token数量减少了50%。 OpenELM与公开LLM对比常见的小模型性能对比 OpenELM的基准测试（数据类型BFloat16）在工作站（配备英特尔i9-13900KFCPU、RTX4090GPU，24GBDDR5内存），以及M2MaxMacBookPro（64GB内存）运行。数据来源：《OpenELM:AnEfficientLanguageModelFamilywithOpenTrainingandInferenceFramework》，新智元，西南证券整理3 1.1.3苹果AI：模型侧：Ferret-UI 4月8日，苹果展示了多模态模型Ferret-UI。Ferret-UI系统可以理解手机屏幕上的应用程序内容，专为增强对移动端UI屏幕的理解而定制，其配备了引用（referring）、定位（grounding）和推理（reasoning）功能。Ferret-UI具备了解决现有大部分通用多模态大模型所缺乏的理解用户界面（UI）屏幕并与其有效交互的能力。Ferret-UI与OpenAI近期发布的GPT-4o、谷歌近期发布的Gemini1.5Pro在功能上异曲同工。 Ferret-UI可执行从基本到复杂任务等11种任务。它能在移动UI屏幕上使用灵活的输入格式（点、框、涂鸦）执行指代任务（例如控件分类、图标识别、OCR）和定位任务（例如查找控件、查找图标、查找文本、控件列表）。这些基本任务为模型提供了丰富的视觉和空间知识，使其能在粗略和精细级别（例如各种图标或文本元素之间）区分UI类型。这些基础知识对于执行更高级的任务至关重要。具体来说，Ferret-UI不仅能在详细描述和感知对话中讨论视觉元素，还可在交互对话中提出面向目标的动作，并通过功能推理推断出屏幕的整体功能。数据来源：《Ferret-UI:GroundedMobileUIUnderstandingwithMultimodalLLMs》，西南证券整理4 1.1.3苹果AI：模型侧：Ferret-UI Ferret-UI-anyres（“任意分辨率”）架构 Ferret-UI建立在Ferret的基础上。Ferret是一个MLLM，在不同形状和细节水平的自然图像中实现空间参考和基础。无论是点、框还是任何自由形式的形状，它都可以解释相应区域或对象并与之交互。Ferret包含一个预训练的视觉编码器（例如CLIP-ViT-L/14）和一个DecoderOnly的语言模型（例如Vicuna）。此外，Ferret还采用了一种独特的混合表示技术，该技术将指定区域转换为适合LLM处理的格式。本质上，空间感知视觉采样器旨在熟练地管理不同稀疏度级别的区域形状的连续特征。 虽然Ferret-UI-base是基于Ferret的架构，但Ferret-UI-anyres包含额外的细粒度图像功能。特别是，预训练的图像编码器和投影层为整个屏幕生成图像特征。对于基于原始图像长宽比获得的每个子图像，都会生成额外的图像特征。对于具有区域参考的文本，视觉采样器会生成相应的区域连续要素。LLM使用全图像表示、子图像表示、区域特征和文本嵌入来生成响应。数据来源：《Ferret-UI:GroundedMobileUIUnderstandingwithMultimodalLLMs》，西南证券整理5 1.1.3苹果AI：模型侧：Ferret-UI Ferret-UI对基本任务的处理流程：UI检测器输出所有检测到的元素，以及每个元素的类型、文本和边界框。这些检测用于为基本任务创建训练样本。对于定位任务，使用所有元素检测来创建一个用于控件列表的样本，而其余任务一次专注于一个元素。将元素分为图标、文本和非图标/文本控件。对于每种类型，创建一个指代样本和一个定位样本。 Ferret-UI对复杂任务的处理流程：首先从检测输出中归一化边界框坐标，然后将检测、提示和可选的单次示例发送到GPT-4 。对于详细的描述和函数推理，将生成的响应与预先选择的提示配对，以训练Ferret-UI。对于对话任务，直接将GPT-4输出转换为多回合对话。数据来源：《Ferret-UI:GroundedMobileUIUnderstandingwithMultimodalLLMs》，西南证券整理6 1.1.3苹果AI：模型侧：Ferret-UI Ferret-UI在简单任务处理上击败了GPT-4V。但在复杂任务处理上还是不如GPT-4V。 通过精心设计“任意分辨率”（anyres ）以适应各种屏幕宽高比，以及策划包含广泛的基本和高级UI任务的训练样本，Ferret-UI在引用、定位和推理方面表现出显著的熟练程度。这些增强能力的引入预示着在众多下游UI应用中或将取得重大进步，从而扩大Ferret-UI在这一领域所能提供的潜在益处。数据来源：《Ferret-UI:GroundedMobileUIUnderstandingwithMultimodalLLMs》，西南证券整理7 1.2.1苹果AI：硬件侧：手机AP后劲不容小觑 苹果是较早介入AI计算单元的厂商，早在2017年就在SoC中引入了NPU计算单元，并搭载于iPhone8、iPhone8Plus及iPhoneX上。苹果A17芯片虽然算力为35TOPS，仅相当于高通骁龙8Gen2的AI性能（8Gen2可在手机侧运行10+亿参数的AI小模型），但手机上运行AI模型的效果还需看CPU/GPU/NPU的综合能力，软件生态上的适配优化也是提升用户体验的重要操作。 随着AI布局的深入，苹果将充分发挥在架构设计、iOS生态和软件优化方面的优势，其后劲不容小觑。苹果从A11开始引入端侧NPUAI加速器手机NPU算力升级趋势数据来源：苹果，高通，西南证券整理8 1.2.2硬件侧：M系列芯片：统一内存架构+能效比优势在端侧AI时代极具想象空间 苹果自2020年11月开始推出针对Mac和iPad的M系列芯片，M系列芯片至今迭代了4代。 苹果M系列芯片采用统一内存架构设计，允许CPU、GPU及其他协处理器共享和访问相同的内存池，使得并行计算更快速高效。M4芯片支持120GB/s的系统内存带宽，M3芯片最高支持128GB内存，M2Ultra配置高达192GB的统一内存和800GB/s的系统内存带宽，相当于支持了近似容量的显存，甚至可能容纳下LLaMA-65B模型（650亿参数，显存需求是130GB左右）。在苹果统一内存架构下，CPU、GPU和内存直接通过硅中介层连在一起，数据传输带宽极高。M3/M4系列芯片采用ARM架构设计，台积电3nm工艺制造，在能效比方面优势显著。苹果统一内存架构+ARM架构的能效比优势在端侧AI时代极具想象空间。苹果M系列芯片规格数据来源：苹果官网，西南证券整理9 1.2.3苹果AI：在内存有限的环境下如何增强LLM的推理效率 苹果在其发表的论文《LLMinaflash:EfficientLargeLanguageModelInferencewithLimitedMemory》中详细阐述了如何在DRAM容量有限的设备中高效地运行LLMs。 苹果将模型参数存储在Flash中，按需将其带入DRAM，从而高效地运行超出可用DRAM容量的LLMs。为此，苹果构建了一个推理成本模型，其通过引入两种主要技术，即“窗口化”（通过重用之前激活的神经元战略性地减少数据传输）、以及“行列打包”（针对闪存的顺序数据访问优势，增加了从闪存读取的数据块大小），减少了从闪存传输的数据量、以及以更大更连续的块读取数据。这些方法使得能运行的模型大小达到可用DRAM容量的两倍，与CPU和GPU中的简单加载方法相比，推理速度分别提高了4-5倍和20-25倍。这些方法促成了数据负载的显著减少和内存使用效率的提高，对于端侧部署先进的AI模型尤为关键。闪存提供更高的容量，但带宽较小闪存中随机读取的吞吐量随着顺序块大小和线程数量增加而增加苹果的方法使得单token的推理延迟大幅缩减数据来源：苹果，《LLMinaflash:EfficientLargeLanguageModelInferencewithLimitedMemory》，西南证券整理10 1.3.1苹果AI：应用侧：改造Siri，紧握AI时代流量入口 据纽约时报报道，苹果预计将在6月举行的WWDC2024上展示其人工智能领域的进展，预计将发布改进后的Siri语音助手，新Siri将更具对话性和多功能性。Siri的底层技术将包括一个新的生成式AI系统，该系统将赋予Siri聊天功能，而不是一次回答一个问题。苹果专注于让Siri更好地处理其现有任务，包括设置定时器、创建会面日程和向杂货清单添加物品等，其功能更倾向于个人助手。 根据苹果之前在语音领域发表的论文来看新版Siri可能的改进方向，主要有：1）无需唤醒词，就能使用Siri助手，或者更准确地检测唤醒词；2）改善用户与Siri助手之间的交流效果，比如让AI更好地理解模棱两可的问题、理解罕见词；3）生成答案时不再冗长，用户更容易理解等。 GPT-4o拟人化语音交流 GoogleAstra演示用手机实时推理 结合5月OpenAI和谷歌的发布会来看，在AI语音方面，GPT-4o的拟人化风格，包括能识别人类感情，并根据用户感情做出相应的情绪反应，在语音交互中可随时打断，更贴近真实对话场景等，打破传统的类机器人体验；谷歌DeepMind展示了基于Gemeini开发的智能体Astra的语音交互能力，包括强化的智能体发音、更广泛的语调、更好地理解上下文，并在对话中快速做出响应等。鉴于苹果与OpenAI和谷歌未来可能的合作，预计这些体验未来或将加入到Siri的功能当中。数据来源：OpenAI，谷歌，西南证券整理11

点击免费查看完整报告

科技前瞻系列专题：科技公司的端侧AI布局

苹果AI布局

模型侧：

硬件侧：

应用侧：

终端未来：

投资保障：

高通AI布局

高通AI研究方向：

端侧AI挑战：

模型优化：

AIMET工具库：

硬件与软件：

高通NPU发展方向：

三星AI布局

你可能感兴趣

科技前瞻系列专题：国际巨头的端侧AI布局

海外科技前瞻系列专题：怎么看AI PC的市场空间

研选固态电池产业化持续推进，分析师看好产业链相关公司；全球物联网模组龙头，AI端侧布局已进入产业落地，新推出的RTK视觉融合定位方案已与多足机器人领20250911

中信建投科技前瞻近期端侧AI迎来密集催化产业发展提速中兴n

浙商电新帝科股份存储DRAM局部闭环前瞻布局AI算力及端侧AI

科技前瞻专题：AI ASIC：算力芯片的下一篇章

中泰电子AI全视角：科技大厂财报专题：Skyworks、QorvoCY24Q2点评：端侧AI有望拉动射频需求增长

半导体技术前瞻专题系列之一：电子行业：AI半导体的新结构、新工艺、新材料与投资建议

科技行业AI专题·从模型视角看端侧AI：模型技术持续演进，交互体验有望升级

AI产业系列跟踪专题研究报告：DeepSeek重塑AI产业格局，助力AI端侧落地

科技前瞻系列专题：科技公司的端侧AI布局

你可能感兴趣

科技前瞻系列专题：国际巨头的端侧AI布局

海外科技前瞻系列专题：怎么看AI PC的市场空间

研选 固态电池产业化持续推进，分析师看好产业链相关公司；全球物联网模组龙头，AI端侧布局已进入产业落地，新推出的RTK视觉融合定位方案已与多足机器人领20250911

中信建投科技前瞻近期端侧AI迎来密集催化产业发展提速中兴n

浙商电新帝科股份存储DRAM局部闭环前瞻布局AI算力及端侧AI

科技前瞻专题：AI ASIC：算力芯片的下一篇章

中泰电子AI全视角：科技大厂财报专题：Skyworks、QorvoCY24Q2点评：端侧AI有望拉动射频需求增长

半导体技术前瞻专题系列之一：电子行业：AI半导体的新结构、新工艺、新材料与投资建议

科技行业AI专题·从模型视角看端侧AI：模型技术持续演进，交互体验有望升级

AI产业系列跟踪专题研究报告：DeepSeek重塑AI产业格局，助力AI端侧落地

研选固态电池产业化持续推进，分析师看好产业链相关公司；全球物联网模组龙头，AI端侧布局已进入产业落地，新推出的RTK视觉融合定位方案已与多足机器人领20250911