算力优化与效率革命 企业标签:阿里云、商汤科技、面壁智能 AI变革行业创新发展 China End To Side Large Model Industry 中国エンド側大型モデル産業 撰写人:王利华 1报告提供的任何内容(包括但不限于数据、文字、图表、图像等)均系头豹研究院独有的高度机密性文件(在报告中另行标明出处者除外)。未经头豹研究院事先书面许可,任何人不得以任何方式擅自复制、再造、传播、出版、引用、改编、汇编本报告内容,若有违反上述约定的行为发生,头豹研究院保留采取法律措施、追究相关人员责任的权利。头豹研究院开展的所有商业活动均使用“头豹研究院”或“头豹”的商号、商标,头豹研究院无任何前述名称之外的其他分支机构,也未授权或聘用其他任何第三方代表头豹研究院开展商业活动。 摘要 2023年中国端侧大模型市场规模达8亿元,持乐观态度估计,预计2024年中国端侧大模型市场将达到21亿元 端侧大模型定义为运行在设备端的大规模人工智能模型,这些模型通常部署在本地设备上,如智能手机、IoT、PC、机器人等设备。与传统的云端大模型相比,端侧大模型的参数量更小,因此可以在设备端直接使用算力进行运行,无需依赖云端算力。 生成式AI市场的蓬勃兴起,正驱使大模型厂商积极探索端侧应用新蓝海,以此作为增长的新引擎。端侧大模型通过在设备本地运行,有效降低了数据传输延迟,增强了隐私保护,拓宽了AI应用场景的广度与深度。 端侧大模型在成本、能耗、可靠性、隐私和个性化方面相比云端推理具有显著优势,并能够以低能耗提供高效且安全的AI处理,减少延迟并保护用户隐私,适合个性化的AI应用。取决于行业对数据安全、隐私保护的需求、行业本身智能设备的普及程度以及AI大模型技术的成熟度,这些因素的相互作用和共同推动,端侧大模型将推动各行业智能化发展的步伐。 与此同时,下游市场需求的强劲增长,特别是手机与自动驾驶行业的蓬勃发展,正强力拉动端侧大模型市场的扩张,2023年中国端侧大模型市场规模达8亿元,预计2024年中国端侧大模型市场将达到21亿元。 依托技术实力和生态建设,头部大模型厂商纷纷投入端侧大模型市场,利用在云端大模型领域的技术优势,商汤商量、阿里通义以及面壁智能率先在端侧大模型领域取得领先突破。 端侧大模型面临的行业壁垒包括技术、硬件、数据、成本以及市场等方面,要求产业界在技术创新、标准制定、生态建设和市场推广等方面进行深入合作,以克服挑战,实现端侧大模型的广泛应用和落地。 研究框架 ◆中国端侧大模型行业概述 •定义与分类•发展历程•驱动力•市场规模 ◆中国端侧大模型行业产业链分析 •产业链•模型压缩技术•成本构成•厂商类型•行业场景•业务场景 ◆中国端侧大模型行业分析 •政策分析•行业壁垒•竞争格局•发展趋势 ◆中国端侧大模型行业典型厂商分析 •阿里云•商汤科技•面壁智能 ◆方法论及法律声明◆业务合作 名词解释 AI大模型:指的是大型人工智能模型,通常由数十亿至数百亿个参数组成,用于各种自然语言处理、计算机视觉等任务。模型压缩技术:是一系列用于减少大型神经网络模型尺寸和计算复杂度的技术,包括剪枝、量化、蒸馏等方法,旨在减少模型大小的同时保持其性能。IoT设备:指的是物联网设备,通常具有较小的计算能力和存储空间,但能够通过互联网进行通信和数据交换。PC设备:个人计算机,如台式机、笔记本电脑等,通常具有较高的计算和存储能力,适合运行复杂的应用程序和任务。数据中心:指的是大规模的服务器集群,用于存储和处理大量数据,支持云计算服务和网络应用。服务器:通常指的是提供网络服务、存储和计算资源的计算机系统,可用于托管网站、应用程序等。BERT:是一种预训练的自然语言处理模型,采用Transformer架构,能够理解文本语境并在各种NLP任务中取得良好性能。DistilBERT:是对BERT模型进行了蒸馏(Distillation)的轻量化版本,通过减少参数和计算复杂度来提高模型的运行效率。TinyBERT:是进一步轻量化的BERT模型,通过更深入的模型压缩和优化来适应资源受限的环境,如移动设备或物联网设备。JetsonAGX Xavier:高性能嵌入式系统,具有GPU和AI计算能力,适用于边缘计算和深度学习应用。TPU:谷歌推出的张量处理单元,是一种专门用于加速人工智能工作负载的定制硬件加速器。PyTorchMobile:是PyTorch框架的移动端部署版本,支持在移动设备上运行训练好的深度学习模型。TensorFlowLite:是谷歌推出的用于在移动设备和嵌入式系统上部署深度学习模型的轻量级框架。ONNX:开放神经网络交换,是一种开放的跨平台深度学习模型表示格式,支持模型在不同框架之间的转换和部署。预训练模型:指的是在大规模文本数据上进行预训练的神经网络模型,通常包含通用的语言或视觉理解能力,并可通过微调适应特定任务。中心云:指的是传统的云计算架构,数据和计算资源集中在大型数据中心进行管理和运行。边缘云:是一种分布式的云计算架构,将计算和存储资源放置在接近终端用户的边缘节点上,以提高服务响应速度和降低网络延迟。AI芯片:专门用于加速人工智能计算任务的硬件芯片,能够在高效率和低能耗的条件下进行大规模并行计算。知识蒸馏:是一种通过让一个较大且性能较好的模型(教师模型)指导一个小型模型(学生模型)来提高学生模型性能的技术,通常用于模型压缩和轻量化。 Chapter1行业概述 ❑定义与分类❑发展历程❑驱动力❑市场规模 中国端侧大模型市场探析——定义与分类 •端侧大模型定义为运行在设备端的大规模人工智能模型,与传统的云端大模型相比,端侧大模型的参数量更小,因此可以在设备端直接使用算力进行运行,无需依赖云端算力 ◼端侧大模型定义为运行在设备端的大规模人工智能模型,这些模型通常部署在本地设备上,如智能手机、IoT、PC、机器人等设备。与传统的云端大模型相比,端侧大模型的参数量更小,因此可以在设备端直接使用算力进行运行,无需依赖云端算力。 模型推理方式:服务器或云端 ◼AI大模型通常在数据中心或云端进行训练,使用大规模的计算资源和海量数据。相比之下,端侧大模型由于资源限制,往往需要在设计和训练阶段进行模型压缩和优化。在推理方式上,AI大模型通常运行在服务器或云端,通过强大的计算能力处理复杂的任务。然而,这种云端推理方式依赖于网络连接,会带来延迟和隐私问题。端侧大模型则是在本地设备上进行推理。 ◼参数量是AI大模型和端侧大模型的一个显著区别。AI大模型通常具有数十亿甚至上百亿的参数,如GPT-3的1,750亿参数。这种巨大的参数量使得大模型能够捕捉复杂的数据模式并在多种任务中表现出色。然而,端侧设备的计算能力和存储资源有限,因此端侧大模型的参数量通常较小。通过模型压缩技术,如知识蒸馏、剪枝和量化,端侧大模型的参数量可以减少到几百万或更少。例如,MobileBERT的参数量仅为BERT的1/4左右,但依然能够在移动设备上高效运行。 中国端侧大模型市场探析——发展历程 •AI大模型逐渐在技术、硬件和应用层面实现向端侧设备的迁移和优化,提升端侧大模型在实际应用中的效率和性能,逐渐能够在端侧设备上高效运行,提供更好的用户体验和更多的实时应用场景 ◼大模型的兴起 2018年,Google发布了BERT,这是第一个使用双向Transformer的预训练模型,在多个自然语言处理任务上取得了显著的性能提升。 2020年,OpenAI发布了GPT-3,它具有1750亿参数,展示了大规模语言模型在各种应用中的强大能力,并进一步推动了大模型的发展。 ◼模型压缩与优化 通过知识蒸馏技术,将大模型的知识转移到小模型中,使得模型在保持较高性能的同时,减少计算资源需求。例如,TinyBERT和DistilBERT都是通过蒸馏技术获得的小型化模型。 ◼硬件加速 Google的TPU和其他厂商的NPU专门用于加速AI模型的训练和推理,大大提升了大模型在设备端的性能。NVIDIAJetson、华为Ascend等,提供了强大的边缘计算能力,使得大模型能够在终端设备上高效运行。 ◼软件框架的改进 TensorFlowLite和ONNX这些轻量级的模型推理框架支持在移动设备和嵌入式设备上运行深度学习模型,优化了资源利用和运行效率。PyTorch的移动版本,使得开发者能够更容易部署PyTorch模型。 中国端侧大模型市场探析——驱动力 •端侧大模型在成本、能耗、可靠性、隐私和个性化方面相比云端推理具有显著优势,并能够以低能耗提供高效且安全的AI处理,减少延迟并保护用户隐私,适合个性化的AI应用 ◼从成本优势来看,AI推理的规模远高于AI训练。尽管训练单个模型会消耗大量资源,但大型生成式AI模型预计每年仅需训练几次。然而,这些模型的推理成本将随着日活用户数量及其使用频率的增加而增加。在云端进行推理的成本极高,这将导致规模化扩展难以持续。 ◼从能耗来看,支持高效AI处理的边缘终端能够提供领先的能效,尤其是与云端相比。边缘终端能够以很低的能耗运行生成式AI模型,尤其是将处理和数据传输相结合时。这一能耗成本差异非常明显。 ◼从可靠性、性能和时延来看,终端侧AI处理能够在云服务器和网络连接拥堵时,提供媲美云端甚至更佳的性能。当生成式AI查询对于云的需求达到高峰期时,会产生大量排队等待和高时延,甚至出现拒绝服务的情况。向边缘终端转移计算负载可防止这一现象发生。 ◼从隐私和安全来看,端侧大模型从本质上有助于保护用户隐私,因为查询和个人信息完全保留在终端上。对于企业和工作场所等场景中使用的生成式AI,这有助于解决保护公司保密信息的难题。 ◼从个性化来看,数字助手将能够在不牺牲隐私的情况下,根据用户的表情、喜好和个性进行定制。所形成的用户画像能够从实际行为、价值观、痛点、需求、顾虑和问题等方面来体现一个用户,并且可以随着时间推移进行学习和演进。 中国端侧大模型市场探析——市场规模 •下游市场需求的强劲增长,特别是手机与自动驾驶行业的蓬勃发展,正强力拉动端侧大模型市场的扩张,2023年中国端侧大模型市场规模达8亿元,预计2024年中国端侧大模型市场将达到21亿元 生成式AI市场的蓬勃兴起,正驱使大模型厂商积极探索端侧应用新蓝海,以此作为增长的新引擎。端侧大模型通过在设备本地运行,有效降低了数据传输延迟,增强了隐私保护,拓宽了AI应用场景的广度与深度。例如,智能手机集成的AI摄影功能,能实时识别场景并优化图像质量;可穿戴设备利用端侧模型监测健康指标,提供即时反馈。与此同时,随着AI芯片等算力市场带动,为端侧大模型打开新的市场空间。高性能、低功耗的AI芯片设计使得复杂模型能够在手机、物联网设备等终端高效运行,无需依赖云服务,显著提升响应速度与用户体验。2021年全球AI芯片市场规模达到200亿美元,预计到2025年将超过700亿美元,其中端侧AI芯片占比快速提升,成为增长的重要动力。 ◼下游市场需求的强劲增长,特别是手机与自动驾驶行业的蓬勃发展,正强力拉动端侧大模型市场的扩张 手机作为个人智能终端的核心,正集成更先进的AI功能以提供个性化服务与优化用户体验,如荣耀Magic系列利用端侧AI大模型实现偏好理解与多模态交互。同时,自动驾驶领域对实时性与安全性要求极高,推动了BEV+Transformer等技术与端侧大模型的融合,百度Apollo ADFM等L4级自动驾驶大模型的推出,标志着该领域迈向商用新阶段。 Chapter2产业链分析 ❑产业链图谱❑模型压缩技术❑成本构成❑厂商类型❑行业场景❑业务场景 中国端侧大模型市场探析——产业链 •中国端侧大模型上游主要包括AI芯片供应商、云计算服务商以及数据服务商,中游为端侧大模型科技厂商和端侧科技企业,主要通过设备企业最终应用到汽车、教育等各行各业 中国端侧大模型市场探析——模型压缩技术 •通过知识蒸馏,端侧大模型能够在保持较高性能的同时,大幅减少模型参数量和计算复杂度。