您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[移远通信]:AI大模型技术方案白皮书 - 发现报告

AI大模型技术方案白皮书

信息技术2025-07-01移远通信周***
AI智能总结
查看更多
AI大模型技术方案白皮书

发展态势应用场景技术方案未来展望成功案例引言技术特点 3 4 10 16 23 31 40 引言 在科技飞速发展的当下,AI大模型与5G、物联网等的融合正成为一股不可阻挡的浪潮,深刻地改变着物联网行业的格局。从智能家居到工业制造,从智慧医疗到辅助驾驶,AI大模型的应用为物联网带来了前所未有的机遇和变革。2025年,AI将在物联网的边缘设备上得到广泛应用,例如智能视频传输设备、工业设备等,实现本地化的实时数据处理和推理。这种融合不仅减少了数据传输延迟,还降低了云端计算和存储的压力,同时提高了数据隐私和安全性。 尤其自2024年5G-A商用以来,其在容量、速率、时延、定位等方面较5G均实现了大幅度提升。数据下载的最高速率从5G初期的千兆提升到万兆,上行的峰值速率也从百兆提升到千兆;毫秒级低时延,大大减少了数据传输的延迟时间;支持更多设备同时接入,无论是拥挤的商场还是设备密集的智慧家居场景,5G-A都能保持稳定连接。 在5G-A商用一周年之际,最新统计数据显示,全国已有300多个城市实现5G-A覆盖,用户数超1,000万名。5G-A的大上行体验、低时延特性以及全场景物联能力,将为移动AI时代的实时交互、多模态处理和广泛连接提供更坚实保障,赋能千行百业智能化升级。 在智能化升级的宏大版图中,AI智能体是另一极为关键的一环,是实现复杂智能任务的核心载体。AI智能体是一种具备自主感知、决策和执行任务能力的智能系统。它就如同拥有“智慧大脑”的虚拟存在,能够像人类一样,依据周围环境的变化做出合理判断与行动。 随着AI智能体与5G、物联网等前沿技术深度融合,创造出更多令人瞩目的应用场景与商业模式,智能体能够实时获取海量的设备数据,实现对各类设备的精准控制与智能管理,二者融合催生“智能连接体”。 以“智能连接体”为核心的AI大模型包括端侧大模型和云端大模型,二者各自有明显的优势和应用场景。端侧模型通过在本地运行实现低时延、隐私保护和成本节省,而云端大模型则利用云计算资源提供强大的计算能力和大规模多模态处理。未来,通过硬件与软件的深入优化,大模型技术将在端-云协同的架构下,进一步拓展其应用场景和实际价值,满足智能家居、智能制造、智慧医疗、辅助驾驶等众多场景需求。 技术特点 “AI大模型”是人工智能预训练大模型的简称,作为一种基于深度学习的人工智能模型,其包含了“预训练”和“大模型”两层含义,二者结合产生新的人工智能模式,其中预训练阶段通过海量数据(如互联网文本、图像)学习通用特征(如语言结构、图像纹理),形成基础认知能力;微调仅需针对具体任务,通过优化模型高层参数适应特定场景,同时保留底层通用特征,无需从头训练,从而大幅降低数据需求,并提升跨任务鲁棒性。这些模型通常具有多层神经网络结构,并使用优化算法和计算资源进行训练,具有强大的泛化性(知识迁移到新领域)、通用性(不局限于特定领域)和涌现性(产生预料之外的新能力)特征。具体来说,AI大模型通过对海量数据的学习,捕捉其中的规律和知识,从而在自然语言处理(NLP)、计算机视觉(CV)、智能语音等多个领域实现突破性性能提升。 AI大模型的应用正迅速成为新一代信息技术发展的主流,按部署方式划分,AI大模型主要分为云侧大模型和端侧大模型两类。无论是云端运行还是端侧部署,它们都展示了巨大的潜力和差异化的优势。云侧大模型由于部署在云端,其拥有更大的参数规模、更多的算力资源以及海量的数据存储需求等特点;端侧大模型通常部署在手机、PC、智能设备等终端上,具有参数规模小、响应速度快、本地化运行、隐私保护强等特点。 具体而言,云侧大模型分为通用大模型和行业大模型;端侧大模型主要有手机大模型、PC大模型、行业大模型等。从云侧大模型看,通用大模型具有适用性广泛的特征,其训练数据涵盖多个领域,能够处理各种类型的任务,普适性较强;行业大模型具有专业性强等特点,针对特定行业(如金融、医疗、工业等)的需求进行模型训练,因而对特定领域具有更深的业务理解和场景应用能力。从端侧大模型来看,大模型由于直接部署在智能设备终端,能让用户体验到更加个性化和便捷的智能体验。 例如,OpenAI推出的GPT系列模型就是一种典型的AI大模型,其具有巨量参数和深度网络结构,能学习并理解众多特征和模式,从而在处理复杂任务时展现强大的自然语言理解、意图识别、推理、内容生成等能力,同时具有通用问题求解能力,被视作通往通用人工智能的重要路径。 云侧大模型技术特点 近年来,我国云侧大模型蓬勃发展,伴随多家科技厂商的云侧大模型落地商用,各类通用及行业大模型已在多个领域取得了显著成果。例如在金融、医疗、教育等领域,AI大模型已成为提升服务质量和效率的重要手段。我国代表性的通用AI大模型包括DeepSeek、字节跳动的豆包、科大讯飞的讯飞星火认知大模型、百度的文心一言以及阿里巴巴的通义千问等;行业AI大模型主要有蜜度的文修、容联云的赤兔、用友的YonGPT等大模型。 四是可扩展性强。AI大模型可以通过微调(Fine-tuning)适应特定领域的需求,从而在医疗、教育、金融等领域发挥作用。 五是具备多模态能力。多模态大型语言模型(MultimodalLarge Language Models,简称MLLMs)以其强大的跨模态理解和推理能力,不仅能同时外理文本、图像、音频、视频、3D模型等多种数据类型,还能实现信息的深度融合与推理,极大拓展了AI的应用边界。 纵观各家主流厂商的云侧大模型,其主要技术特点有: 随着人工智能技术的飞速发展,单一模态的AI模型已难以满足现实世界的复杂需求。自2025年以来,MLLMs开始成为推动产业智能化升级和社会数字化转型的中坚力量。其核心在于通过统一的深度学习架构(如Transformer)实现不同模态信息的融合与推理,具备更接近人类认知的多维感知和理解能力。 一是参数规模庞大。云侧大模型的核心特点在于其参数量巨大。参数是模型中学习到的权重,用于表示输入与输出之间的关系。大规模的参数量使模型能够更好地捕捉数据中的细微差异,提升预测能力和生成质量。 二是训练数据丰富。云侧大模型通常基于海量数据进行训练,这些数据涵盖了多种语言、领域和场景,从而使模型具备广泛的适应性和通用性。 MLLMs的关键优势在于它们能够处理和理解来自不同模态的信息,并将这些信息融合以完成复杂的任务。例如,MLLMs可以分析一张图片并生成描述性的文本,或者根据文本描述生成相应的图像。这种跨模态的理解和生成能力,使得MLLMs在多个领域,如辅助驾驶、智能助理、内容推荐系统、教育和培训等,都有广泛的应用前景。 三是具备多任务能力。传统模型往往针对特定任务进行训练,而云侧大模型具备跨任务学习的能力。例如,GPT-4不仅能生成文章,还能进行代码编写、翻译甚至逻辑推理。 四是强化了数据标注与质量控制。高质量多模态数据集的构建和标注难度大。目前,自动化预标注与人机协同标注方案已显著提升了效率和数据质量。 进一步展开来看,目前主流MLLMs的技术特点有: 一是解决了数据异构性与对齐问题。不同模态在结构、采样频率、语义层级等方面差异显著,时空和语义对齐是核心挑战。为此,业界采用了动态时间规整(DTW)、跨模态注意力机制等技术,提升对齐精度。 五是加快推进解决模型泛化与幻觉控制问题。多模态模型易产生“幻觉”或空间推理错误。目前,空间认知仍是短板,MLLMs约71%的错误即源于此,尤其物体定位等任务平均正确率仅44.3%。思维链(Chain-of-Thought)、强化学习等技术正被应用于提升推理准确性。 二是攻克了高维性与冗余信息难题。多模态数据存在维度高、冗余大的问题,需要进行有效的特征提取和冗余去除。通过深度神经网络和特征选择算法,模型能够自动选取有用信息,提升推理效率和准确性。 三是突破了推理复杂度与实时性瓶颈。跨模态推理计算复杂,尤其在工业质检、辅助驾驶等场景,对推理延迟和能效比要求极高。MoE(混合专家)稀疏激活等技术可将千亿参数模型能耗降低75%,边缘设备推理功耗<1.2W。 端侧大模型技术特点 云侧大模型的优势突出,但与此同时,随着AI技术的深入应用,AI模型的规模急剧增长,云侧大模型的健康可持续发展开始面临严峻挑战,例如,云侧推理成本极高,生成式AI规模化拓展难以持续;AI推理规模远高于训练,不仅训练单个模型会消耗大量资源,而且大型生成式AI模型的推理成本将随着日活用户数量及其使用频率的增加而增加;网络依赖性及隐私保护等问题日益突出。 • DeepSeek-R1-Distill-Qwen-1.5B• DeepSeek-R1-Distill-Qwen-7B• DeepSeek-R1-Distill-Llama-8B• DeepSeek-R1-Distill-Qwen-14B• DeepSeek-R1-Distill-Qwen-32B• DeepSeek-R1-Distill-Llama-70B 通过蒸馏技术,能将原“满血版本”DeepSeek-R1的推理能力,迁移到速度快且体积更小、成本更低的各版本中。这一突破使其小尺寸版本在保持卓越性能的同时,显著降低了模型体积和计算资源需求,成为端侧部署的理想选择。在不同计算资源和应用场景下,企业都可以更灵活地部署大模型,通过合理的硬件搭配及性能调优,可为各规模企业提供性价比最优的大模型使用体验。 在此背景下,AI大模型技术向终端设备迁移成为必然趋势,端侧大模型应运而生。这种技术无需将收集到的数据上传至云端或服务器进行处理,而是在设备本地就完成数据的分析、决策与响应。通过将AI能力下沉到设备端,端侧AI赋予了终端设备智能处理和分析数据的能力,不仅减少了云服务的依赖,还显著提高了响应速度,强化了隐私保护,并降低了网络需求。 以蒸馏后得到的Qwen-32B和Llama-70B为例,其推理能力分别显著超越了原始的Qwen2.5-32B和Llama3-70B,展现了DeepSeek强大的赋能能力。 尤其是DeepSeek的出现,对端侧大模型的发展具有革命性意义。例如DeepSeek-V3采用创新的MoE(混合专家)架构,每层包含256个路由专家和1个共享专家,每个Token仅激活8个专家,大幅降低了训练和推理成本。DeepSeek-V3在经过“冷启动监督微调-面向推理的强化学习-拒绝采样与监督微调-全场景强化学习”四个阶段精心训练的基础上,升级为DeepSeek-R1,目前已推出最新迭代版本Deep-Seek-R1-0528。R1-0528在HuggingFace上开源,开发者能自由使用和修改;参数量达6,850亿,显著提升了模型的思维深度与推理能力,同时,在数学、编程与通用逻辑等多个基准测评中取得了当前国内所有模型中首屈一指的优异成绩,并且在整体表现上已接近其它国际顶尖模型,特别是在深度推理、代码生成、文本生成和长时间思考等方面已超越众多顶流大模型。 为解决小推理模型自我学习的不足,DeepSeek-R1通过高效蒸馏(Distillation)技术,将自身的模型知识和推理能力迁移到轻量级模型中(如Qwen2.5、Llama3),进一步形成如下向社区开源的6个蒸馏模型: 三是个性化特点突出。与云端大模型相比,端侧大模型能够更深入地了解用户的偏好和行为模式,根据用户的数据和使用习惯进行个性化训练和优化,为用户提供更加精准、贴心的服务。例如,在智能语音助手、个性化推荐等场景中,端侧大模型可根据用户的历史记录和实时反馈,不断调整和优化自身的模型参数,提供更加符合用户个性化需求的服务。 随着技术的不断进步与应用的持续拓展,端侧大模型正引领一场深刻的交互体验革命,其主要技术特点包括: 一是具备轻量化和低成本特点。端侧设备的硬件资源相对有限,因此端侧大模型需要具备轻量化的特点,能够在较小的内存和算力条件下运行。通过模型压缩、量化等技术手段,端侧大模型可以在不损失过多性能的前提下,大大减少模型的存储空间和计算量,使其能够适应端侧设备的运行环境。与此同时,