AI智能总结
2024年AI大模型技术变迁情况回溯 中国移动智慧家庭运营中心2024年12月 摘要 2024年大模型技术快速演进,相较于2023年的大小模型之争,技术的进步方向逐步向应用落地方向倾斜,降低端侧模型部署门槛,缩短模型推理时延,提升模型交互能力,大模型的发展迎来了新的变化。本文将从技术视角梳理2024年以来大模型各个领域发生的变化,以行业领先实践为佐证,提出大模型技术演进方向。语言大模型发展迎来新范式,通过强化学习优化内部思维链策略,以提升复杂逻辑推理能力。多模态大模型架构正向端到端演进,决策准确性和灵敏度提升推动机器人场景应用落地。在视频生成领域,DiTs架构的可扩展性优势显现,推动AI应用商业化。在硬件部署方面,模型压缩、安全控制等技术正降低部署门槛。在智能体实践方面,垂类大模型开始在智能终端环境应用。在合成数据策略方面,自我奖励语言模型生成合成数据,试图打破数据瓶颈。 一、语言大模型领域:后训练阶段规模定律显现,以强化学习优化内部思维链策略或成大模型发展新范式 在2024年之前,语言类大模型的参数量快速扩展带来的“规模定律”获得业界普遍共识,因模型参数规模扩展、数据集质量提升以及人工微调为语言模型展现出前所未有的泛化能力和通用能力。而今年9月OpenAI公开发布o1推理大模型后,使得语言类大模型在解决专业科学、代码和数学模型等复杂逻辑推理问题的能力上更进一步。通过研究o1的技术原理发现,其以强化学习优化模型内部思维链推理逻辑步骤,模拟人的思考过程,以加深对问题的理解程度从而提升处理复杂推理任务能力。o1推理大模型的发布标志著语言大模型的“规模定律”正延展至后训练阶段,OpenAI首席技术官米拉穆拉迪称通过强化学习优化思考策略或将是未来大模型发展新范式。 通过强化学习学会了精炼其思维链并优化所用的策略,学会识别并纠正错误,将复杂的步骤分解为更简单的部分,并在 当前方法无效时尝试不同的途径。通过这个过程显著提升了模型的推理能力。在多个高难度推理基准测试中,o1的表现出色,超越人类专家和GPT-4o,展示了其强大的推理能力和在某些领域的专业知识。 无独有偶,斯坦福团队今年3月发布论文提出的Q-STaR语言模型也有类似的原理,利用强化学习优化中间图例过程,实现并行原理生产、混合原理预测、优化原理生成的能力。其测试在7B参数规模的语言类模型上表现优异,经调整后的语言模型在零样本测试准确率大幅提升。 二、多模态大模型领域:主流模型架构从跨模态向端到端演进,提高决策准确性的同时提升模型灵敏度,以 满足无人驾驶、人形机器人应用场景下的需求 过去业界多模态大模型多采用基于语言模型为主干的跨模态架构,其往往通过模态特定的编码器(RNN、CNN)转化为统一的向量表示后再输入语言模型,依靠语言模型来处理模态融合后的特征交互。但是这样带来的问题是任务响应时间长、损失模态间交互细节。 2024年以来以GPT-4o、Gemini为代表的多模态大模型纷纷开始使用端到端支持多种模态统一输入输出的模型架构。在该架构下引入分词器,通过将图像、音频等连续信号转换为离散 的token序列,然后与文本模态做统一表示,共同输入到基于自注意力的Transformer等模型中,实现端到端的学习。通过简化了模型的输入接口,减少模态间的信息损失,提升了模型处理即时任务的响应时间。 2024GTC大会上,英伟达发布了人形机器人项目GR00T,旨在开发人形机器人的通用基础模型,该模型便是基于控制、执行和决策三个层级分层实现模型的端到端训练学习,最终通过合并反向反馈来得到精准输出结果,相比于直接通过语言大模型来让机器人实现自主决策可大幅提升机器人处理复杂任务的 精度、高效性以及灵活性。相比于人形机器人,端到端架构更早应用于无人驾驶领域,特斯拉早在2023年便发布了史上第一个端到端AI无人驾驶系统——FSD Beta V12,打破了传统无人驾驶模块化、人为预设规则解决方案的定式,只需通过摄像头、激光雷达等传感器数据输入,无需任何预设规则,便可直接输出控制车辆方向和速度的操作指令,使得无人驾驶方案变得更高效、成本更低。 三、视频生成领域:DiTs核心架构的可拓展性优势显现,基于数据处理、视频标注、音频模型的微创新推动视频生成应用更加平价高效,为AI应用带来更大商业化空间 2024年以来,国内外科技大厂发布的视频生成模型多以DiTs为基础,基于Transformer架构的扩散模型在视频生成任务中可扩展性优势凸显,即相较于原先的U-Net卷积网络架构,Transformer骨干架构可以提供基于参数规模和训练数据量提升而带来更优越的性能。同时通过Transformer的窗口注意力机制 可有效降低高维视频信号对算力的需求,解决Transformer输入序列长度增加带来内存巨额开销的问题。 2024年2月,OpenAI发布视频生成模型Sora便是基于DiTs架构,在生成视频的像素稳定性、前后逻辑连续性以及信息丢失等方面有大幅提升。Sora除了采用DiTs架构以外,还在数据处理和视频标注领域做了创新。在数据方面,基于视频编码器将样本空间数据进行时间空间维度压缩和Patch化处理,再通过相应解码器实现隐空间向视频像素空间的映射,以训练新的视频压缩网络实现长视频生成的能力。在视频标注方面,复用 DALL-E3的重标注技术,对视频数据生成高质量文字标注,借助GPT对提示词进行扩展从而提升视频生成效果。 2024年10月,Meta Movie Gen视频生成模型发布,其延续了原先视频生成模型架构的基础上,叠加了一个13B参数转换器模型Meta Gen Audio,通过数百万个小时的音频参考数据的对比总结,Meta Gen Audio可精准匹配声音和画面之间的对应关系,根据不同情绪和环境的提示词,找到与画面完美契合的音乐。 虽然视频生成模型的商业化仍处于早期,以国内公司为例如Vidu、PixVerse、可灵等视频生成模型目前已经开面向C端采用订阅模式收费,年费标准版会员4-5s视频生成价格折合为0.025-0.1美元左右,面向B端的API调用价格暂未确定,但伴随着架构持续成熟以及各类创新技术推动下,视频生成有望更加平价高效,为AI应用带来更大商业化空间。 四、硬件部署实践方面:在端云结合架构下,模型 压缩、安全控制、闪存运行以及推理优化降低大模型硬件部署门槛,为AI+硬件赋能筑基 苹果作为智能硬件全球领先的科技公司,在软硬件、操作系 统领 域拥有 强 势 地位, 其 在2024年6月 发 布 的AppleIntelligence便为大模型硬件部署实践提供了很好的指引。 Apple Intelligence采用端云结合方案,即分别在设备端和服务 器 端 部 署 大 小 语 言 模 型(AFM-on-device和AFM-server),不同应用可以通过统一的语义索引、意图检测等工具调用AFM模型,当遇到复杂任务超出端侧模型处理能力时,任务会被发送至服务器端模型进行处理。 图5:AppleIntelligence端云结合架构 为保障在端侧设备上运行模型同时避免精度上损失,苹果创新推出量化压缩叠加适配器的架构,一方面采用量化压缩的方法降低模型大小,同时通过LoRA适配器来恢复量化模型的精度。该适配器本身也是由特定任务上精度恢复训练得到,训练与开发成本较低,能够较好平衡模型良好性能和模型轻便化需求。 为保障模型安全可控,苹果制定了Responsible AI原则——用户赋能,即工具仅提供智能工具,尊重用户选择及隐私;代表全球,服务全球用户避免种族歧视;谨慎设计,开发设计过程设施保护措施,防止AI工具滥用或产生风险;隐私保护,通过端侧离线处理和云基础设施创新实现隐私保护,例如使用私有云计算来保护用户数据及隐私。该四大原则被整合到基础模型开发的每一个环节中,包括数据的收集与处理、模型训练、模型评估、用户反馈等。 为 提 升 大 模 型 端 侧运行流 畅度 ,苹果研 发 了LLM-in-a-flash技术,让大模型可以不受限于DRAM的限制,在推理时将参数加载至闪存中来辅助完成计算,分担存储压力,从而降低端侧设备部署大模型门槛。具体来说,苹果以“滑动窗口”和“低秩预测器”方式精简加载的参数数据量,以大幅缩短数据从闪存加载至DRAM因速度慢导致的时延。通过“行列捆绑”技术借助大模型矩阵运算数据连续存放的特性,发挥闪存顺序读取速度的优势,从而加速闪存的读取传输。另外还通过LazyLLM预填充动态剪枝技术提升模型的推理速度,苹果研究人员发现模型在推理预填充阶段,仅有少部分的token是有用的,若对每一层生成的token进行剪枝,后续层无需对这些无效token进行计算,从而很大程度的节省计算量。在不损失模型精度的前提下大幅降低模型推理时的预填充计算量,缓解预填充阶段出现的计算瓶颈问题。经测试,在LLM-in-a-flash和LazyLLM预填充动态剪枝技 术的优化下,大模型推理的时延大幅降低,在端侧可运行的模型规模也得到大幅提升,为AI+硬件赋能筑基。 型推理时延显著降低 五、智能体实践方面:以面向UI交互与操作的垂类大模型核心,结合用户意图理解及应用逻辑推演,开始在Android、Windows等智能终端环境应用 2024年以来,AI Agent领域出现诸多进展。围绕UI交互与 操作的模型相比传统大语言模型、多模态模型在基于手机、平板等智能终端实现UI界面理解、数字推理任务领域具备更好的表现能力,更适应智能体在智能终端复杂UI环境场景下落地应用。 早在2023年10月,Adept公司(Adept由前谷歌大脑主管和OpenAI工程副总裁David LUAN创立,公司成立初衷便是打造AIteammate类通用操作工具来帮助人完成工作。)就正式发布并开源80亿参数多模态大模型Fuyu-8B,其具备图表、图形和文本理解能力之外,能够厘清复杂图形中元素的相互关系,类似手机内各类APP中button的意义,并能够根据用户指令准确归纳图表信息。2024年1月,基于Fuyu-8B发布了Fuyu-Heavy多模态模型,进一步加强模型在UI界面理解和数学推理能力,以及适配多平台的可扩展性。在规模仅为传统多模态模型5%-10%的基础下,在多项基准测试以及标准文本测试中不输GPT-4V和GeminiUltra。 苹果也在今年发布了自己首个手机端Agent的多模态大模型——Ferret-UI,在理解屏幕整体功能基础上,能够基于人机对话自主推断任务并提出相应可行操作,从而帮助用户完成界面导航等开放式任务的能力在这个模型上得到了加强。 其通过图形编码器和空间感知视觉采样器来处理UI屏幕界面里图像嵌入以及混合区表示的输入问题,混合区域表示输入技术(Hybrid Region Representation)是在语言模型下提升引用、定位能力以及二者间紧密程度的创新技术,提升语言模 型理解和描述图形元素的能力。Ferret-UI不仅在架构上做了特殊调整,其训练数据集也包含大量的UI任务训练样本,可以有效的 加 强 模 型 对UI任 务 的 理 解 和执行 能 力 。 在iPhone和Andriod测试承接中,Ferret-UI在处理大多数UI基础任务时,准确性高于GPT-4v。 六、大模型合成数据策略方面:以自我奖励语言模型生成合成数据,打破Scaling Law“数据墙”瓶颈 Scaling Law的“数据墙”问题正成为当前大模型迈向通用人工智能道路上的瓶颈,有机构预言(巴克莱投资银行在《AI的下一步是什么》中提及,随着GPT5向GPT6迈进的时刻,是合成数据技术需要发挥的时刻,否则缩放定律会崩溃,阻碍模型 的改进),互联网上所有文本数据可能在GPT6推出之时消耗殆尽,若想进一步提升大模型性能,拓展数据集扩展的能力将会成为大模型大厂的核心竞争力。 2024年7月,Meta发布的Llama 3.1 405B便是完全基于合成数据方式,使用自我奖励语言模型进行训练,