行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

非Transformer架构的端侧大模型创新研究与应用

信息技术 2024-10-28 刘凡平全球人工智能开发与应用大会大表哥

端侧大模型现状、挑战与ROCKAI的实践

1. 端侧大模型的现状与挑战

1.1 大模型时代的端侧需求

行业视角：生成式AI预计2035年为全球贡献近90万亿元经济价值，其中中国占比超40%；到2028年，全球大模型市场规模预计达1095亿美元，复合增长率约47.12%。
终端设备视角：2024年中国超50%终端设备具备AI算力基础，至2027年将接近80%；瑞银预计2027年生成式AI智能手机出货量达5.83亿部，收入达5130亿美元。

1.2 狭义端侧：以推理为核心

狭义端侧模型的核心是为用户提供大语言模型推理服务，软硬件协同优化实现本地化应用，训练和微调非端侧任务。

1.3 现有大模型在端侧应用的局限性

算力要求高，数据质量要求高。
复杂且参数量巨大，开发成本高，限制创新。
可解释性差，机器幻觉严重。
能耗高，环境影响不可持续。

1.4 目前端侧大模型的主流技术方法

Transformer架构为主流，但存在上述局限性。

2. ROCKAI的端侧大模型实践

2.1 ROCKAI大模型发展历程

Yan架构通用大模型：国内首个非Attention机制大模型，行业领先的非Transformer架构大模型。

2.2 实践视角：Transformer架构的缺陷

算力与数据：高算力需求、高质量数据集不足导致性能受限。
可解释性：内部原理复杂，缺乏直观可解释性，机器幻觉严重。
能耗与环境影响：大规模训练消耗大量电能，缺乏可持续性。

2.3 专家观点

图灵奖获得者Yoshua Bengio、Aidan Gomez、Yann LeCun等均认为Transformer架构存在根本性缺陷，需探索新方法。
专家指出Transformer架构存在性能浪费、机器幻觉、缺乏常识等问题。

2.4 ROCKAI的思考

Transformer架构无法引领通用人工智能（AGI）。
真正的智能体需支持“理解表达、选择遗忘、持续学习”三种基础能力。
数据需来源于日常工作生活，而非刻意采集。

2.5 Yan架构大模型原理

核心原理：替换Attention机制，减少不必要的参数参与训练与推理。
类脑激活机制：采用MCSD（Multi-Channel Slope And Decay）模块，实现仿生神经元驱动的选择算法。

2.6 Yan架构大模型原理：MCSD

MCSD模块通过斜率变换和指数衰减提取输入数据中的当前和历史信息，进行位置感知的多通道特征融合。

2.7 Yan架构大模型原理：类脑激活机制

模拟大脑神经元激活模式，提升计算效率和精度。

2.8 端到端的多模态Yan架构大模型

非Transformer架构代表行业未来新可能。

2.9 Yan架构大模型效果

性能优势：相同参数量下，训练效率提升7倍，推理吞吐提升5倍，记忆能力提升3倍，支持CPU无损运行，幻觉表达更低。

2.10 Yan架构大模型设计特点

低成本高性能：优化算法与结构设计，显著提升效率。
消费级终端无损部署：可安装于树莓派等低功耗平台。
类人设计：类人学习、感知、交互能力。

2.11 在树莓派运行自然语言大模型

树莓派中运行自然语言大模型，Cortex系列芯片广泛应用。

2.12 在中低端手机运行多模态大模型

Yan1.2多模态大模型离线部署在手机中流畅运行，每秒可达20+tokens输出。

2.13 在小型机器人中运行多模态大模型

基于树莓派5离线部署Yan1.2多模态大模型，实现语音交互、环境感知、自我学习、动作控制等功能。

2.14 训练与推理过程对比

Yan架构显著降低训练和推理的计算复杂度。

2.15 端侧直接训练演示

10亿参数量模型可在本地直接训练和推理。

3. 未来趋势

3.1 ROCKAI思考的三层创新

应用技术创新：改进、优化或整合现有技术。
基础架构创新：模型框架、训练方法等创新。
基础理论创新：推动底层理论变革。

3.2 亟需的创新：反向传播算法

正在被挑战的反向传播算法，如Difference Target Propagation、TheHsicBottleneck等。

3.3 端侧，不止于此

端侧大模型未来将更加智能化、多模态、可持续。

3.4 创新之路

第一阶段：创新性基础架构（Yan架构大模型）。
自适应智能进化：同步学习，构建持续进化的智慧生态。

演讲人：刘凡平ROCKAI,CEO CONTENTS目录 01端侧大模型的现状与挑战 02ROCKAI的端侧大模型的实践 03未来趋势端侧大模型的现状与挑战 1.1大模型时代的端侧需求以全行业视角工信部赛迪研究院数据显示，预计2035年生成式人工智能有望为全球贡献近90万亿元的经济价值，其中我国将突破30万亿元，占比超过四成。浙商证券预计到2028年全球大模型市场规模将达到1095亿美元，2022~2028年复合增长率约为47.12%。以终端设备视角 IDC预测，2024年中国终端设备市场中，将有超过半数的设备在硬件层面具备针对AI计算任务的算力基础，至2027年，这一比例将进一步攀升至接近80%的水平。瑞银预计生成式AI智能手机出货量将从2023年的5000万部增长到2027年的5.83亿部，到2027年收入将达5130亿美元，未来面向广大C端用户的端侧大模型市场前景广阔。 1.2狭义的端侧：以推理为核心对于“狭义端侧模型”而言，软硬件技术的核心目标在于为用户提供大语言模型推理服务，在软硬件协同优化下实现了大语言模型在终端设备上的本地化应用，训练和微调并非端侧需要考虑的任务。 1.3现有大模型在端侧应用的局限性 1.4目前端侧大模型的主流技术方法 ROCKAI大模型的实践 2.1ROCKAI大模型发展历程 Yan架构通用大模型国内首个非Attention机制大模型，行业领先的非Transformer架构大模型我们为什么要做非Transformer架构的大模型？ 2.2实践视角：Transformer架构的缺陷算力要求高，数据质量要求高复杂且参数量巨大，需要极高的计算资源，增加了模型开发的成本，限制了小规模团队或个人在该领域的创新。同时高质量数据集进行预训练，由于数据量不足或者质量不高，导致模型性能难以达到最优。可解释性差，严重的机器幻觉其内部工作原理复杂，缺乏直观的可解释性。由于模型决策过程难以理解，导致用户和开发者难以信任和优化模型。生成或预测的结果与现实世界知识相冲突，导致信息不准确甚至是逻辑矛盾。能耗与环境影响，不可持续性训练大规模的Transformer模型需要消耗大量的电能，增加了经济负担，在追求技术进步的同时，缺乏对环境影响和可持续性发展的全面考虑。 2.3专家观点图灵奖获得者《Attention is All You Need》论文作者 YoshuaBengio 我们还需要在方法层面取得一些根本性突破，才能弥合人工智能与人类之间的差距。为了解决大模型目前存在的问题，我们需要探索Scaling Law之外的新方法。 Aidan Gomez 这个世界需要比Transformer更好的东西，我们所有人都希望它能被某种东西所取代，将我们带到一个新的性能高原。现在使用了太多的计算资源，做了很多浪费的计算。 YannLeCun ChatGPT、Gemini等大家熟悉的模型都是自回归大语言模型架构。虽然这些模型表现惊人，但它们经常出现愚蠢的错误，比如事实错误、逻辑错误、不一致、推理有限、毒性等。此外，LLM对潜在现实的了解有限，缺乏常识，没有记忆，而且无法规划答案。 IlliaPolosukhin 就像2+2，如果你将他输入到模型中，它就会使用一万亿个参数，我认为自适应计算是接下来必须出现的事情之一，我们需要知道在特定问题上应该花费多少计算资源。 GeofferyHinton 我对于大脑如何实际获得梯度信息、是否通过某种近似反向传播机制或是完全不同的方法来实现这一点，仍持开放态度。我认为这是个重大且尚未解决的问题。 2.4ROCKAI的思考 Transformer架构无法引领我们走向通用人工智能。实现真正意义上的通用人工智能——即能像人类一样在多种任务上达到或超过人类表现的智能体，仅凭Transformer架构可能远远不够。AGI不仅需要理解并生成语言的能力，还要求具有抽象思考、因果推理、自我反思以及跨领域迁移学习等更复杂认知功能。当前的Transformer架构模型主要基于大规模数据训练出的概率统计模式匹配能力，并没有真正理解和掌握这些高级智能特征。模型需要至少支持“理解表达、选择遗忘、持续学习”三种基础能力。人类的记忆是有限的且会随着时间而模糊或选择性遗忘。真正的智能体需要能够在与环境的互动中持续学习，而不仅仅是通过静态训练数据来提升能力。数据日常工作、生活中，而非刻意采集。现实世界的数据充满噪声且高度多样化，这种“野生”环境下的学习更能反映真实应用的需求。从日常生活工作中获取的数据能够帮助模型更好地理解人类的自然行为模式和复杂的社会动态。非Transformer架构的Yan架构大模型是什么原理？一定不是Attention机制！ 2.5Yan架构大模型原理两个基本原理 1、替换Transformer架构中o(n2)的Attention机制； 2、减少不必要的神经网络参数参与模型的训练与推理，按需被使用。类脑激活机制 MCSD 基于仿生神经元驱动的选择算法是一种类脑的激活机制，正如人类在开车时视觉皮层被大量激活，而在思考问题时逻辑区被大量激活。采用MCSD（Multi-Channel Slope And Decay）模块替换Transformer架构中的Attention机制，并成功验证了ScalingLaw机制。 2.6Yan架构大模型原理：MCSD MCSD整体架构如图一(a)所示，具有轻量级部署和快速推理能力，以解决主流Transformer的全局注意力机制使用矩阵乘法导致模型计算复杂度高，推理速度慢的问题。其中MCSD模块如图一(b)是MCSD模型的核心之处，通过斜率变换和指数衰减两个部分提取输入数据中的当前和历史信息，并进行位置感知的多通道特征融合。 2.7Yan架构大模型原理：类脑激活机制采用类脑的激活机制，实现基于仿生神经元驱动的选择算法，融合了生物启发式计算与人工智能领域的最新进展。通过模拟大脑中的神经元激活模式，能够更加有效地处理复杂数据和任务，显著提升了计算效率和精度，也为解决现实世界中的复杂问题提供了新的思路和工具。 2.8端到端的多模态Yan架构大模型会不会效果不好？端侧上能跑吗？非Transformer架构代表了行业未来新的可能。 2.9Yan架构大模型效果 2.10Yan架构大模型设计特点低成本高性能的设计创新采用优化算法与结构设计，相对于相同参数量的传统Transformer大模型具备7倍的训练效率、5倍的推理吞吐、3倍的记忆能力并且支持CPU无损运行以及更低幻觉表达。消费级终端无损部署优化模型设计，使其能无缝安装于树莓派等低功耗计算平台，拓宽应用场景至智能家居、物联网等领域。类人的设计类人的学习。引入同步学习机制，使大模型的训练与推理过程并行，模仿人类“边学边用”的认知模式，持续优化和更新知识库，以应对动态变化的环境。类人的感知。融合视觉、听觉等多模态信息处理机制，构建全面的感知体系，模拟人脑对复杂外界刺激的理解与响应。通过跨模态关联学习，增强模型在多场景下的泛化能力和鲁棒性。类人的交互。实现秒级实时反馈的人机交互模式，提供流畅、自然的沟通体验，强化情感理解和表达功能，提升模型在对话中的情感共鸣能力，增强人机互动的亲和力与可信度。 2.11在树莓派运行自然语言大模型（1） 2.11在树莓派运行自然语言大模型（2）树莓派中运行自然语言大模型。Cortex系列芯片广泛应用在机器人、工业控制、智能家居、平板电脑、无人机等。 2.12在中低端手机运行多模态大模型 Yan1.2在手机中的性能 Yan1.2多模态大模型离线部署在手机中也能流畅运行。可通过自然语言输入，Yan1.2可以理解并处理任务，为用户提供更优质的体验，每秒可达20+tokens输出。相比于传统语音助手，区别如下： 2.13在小型机器人中运行多模态大模型（1）小智机器人基于树莓派5离线部署超低算力部署Yan1.2多模态大模型，构建多模态的智能类脑。 1、通用自由问答：语音交互、语义理解2、环境感知：视觉识别与理解3、自我看书学习：视觉理解、语义理解4、动作控制：语音交互、肢体控制、指令生成5、七步成诗：内容生成、肢体协调 2.13在小型机器人中运行多模态大模型（2）不同架构下，对于模型训练和推理过程有什么影响？ 2.14训练与推理过程对比模型训 2.15端侧直接训练演示说明：一个10亿参数量的模型，在本地直接训练的示例，训练后直接本地推理。未来趋势大模型创新路上的核心竞争力是什么？ 3.1ROCKAI思考的三层创新 1、应用技术创新在现有的人工智能技术基础上，通过改进、优化或整合现有技术来解决特定问题或实现特定任务的创新。其主要目标是提高现有技术的性能和效率，而不是对技术进行彻底的重构或颠覆。 2、基础架构创新基础架构创新涉及到人工智能系统的模型框架、训练方法等的创新，旨在为各种人工智能应用提供更加稳定、高效和可靠的基础设施支持。 3、基础理论创新基础理论创新涉及到人工智能领域的基础理论、核心算法的创新，推动底层理论的变革，从而从根本上影响架构创新和应用技术创新。 3.2亟需的创新：正在被挑战的反向传播算法 Difference Target Propagationhttps://arxiv.org/pdf/1412.7525.pdf TheHsicBottleneck: Deep Learning Without Back-Propagationhttps://arxiv.org/pdf/1908.01580v1.pdf 2 Online Alternating Minimization with Auxiliary Variableshttps://arxiv.org/pdf/1806.09077.pdf 3 Decoupled Neural Interfaces Using Synthetic Gradientshttps://arxiv.org/pdf/1608.05343.pdf 4 The Forward-Forward Algorithm: Some Preliminary Investigationshttps://www.cs.toronto.edu/~hinton/FFA13.pdf 我们到底在挑战什么？ 3.3端侧，不止于此 3.4创新之路 √第一阶段创新性基础架构 Yan架构大模型，100%自研非Transformer架构，性能效率高于同参数量的主流架构。01 自适应智能进化同步学习，赋予机器自主学习与自我优化能力，构建持续进化的智慧生态。 THANKS ROCKAI，让世界上每一台设备都拥有自己的智能。Make Every Device Its Own Intelligence.

点击免费查看完整报告