您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[全球人工智能开发与应用大会]:非Transformer架构的端侧大模型创新研究与应用 - 发现报告

非Transformer架构的端侧大模型创新研究与应用

AI智能总结
查看更多
非Transformer架构的端侧大模型创新研究与应用

演讲人:刘凡平ROCKAI,CEO CONTENTS目 录 01端侧大模型的现状与挑战 02ROCKAI的端侧大模型的实践 03未来趋势 端侧大模型的现状与挑战 1.1大模型时代的端侧需求 以全行业视角 工信部赛迪研究院数据显示,预计2035年生成式人工智能有望为全球贡献近90万亿元的经济价值,其中我国将突破30万亿元,占比超过四成。浙商证券预计到2028年全球大模型市场规模将达到1095亿美元,2022~2028年复合增长率约为47.12%。 以终端设备视角 IDC预测,2024年中国终端设备市场中,将有超过半数的设备在硬件层面具备针对AI计算任务的算力基础,至2027年,这一比例将进一步攀升至接近80%的水平。瑞银预计生成式AI智能手机出货量将从2023年的5000万部增长到2027年的5.83亿部,到2027年收入将达5130亿美元,未来面向广大C端用户的端侧大模型市场前景广阔。 1.2狭义的端侧:以推理为核心 对于“狭义端侧模型”而言,软硬件技术的核心目标在于为用户提供大语言模型推理服务,在软硬件协同优化下实现了大语言模型在终端设备上的本地化应用,训练和微调并非端侧需要考虑的任务。 1.3现有大模型在端侧应用的局限性 1.4目前端侧大模型的主流技术方法 ROCKAI大模型的实践 2.1ROCKAI大模型发展历程 Yan架构通用大模型 国内首个非Attention机制大模型,行业领先的非Transformer架构大模型 我们为什么要做非Transformer架构的大模型? 2.2实践视角:Transformer架构的缺陷 算力要求高,数据质量要求高 复杂且参数量巨大,需要极高的计算资源,增加了模型开发的成本,限制了小规模团队或个人在该领域的创新。同时高质量数据集进行预训练,由于数据量不足或者质量不高,导致模型性能难以达到最优。 可解释性差,严重的机器幻觉 其内部工作原理复杂,缺乏直观的可解释性。由于模型决策过程难以理解,导致用户和开发者难以信任和优化模型。生成或预测的结果与现实世界知识相冲突,导致信息不准确甚至是逻辑矛盾。 能耗与环境影响,不可持续性 训练大规模的Transformer模型需要消耗大量的电能,增加了经济负担,在追求技术进步的同时,缺乏对环境影响和可持续性发展的全面考虑。 2.3专家观点 图灵奖获得者 《Attention is All You Need》论文作者 YoshuaBengio 我们还需要在方法层面取得一些根本性突破,才能弥合人工智能与人类之间的差距。为了解决大模型目前存在的问题,我们需要探索Scaling Law之外的新方法。 Aidan Gomez 这个世界需要比Transformer更好的东西,我们所有人都希望它能被某种东西所取代,将我们带到一个新的性能高原。现在使用了太多的计算资源,做了很多浪费的计算。 YannLeCun ChatGPT、Gemini等大家熟悉的模型都是自回归大语言模型架构。虽然这些模型表现惊人,但它们经常出现愚蠢的错误,比如事实错误、逻辑错误、不一致、推理有限、毒性等。此外,LLM对潜在现实的了解有限,缺乏常识,没有记忆,而且无法规划答案。 IlliaPolosukhin 就像2+2,如果你将他输入到模型中,它就会使用一万亿个参数,我认为自适应计算是接下来必须出现的事情之一,我们需要知道在特定问题上应该花费多少计算资源。 GeofferyHinton 我对于大脑如何实际获得梯度信息、是否通过某种近似反向传播机制或是完全不同的方法来实现这一点,仍持开放态度。我认为这是个重大且尚未解决的问题。 2.4ROCKAI的思考 Transformer架构无法引领我们走向通用人工智能。 实现真正意义上的通用人工智能——即能像人类一样在多种任务上达到或超过人类表现的智能体,仅凭Transformer架构可能远远不够。AGI不仅需要理解并生成语言的能力,还要求具有抽象思考、因果推理、自我反思以及跨领域迁移学习等更复杂认知功能。当前的Transformer架构模型主要基于大规模数据训练出的概率统计模式匹配能力,并没有真正理解和掌握这些高级智能特征。 模型需要至少支持“理解表达、选择遗忘、持续学习”三种基础能力。 人类的记忆是有限的且会随着时间而模糊或选择性遗忘。真正的智能体需要能够在与环境的互动中持续学习,而不仅仅是通过静态训练数据来提升能力。 数据日常工作、生活中,而非刻意采集。 现实世界的数据充满噪声且高度多样化,这种“野生”环境下的学习更能反映真实应用的需求。从日常生活工作中获取的数据能够帮助模型更好地理解人类的自然行为模式和复杂的社会动态。 非Transformer架构的Yan架构大模型是什么原理? 一定不是Attention机制! 2.5Yan架构大模型原理 两个基本原理 1、替换Transformer架构中o(n2)的Attention机制; 2、减少不必要的神经网络参数参与模型的训练与推理,按需被使用。 类脑激活机制 MCSD 基于仿生神经元驱动的选择算法是一种类脑的激活机制,正如人类在开车时视觉皮层被大量激活,而在思考问题时逻辑区被大量激活。 采用MCSD(Multi-Channel Slope And Decay)模块替换Transformer架构中的Attention机制,并成功验证了ScalingLaw机制。 2.6Yan架构大模型原理:MCSD MCSD整体架构如图一(a)所示,具有轻量级部署和快速推理能力,以解决主流Transformer的全局注意力机制使用矩阵乘法导致模型计算复杂度高,推理速度慢的问题。 其中MCSD模块如图一(b)是MCSD模型的核心之处,通过斜率变换和指数衰减两个部分提取输入数据中的当前和历史信息,并进行位置感知的多通道特征融合。 2.7Yan架构大模型原理:类脑激活机制 采用类脑的激活机制,实现基于仿生神经元驱动的选择算法,融合了生物启发式计算与人工智能领域的最新进展。通过模拟大脑中的神经元激活模式,能够更加有效地处理复杂数据和任务,显著提升了计算效率和精度,也为解决现实世界中的复杂问题提供了新的思路和工具。 2.8端到端的多模态Yan架构大模型 会不会效果不好?端侧上能跑吗? 非Transformer架构代表了行业未来新的可能。 2.9Yan架构大模型效果 2.10Yan架构大模型设计特点 低成本高性能的设计 创新采用优化算法与结构设计,相对于相同参数量的传统Transformer大模型具备7倍的训练效率、5倍的推理吞吐、3倍的记忆能力并且支持CPU无损运行以及更低幻觉表达。 消费级终端无损部署 优化模型设计,使其能无缝安装于树莓派等低功耗计算平台,拓宽应用场景至智能家居、物联网等领域。 类人的设计 类人的学习。引入同步学习机制,使大模型的训练与推理过程并行,模仿人类“边学边用”的认知模式,持续优化和更新知识库,以应对动态变化的环境。 类人的感知。融合视觉、听觉等多模态信息处理机制,构建全面的感知体系,模拟人脑对复杂外界刺激的理解与响应。通过跨模态关联学习,增强模型在多场景下的泛化能力和鲁棒性。 类人的交互。实现秒级实时反馈的人机交互模式,提供流畅、自然的沟通体验,强化情感理解和表达功能,提升模型在对话中的情感共鸣能力,增强人机互动的亲和力与可信度。 2.11在树莓派运行自然语言大模型(1) 2.11在树莓派运行自然语言大模型(2) 树莓派中运行自然语言大模型。Cortex系列芯片广泛应用在机器人、工业控制、智能家居、平板电脑、无人机等。 2.12在中低端手机运行多模态大模型 Yan1.2在手机中的性能 Yan1.2多模态大模型离线部署在手机中也能流畅运行。可通过自然语言输入,Yan1.2可以理解并处理任务,为用户提供更优质的体验,每秒可达20+tokens输出。 相比于传统语音助手,区别如下: 2.13在小型机器人中运行多模态大模型(1) 小智机器人 基于树莓派5离线部署 超低算力部署Yan1.2多模态大模型,构建多模态的智能类脑。 1、通用自由问答:语音交互、语义理解2、环境感知:视觉识别与理解3、自我看书学习:视觉理解、语义理解4、动作控制:语音交互、肢体控制、指令生成5、七步成诗:内容生成、肢体协调 2.13在小型机器人中运行多模态大模型(2) 不同架构下,对于模型训练和推理过程有什么影响? 2.14训练与推理过程对比模 型 训 2.15端侧直接训练演示 说明:一个10亿参数量的模型,在本地直接训练的示例,训练后直接本地推理。 未来趋势 大模型创新路上的核心竞争力是什么? 3.1ROCKAI思考的三层创新 1、应用技术创新 在现有的人工智能技术基础上,通过改进、优化或整合现有技术来解决特定问题或实现特定任务的创新。其主要目标是提高现有技术的性能和效率,而不是对技术进行彻底的重构或颠覆。 2、基础架构创新 基础架构创新涉及到人工智能系统的模型框架、训练方法等的创新,旨在为各种人工智能应用提供更加稳定、高效和可靠的基础设施支持。 3、基础理论创新 基础理论创新涉及到人工智能领域的基础理论、核心算法的创新,推动底层理论的变革,从而从根本上影响架构创新和应用技术创新。 3.2亟需的创新:正在被挑战的反向传播算法 Difference Target Propagationhttps://arxiv.org/pdf/1412.7525.pdf TheHsicBottleneck: Deep Learning Without Back-Propagationhttps://arxiv.org/pdf/1908.01580v1.pdf 2 Online Alternating Minimization with Auxiliary Variableshttps://arxiv.org/pdf/1806.09077.pdf 3 Decoupled Neural Interfaces Using Synthetic Gradientshttps://arxiv.org/pdf/1608.05343.pdf 4 The Forward-Forward Algorithm: Some Preliminary Investigationshttps://www.cs.toronto.edu/~hinton/FFA13.pdf 我们到底在挑战什么? 3.3端侧,不止于此 3.4创新之路 √第一阶段 创新性基础架构 Yan架构大模型,100%自研非Transformer架构,性能效率高于同参数量的主流架构。01 自适应智能进化 同步学习,赋予机器自主学习与自我优化能力,构建持续进化的智慧生态。 THANKS ROCKAI,让世界上每一台设备都拥有自己的智能。Make Every Device Its Own Intelligence.