您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [浙江大学]:大小模型端云协同赋能人机交互 - 发现报告

大小模型端云协同赋能人机交互

信息技术 2025-04-02 - 浙江大学 文梦维
报告封面

张圣宇|浙江大学 2025年4月 马斯克的大胆预言:碳基生命(也就是我们人类)只是硅基生命的启动程序。随着科技的不断发展,尤其是AI领域取得的突破,以人工智能为主的硅基生命形态将会在未来成为地球上的主宰生物。 •2007年1月9日,乔布斯发布第一代iPhone苹果手机,把iPod、电话、移动互联网设备等进行有机整合,推动了移动互联网进入了黄金发展年代。 •DeepSeek在模型算法和工程优化方面进行了系统级创新,在2048块英伟达H800 GPU(针对中国市场的低配版GPU)集群上完成训练,打破了大语言模型以大算力为核心的预期天花板,为在受限资源下探索通用人工智能开辟了新的道路。 •今天大模型给人类社会诸多生产、生活模式带来一次大变革。2023年2月,英伟达创始人兼CEO黄仁勋提出随着ChatGPT为代表的大模型出现,我们已经进入“人工智能的iPhone时刻(iPhone moment of AI)”,这一观点受到美国《财富》杂志、华尔街时报等媒体的广泛认可并转载。 移动端智能:生活的方方面面 手机、平板、智能手表 •小设备功能不简单•小设备如何搭载大模型?•大小模型协同 发信息、看视频、听音乐、导航、游戏、购物 大小模型端云协同 l端云协同(Device-Cloud Collaboration):指边缘设备(如智能手机、IoT设备)模型和云侧服务器模型协同进化推断。 l云侧大模型(Large Model):通用认知计算,拥有强大的计算能力、海量的数据、充分的知识库。 l终端小模型(Small Model):实时感知、实时响应,运行轻量级任务,响应速度快。 大小模型端云协同 l端云协同计算通过卸载部分学习任务至端侧,让端和云协同完成任务,从而发挥终端靠近用户和数据源的天然优势,降低服 务延时至毫秒级,增强模型个性化精准推理能力,缓解云服务器中心负载压力,同时支持用户原始数据在设备本地处理 l有效克服主流云学习范式在实时性、个性化、负载成本、隐私安全等方面的不足 前沿应用 自动驾驶(Gan et al.) Yulu Gan, Mingjie Pan, Rongyu Zhang, et al.: Cloud-Device Collaborative Adaptation to Continual Changing Environments in the Real-World. CVPR 2023: 12157-12166Chengfei Lv, Chaoyue Niu, Renjie Gu, et al.: Walle: An End-to-End, General-Purpose, and Large-Scale Production System for Device-Cloud Collaborative Machine Learning. OSDI 2022: 249-265Xufeng Qian, Yue Xu, Fuyu Lv, Shengyu Zhang, et al.: Intelligent Request Strategy Design in Recommender System. KDD 2022: 3772-3782 大小模型端云协同 大小模型协同 + 端云高效协同 大小模型协同基础算法研究 联合应用平台既有的特定业务小模型与云侧大模型,将端侧小模型轻量部署、快速响应、个性适配的优势,和云侧大模型认知推理、多模态理解、通用泛化的优势进行互补 大小模型协同基础算法研究 联合应用平台既有的特定业务小模型与云侧大模型,将端侧小模型轻量部署、快速响应、个性适配的优势,和云侧大模型认知推理、多模态理解、通用泛化的优势进行互补 基于生成的协同:One(大模型)to All(小模型)生成 •大模型驱动的小模型生成框架ModelGPT •ModelGPT +用户对模型的需求描述+少量数据=(推理生成)开箱即用小模型。在All-in-One的通用大模型范式之外,初步探索One-to-All的可能性,为更广泛的小数据、小算力(边端)、离线应用场景提供AI落地支撑。•在NLP,CV,和Tabular Data典型数据集上进行验证,性能超越Finetune方法。 Zihao Tang, Zheqi Lv, Shengyu Zhang, Fei Wu, Kun Kuang:ModelGPT: Unleashing LLM's Capabilities for Tailored ModelGeneration. CoRR abs/2402.12408 (2024) 基于生成的协同:One(大模型)to All(小模型)生成 •大模型驱动的小模型生成框架ModelGPT •在NLP,CV,和Tabular Data典型数据集上进行验证,性能超越Finetune方法。 •给定用户的需求ModelGPT能够以至多先前范式(例如全参数微调、LORA微调)270倍速度快速生成定制好的人工智能模型。 跨越异构模型、任务、模态的统一模型知识迁移框架 研究背景 现有知识迁移方法(例如,知识蒸馏,迁移学习)要求端云具有相似的任务类型或模型架构,难以应用于跨异构模型、任务和模态的异构知识迁移场景。 挑战 模型知识统一表示 知识蒸馏利用Logits和Feature Map表示知识,依赖于任务类型。迁移学习通常通过共享参数实现知识迁移,依赖于模型架构。 异构模型知识适配 异构模块(线性层 <-> 注意力机制模块)之间知识不兼容。不同规模模型之间知识不兼容。 跨越异构模型、任务、模态的统一模型知识迁移框架 研究问题 研究基于端云协同的跨异构模型架构、任务和模态的异构知识迁移框架。 创新 异构模型知识表示:以参数为载体,重新编码端云模型参数,实现对异构知识的统一表示异构知识适配:设立参数适配器,促进异构参数空间的交互,提取并对齐有效的信息,实现高效知识迁移 跨越异构模型、任务、模态的统一模型知识迁移框架 克服了传统知识迁移需要具有相似任务类型或模型架构的限制 大小模型端云协同 大小模型协同 + 端云高效协同 移动端智能的局限 高通:生成式端云混合智能 l混合AI指终端和云端协同工作,在适当的场景和时间下分配AI计算的工作负载,以提供更好的体验,并高效利用资源。在一些场景下,计算将主要以终端为中心,在必要时向云端分流任务。而在以云为中心的场景下,终端将根据自身能力,在可能的情况下从云端分担一些AI工作负载。 端云协同智能 --高通《终端侧AI和混合AI开启生成式AI的未来》 面向未知端侧分布的压缩-适应联合 l大模型向端侧迁移部署往往采用知识蒸馏等压缩手段,传统知识整理方法假设大模型训练数据分布(压缩前)和小模型测试数据分布(压缩后)服从独立同分布假设(IID Hypothesis)。 研究背景 l实际应用中,源域数据和应用场景存在分布偏移,导致压缩性能显著下降。 理论分析 独立同分布假设(IID Hypothesis):源域𝐀𝐀和目标域𝐀𝐀(应用场景)独立同分布。在此情况下进行知识蒸馏,源域的知识可以很好地指导模型完成目标域的任务。 l数据蒸馏的目标:min𝐀𝐀𝐀𝐀,𝐀 ~𝐀[𝐀𝐀𝐀𝐀 𝐀; 𝐀𝐀∥ 𝐀 𝐀; 𝐀𝐀+ 𝐀𝠀 𝐀 𝐀; 𝐀𝐀, 𝐀. l多数场景下,源域分布和应用场景存在分布偏移(𝐀𝐀≠ 𝐀𝐀),违反独立同分布假设。l情况1:𝐀 ≈ 𝐀𝐀,对应无数据蒸馏方法(𝐀𝐀由生成器拟合),蒸馏出的目标模型并不适用𝐀𝐀。l情况2:𝐀 ≈ 𝐀𝐀,源模型给出的知识不一定有效。 利用端侧反事实表征学习实现端向云去偏汇聚 数据分布异质性导致的“局部观察到的趋势在全局数据中消失或反转”的辛普森悖论,使得云侧汇聚模型 研究背景 无法准确反映整体数据分布,给端向云去偏汇聚带来了巨大挑战 分布异质 l端云分布异质:云侧全局数据分布体现平台整体共性与端侧特化分布存在偏移l端云有偏汇聚:有偏数据导致端侧偏见,相似偏见端侧模型导致云侧有偏汇聚 因子混杂 l虚假相关:端侧数据局部且有限,存在虚假的因子-标签关联,忽视真实因果关系l因子耦合:因子之间存在复杂的相互依赖关系,难以有效解耦出独立的因果关系 利用端侧反事实表征学习实现端向云去偏汇聚 创新研究问题 利用端侧反事实表征学习解决云侧模型联邦汇聚中“辛普森悖论”难题。 反事实表征学习:利用全局平均数据信息在端侧生成反事实样本,实现端侧模型去偏训练因子去相关模块:基于相关性分析设计因子去相关模块对因子解耦,提高反事实样本的质量 利用端侧反事实表征学习实现端向云去偏汇聚 实验验证 反事实样本生成因子去相关约束混杂因子解耦合… 当前端云协同存在的问题 数据高度异质性云端分布差异大云侧模型收敛慢 端侧反事实表征学习 端-云模型协同… 突破了端云协同计算在分布偏移、数据异质场景中模型汇聚效率局限 基于端云协同的高效端模型参数定制 研究背景 现有端侧部署方案采用云侧大规模预训练,通过模型压缩后传输至端侧进行部署。然而多阶段训练、稠密信息传输给端侧动态复杂环境下的高响应、低成本自适应带来了巨大挑战 分布异质性 l端云分布异质:云侧全局数据分布体现平台整体共性与端侧特化分布存在偏移l端侧分布迁移:端侧用户兴趣意图动态偏移,需要由云向端及时下发适配模型 资源异质性 l端侧计算资源有限:大量长尾用户移动设备算力有限,难以支撑本地训练微调 l端云通信资源有限:频繁下发稠密适配模型消耗大量通信带宽资源,降低响应 基于端云协同的高效端模型参数定制 创新研究问题 研究基于端云协同的低通信开销、高响应速度端模型定制算法。 高效模型表示构建:基于神经网络彩票假说,将云向端训练压缩过程转化为传输适配子网二进制掩膜高效适配子网搜索:云侧学习建立实时数据到端侧个性子网掩膜的映射,仅需前向推理即可高效响应 基于端云协同的高效端模型参数定制 瘦身子网模型压缩端侧实时兴趣提取适配子网生成传输… 当前推荐系统存在的问题 通信开销大云端分布差异大端侧兴趣变化快设备计算资源有限 端侧个性子网搜索 共性-个性协同大-小模型协同… 突破了端云协同计算在分布偏移、资源受限设备上训练推理效率局限 大小模型端云协同 大小模型协同 + 端云高效协同 赋能与应用 人工智能 = 人工 + “智” + “能” 人机交互“智”:理解使用者 短视频APP、购物APP 行为数据:观看视频、停留时长、互动(点赞、评论、分享)机器学习算法:根据历史行为预测喜好不是真正的“理解”,而是数据驱动的预测 兴趣变化:AI能否快速适应?不能理解情感和临时兴趣变化如何提高灵活性和适应性? 推荐系统 信息量巨大:社交媒体、新闻、视频、广告推荐系统帮助“过滤”信息,找到有用内容 •实时推荐的工作原理分析用户行为:点击、停留、互动基于行为预测用户兴趣,快速推荐相关内容 •“探索”和“发现”推荐系统帮助你发现未知的内容根据历史行为预测可能的兴趣点 为什么需要移动端智能推荐? Ø端侧内容生成通过部署轻量化小模型至端侧,发挥出终端设备靠近用户和数据源天然优势,降低智能服务延时至毫秒级,实现本地私有化响应决策。 端云大-小模型协同推断算法 l动态变化的端环境导致资源有限情况下云模型的延迟响应,导致端侧服务与端侧环境的不匹配,损 害用户的服务体验 端云大-小模型协同推断算法 •通过因果潜在结果模型预估请求大模型响应价值 •端设备部署小模型实时检测端环境变化(用户兴趣意图变化) •动态规划对云侧大模型的请求,最大化资源有限时的线上收益。 端云大-小模型协同推断算法 因果结构学习机制因果潜在结构框架不确定性预估方法… 当前推荐系统存在的问题 通信开销大隐私破坏风险隐时反馈噪声多无法实时感知用