您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [Aicon]:大模型在推荐系统中的落地实践 - 发现报告

大模型在推荐系统中的落地实践

2024-10-18 王浩 Aicon 艳阳天Cathy
报告封面

演讲人:王皓 中国科学技术大学特任副研究员 CONTENTS目 录 01推荐大模型背景 02 03生成式推荐大模型 大模型推荐背景 推荐系统 推荐系统:从用户历史行为数据中学习用户行为模式,预测未来用户行为 亟待解决的问题:推荐数据稀疏,存在大量冷启动用户与物品,模型难以挖掘用户行为模式 大模型技术 大模型技术优势 涌现能力:模型参数规模超过某个阈值时,模型精度剧烈增长 推荐系统+大模型 大模型推荐vs纯推荐系统 模型泛化性:推荐系统难以适应新任务与新场景;而大模型推荐能够依赖零/少样本推理能力,快速适应新的推荐任务,高效跨域泛化 表征建模能力:推荐系统缺乏语义信息;而大模型推荐能提取高质量的文本表示,并利用编码的世界知识完善物品理解和用户建模 个性化内容生成:推荐系统仅能回答用户对给定候选集中物品的偏好;而大模型推荐具备生成能力,可以生成不受限的个性化内容,且具备较好的可解释性 研究现状 传统大模型推荐生成式推荐大模型 传统大模型推荐 大语言模型与推荐模型的结合 挖掘用户与物品的深度文本语义关联,增强冷启动场景的推荐能力,可解释性强 应用模式:目前大语言模型的推荐以发挥大语言模型的文本能力为主,可根据其应用模式分为三类:大模型生成表征+推荐系统、大模型生成文本+推荐系统、大模型生成推荐结果 传统大模型推荐1:大模型生成表征+推荐系统 研究背景 推荐模型处理文本信息通常依赖文本编码器: 编码文本信息能力弱:相比小语言模型,大模型自身对文本编码能力强大,能提供高质量表征 难以深入理解文本信息:凭借着丰富的知识与推理能力,大模型能够引入小语言模型不具有的外部知识 大语言模型的编码结果与实际上相关的物品更接近 传统大模型推荐1:大模型生成表征+推荐系统 使用判别式模型获得文本嵌入,提高推荐模型嵌入质量 大模型嵌入替代或添加进推荐模型嵌入(如BIGRec):利用大模型获取物品的嵌入,将嵌入替代或添加进推荐嵌入进行后续推荐推荐模型与大模型的嵌入对齐(如CTRL、ClickPrompt):将大模型生成的嵌入与推荐嵌入通过对比学习、注意力等方法对齐 大模型嵌入与推荐模型嵌入使用对学习对齐 传统大模型推荐1:大模型生成表征+推荐系统 总结与展望 训练与推理时延:LLM模型生成嵌入的速度较慢,导致了额外的时间和空间开销大模型存在编码对齐困难的问题:大模型的极大参数量使得其迭代更新困难,导致了表征结果和推荐模型的差异性,LLM的编码空间与推荐模型的编码空间难以对齐 大模型直接嵌入结果的分布与推荐域分布间存在大量偏差 传统大模型推荐2:大模型生成文本+推荐系统 研究背景 缺乏开放域背景知识:推荐模型无法包含开放域知识,而大模型经过大量数据训练,具备广泛的背景知识 无法对辅助信息推理:推荐模型通常只基于序列或特征建模,而LLM可以结合上下文和辅助信息进行推理 受限于信息质量:相比于直接编码文本信息,大模型可以通过推理和知识整合提高信息的准确性和深度 传统大模型推荐2:大模型生成文本+推荐系统 利用外部知识库和上下文信息来增强推荐辅助信息 提炼和联想新信息(如KAR):利用LLM从输入中提炼关键信息,并联想生成新的相关内容以丰富推荐 开放域知识引入(如CTRL):通过嵌入对齐,将开放域知识无缝集成到推荐中,增强内容多样性 传统大模型推荐2:大模型生成文本+推荐系统 总结与展望 额外的推理时延:模型推理过程可能导致响应时间增加,影响实时性 生成质量依赖于提示模板:输出结果高度依赖于输入提示的质量,需精心设计以确保生成效果 传统大模型推荐3:大模型生成推荐结果 研究背景 数据稀疏和冷启动问题:基于交互的推荐模型难以对冷启动用户生效,大模型的丰富背景知识能够基于文本进行冷启动推理 大模型判断用户是否会选取物品 大模型判断用户会选取哪个商品 传统大模型推荐3:大模型生成推荐结果 通过预训练后的LLM与推荐任务的对齐,直接生成推荐结果 提示工程(如TALLRec、KP4SR):通过设计专门的prompt,输入用户信息、上下文以及候选物品列表作为辅助信息,使LLM生成推荐结果 推荐模型嵌入融入(如LLaRa):将来自推荐模型(如协同过滤模型或图神经网络)的embedding融入到模型中,结合LLM的语义理解能力和推荐模型提取协同信息的能力 传统大模型推荐3:大模型生成推荐结果 总结与展望 强大的冷启动能力:丰富的背景知识为大模型带来了强大的冷启动能力,远远超过了传统的推荐模型难以生成可控的生成结果:大模型输出存在不可控性,需要以损失通用能力为代价使之与推荐任务对齐 传统大模型推荐挑战 数据层面:通用大模型预训练阶段缺乏推荐相关数据,不会推荐任务 模态角度:通用大模型难以捕获协同信息,难以满足推荐需求 如何借鉴通用大语言模型,扩展传统推荐模型规模,捕捉用户行为模式和物品特征,构建真正的生成式推荐大模型,实现更精准和个性化的推荐,是一个亟待解决的问题 生成式推荐大模型 将传统推荐小模型做大做深,并使其具备scalinglaw 具备通用大语言模型的涌现能力,更适合推荐任务,且能够深度挖掘用户与物品的协同关联 研究方向:生成式推荐大模型,目前主要在表征和优化层面进行研究,可以分为对应的两类:ID特征的索引与建模、高效训练与推理 1). ID特征的索引与建模 生成式推荐大模型1:ID特征的索引与建模 研究背景 推荐模型通常使用基于ID的表征 高基数流式推荐数据:推荐系统需要处理数十亿级别的动态词汇表,基于ID的表征引入大量参数 表征信息量低:ID无法表示用户或物品特性,缺乏先验信息 生成式推荐大模型1:ID特征的索引与建模 基于语义embedding获取语义ID,用来代替无意义的物品ID进行推荐 等贡献码本:利用预训练大语言模型获得物品内容特征(如文本描述等)的嵌入,再基于矢量量化的方式生成码本作为语义ID,使其具有内容特征带来的先验信息 层次化码本:基于残差量化的方式获得重要程度逐级递减的码本(粗粒度->细粒度),允许更短码本长度 生成式推荐大模型1:ID特征的索引与建模 总结与展望 信息损失:通过量化方法将密集嵌入转换为离散语义ID的过程,本质上是一种信息的损失 协同信息缺失:语义ID仅基于物品相关描述信息获得,不包含交互或序列特征,无法建模协同信息。尽管工作如ColaRec提出使用预训练的协同过滤模型获得的物品表示增强语义ID,它削弱了对冷启动的处理能力 生成式推荐大模型2:高效序列转换架构 研究背景 异构特征处理:推荐系统中的特征缺乏明确结构,包括异构特征如高基数ID、交叉特征、计数器、比率等高推理成本:词表规模和候选项数目庞大 高计算成本:用户行为规模巨大,推荐系统需要处理的令牌数量远大于语言模型 生成式推荐大模型2:高效序列转换架构 设计具备scalinglaw的模型架构,形成生成式推荐新范式 推荐任务->序列生成任务:将输入的各项异构特征整合和编码成一个统一的时间序列,并将召回、排序等推荐任务重构为统一的Seq2Seq序列生成任务,设计基于transformer的架构生成下一个token。 效率优化:使用随机长度算法降低attention复杂度,通过算子优化等方法降低内存使用量,通过成本摊销扩大推理规模 生成式推荐大模型2:高效序列转换架构 总结与展望 长序列处理:当前架构不具备拓展到较长序列的能力 时间复杂度:不涉及对时间复杂度的在模型架构层面的优化,未来工作可以考虑设计类似于线性注意力机制或最新提出的mamba等一次复杂度的架构代替或部分代替二次复杂度的自注意力机制。但对于新架构,如何保持scaling law是一个挑战 引入额外的状态变量来降低复杂度 生成式推荐大模型 大模型推荐方法的归纳总结Data-centric大模型研究推荐scalinglaw探索多行为推荐大模型 大模型推荐方法的归纳总结 大模型推荐方法训练方式归纳与定义 •大模型推荐训练方式:本综述根据训练方式将已有相关方法归纳为判别式大模型推荐和生成式大模型推荐,并进一步系统化梳理并给出未来研究方向•训练方式系统性定义:为了便于研究者区分大语言模型推荐中的不同训练方式,本综述对于每种训练方式给出了系统性并且清晰的定义 大模型推荐方法的归纳总结 大模型推荐相关工作和数据集梳理与总结 •代表性大模型推荐工作介绍:介绍各个类别中代表性工作的研究思路和贡献,为研究者理清该领域的研究现状和发展趋势 •大模型推荐公开数据集:目前大语言模型推荐能够使用的一些公开数据集大部分还是基于传统推荐的数据集进行设计和扩充,进一步挖掘大语言模型的潜力仍需文本信息更丰富的数据 已有代表性工作 Data-centric大模型研究 以数据为中心(Data-centric)的人工智能 GPT成功的数据基石:GPT进化中,模型结构保持相似,训练数据的规模、质量得到极大提升 Data-centric大模型研究:数据重生成 面向序列推荐的数据集重生成方法 传统方法的缺陷:传统序列推荐方法常忽视数据中潜在的质量问题和数据缺陷。怎样获得一个信息丰富且泛化性强的训练数据集,以解决序列推荐系统的训练数据质量并提升模型性能 亟待解决的问题:推荐系统旨在从原始数据集�中学习用户偏好�, Model-centric范式使不同模型从相同原始数据中学习到的�→�映射关系具有不同侧重,而Data-centric范式先从原始数据集�针对不同模型重生成易于学习模式的数据集�′,使学习映射�′→�更加简单直观 推荐系统中存在的数据问题 Yin et al. Dataset Regeneration for Sequential Recommendation (KDD2024)Paper:https://arxiv.org/pdf/2405.17795;Code:https://github.com/Graph-Team Data-centric大模型研究:数据重生成 DR4SR:模型无关和模型感知的序列数据集重生成框架 模型无关的数据集重生成:基于预训练的模型无关数据生成 预训练阶段(A)学习重生成器:提出滑动窗口策略提取“(序列,模式)”对,构建预训练任务,解决监督信号缺失;提出多样性增强器建模序列和模式之间的一对多关系,解决序列模式监督信号的冲突 推理阶段(B)重生成数据集:提出混合推理策略平衡探索和利用,提高模型发现高阶模式的创造性 模型感知的数据集重生成:基于损失引导的模型感知数据生成 模型感知阶段(C):提出目标模型评估重生成数据样本的个性化器,采用双层优化策略对其进行高效优化 Data-centric大模型研究:数据重生成 面向序列推荐的数据集重生成方法的结果与分析 •方法优越性:DR4SR在不同数据集和各类模型上的性能均显著提升,展现了跨模型结构泛化能力,并能体现以Data-centric和Model-centric范式互补性,体现了Data-centric通用性 •进一步分析:虽然DR4SR可以提供模型感知的序列训练数据集,但仍需要基于原始的数据集构建高阶数据模式和用于增广训练的数据,针对不同数据类型扩展DR4SR数据重生成方法仍需探索 基于benchmark数据集在5大类模型架构下显著提升性能 Data-centric大模型研究:EntropyLaw Entropy law:数据压缩与模型智能的紧密关联 Data centric的研究使我们更加关注数据质量的评估,我们的研究通过以下四个维度对数据质量进行计算 数据压缩率R:度量了数据中所蕴含的信息密度。可通过现有的各类数据压缩算法对文本数据进行压缩,随后通过压缩前后的数据大小计算压缩率训练损失L:度