行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

大模型在推荐系统中的落地实践

2024-10-18 王浩 Aicon 艳阳天Cathy

大模型推荐系统研究总结

1. 推荐系统与大模型技术背景

推荐系统通过用户历史行为数据学习用户模式并预测未来行为，但面临数据稀疏和冷启动问题。大模型技术具有涌现能力，参数规模超过阈值时模型精度剧增。

2. 大模型推荐优势

相比传统推荐系统，大模型推荐具备：

更强的泛化性：依赖零/少样本推理快速适应新任务
更好的表征建模能力：提取高质量文本表示，利用世界知识完善理解
更强的个性化内容生成：生成不受限的个性化内容且可解释

3. 传统大模型推荐方法

3.1 大模型生成表征+推荐系统

利用大模型获取物品高质量嵌入，替代或添加到推荐模型中
应用模式包括：大模型嵌入替代推荐嵌入（BIGRec）、嵌入对齐（CTRL、ClickPrompt）
挑战：训练与推理时延高、编码对齐困难

3.2 大模型生成文本+推荐系统

利用大模型推理能力增强推荐辅助信息
应用模式包括：提炼联想新信息（KAR）、开放域知识引入（CTRL）
挑战：额外推理时延、依赖提示模板质量

3.3 大模型生成推荐结果

通过预训练LLM与推荐任务对齐直接生成推荐结果
应用模式包括：提示工程（TALLRec、KP4SR）、推荐模型嵌入融入（LLaRa）
挑战：难以生成可控结果

3.4 传统大模型推荐挑战

数据层面：缺乏推荐相关预训练数据
模态角度：难以捕获协同信息

4. 生成式推荐大模型

4.1 研究方向

将传统推荐小模型做大做深，具备scaling law
具备通用大语言模型的涌现能力，深度挖掘用户与物品关联
主要研究方向：ID特征的索引与建模、高效训练与推理

4.1.1 ID特征的索引与建模

基于语义embedding获取语义ID替代无意义物品ID
方法包括：等贡献码本、层次化码本
挑战：信息损失、协同信息缺失

4.1.2 高效序列转换架构

将推荐任务重构为Seq2Seq序列生成任务
设计基于Transformer的架构并优化效率
挑战：长序列处理能力、时间复杂度优化

5. 大模型推荐方法归纳总结

5.1 训练方式归纳

判别式大模型推荐：直接优化推荐任务
生成式大模型推荐：通过生成中间表示辅助推荐
未来研究方向：模型无关与模型感知的混合范式

5.2 相关工作与数据集

代表性工作：BIGRec、CTRL、TALLRec等
公开数据集：仍需更多文本信息丰富的数据

6. Data-centric大模型研究

6.1 数据重生成

面向序列推荐的数据集重生成方法（DR4SR）
模型无关阶段：学习重生成器，重生成数据集
模型感知阶段：目标模型评估重生成数据
优势：跨模型结构泛化能力，体现Data-centric与Model-centric互补性

6.2 EntropyLaw

数据压缩与模型智能的紧密关联
数据质量评估维度：数据压缩率、训练损失、数据一致性、平均数据质量
基于EntropyLaw的数据选择算法（ZIP）
实验验证：压缩率越低模型效果越好，压缩率接近时损失和效果接近

7. 推荐Scaling Law初探

7.1 研究背景

模型规模提升需高成本，需研究规律指导训练
现有分析缺乏定量比较

7.2 数据规模、模型规模对Loss的影响

Scaling law拟合分析：loss与模型层数、嵌入维度、数据规模成反比
基于数据熵的进一步分析：近似熵越低数据质量越高，拟合参数与数据规模/近似熵成反比

7.3 数据规模、模型规模对推荐性能的影响

最优模型参数正比于模型层数与嵌入维度的乘积（O(LD)）
更大规模数据集需匹配更大规模模型

8. 多行为推荐大模型

8.1 研究背景

Scaling Law表明大模型需更多训练数据
单行为数据难以满足需求

8.2 混合多个行为数据的影响

行为数量越多数据量越大，推荐性能通常越好
单纯堆叠行为可能产生负面影响

8.3 行为相似度角度分析

加入低相关度行为可能产生负面影响
未来需通过相似度等方式进行数据选择

8.4 行为可知的多行为推荐大模型

显式建模行为类型可稳定提升性能
考虑加入更多特征是可行方向

9. 总结与展望

大模型成为驱动推荐系统发展的新动力
Data-centric人工智能：Entropy Law揭示数据压缩与模型智能关联
推荐大模型发展方向：
- 推荐领域的scaling law提供训练指导
- 考虑多行为数据及多样特征
- 提高训练推理效率

演讲人：王皓中国科学技术大学特任副研究员 CONTENTS目录 01推荐大模型背景 02 03生成式推荐大模型大模型推荐背景推荐系统 推荐系统：从用户历史行为数据中学习用户行为模式，预测未来用户行为 亟待解决的问题：推荐数据稀疏，存在大量冷启动用户与物品，模型难以挖掘用户行为模式大模型技术大模型技术优势 涌现能力：模型参数规模超过某个阈值时，模型精度剧烈增长推荐系统+大模型大模型推荐vs纯推荐系统 模型泛化性：推荐系统难以适应新任务与新场景；而大模型推荐能够依赖零/少样本推理能力，快速适应新的推荐任务，高效跨域泛化 表征建模能力：推荐系统缺乏语义信息；而大模型推荐能提取高质量的文本表示，并利用编码的世界知识完善物品理解和用户建模 个性化内容生成：推荐系统仅能回答用户对给定候选集中物品的偏好；而大模型推荐具备生成能力，可以生成不受限的个性化内容，且具备较好的可解释性研究现状 传统大模型推荐生成式推荐大模型传统大模型推荐大语言模型与推荐模型的结合 挖掘用户与物品的深度文本语义关联，增强冷启动场景的推荐能力，可解释性强 应用模式：目前大语言模型的推荐以发挥大语言模型的文本能力为主，可根据其应用模式分为三类：大模型生成表征+推荐系统、大模型生成文本+推荐系统、大模型生成推荐结果传统大模型推荐1：大模型生成表征+推荐系统研究背景推荐模型处理文本信息通常依赖文本编码器： 编码文本信息能力弱：相比小语言模型，大模型自身对文本编码能力强大，能提供高质量表征 难以深入理解文本信息：凭借着丰富的知识与推理能力，大模型能够引入小语言模型不具有的外部知识大语言模型的编码结果与实际上相关的物品更接近传统大模型推荐1：大模型生成表征+推荐系统使用判别式模型获得文本嵌入，提高推荐模型嵌入质量 大模型嵌入替代或添加进推荐模型嵌入(如BIGRec)：利用大模型获取物品的嵌入，将嵌入替代或添加进推荐嵌入进行后续推荐推荐模型与大模型的嵌入对齐(如CTRL、ClickPrompt)：将大模型生成的嵌入与推荐嵌入通过对比学习、注意力等方法对齐大模型嵌入与推荐模型嵌入使用对学习对齐传统大模型推荐1：大模型生成表征+推荐系统总结与展望 训练与推理时延：LLM模型生成嵌入的速度较慢，导致了额外的时间和空间开销大模型存在编码对齐困难的问题：大模型的极大参数量使得其迭代更新困难，导致了表征结果和推荐模型的差异性，LLM的编码空间与推荐模型的编码空间难以对齐大模型直接嵌入结果的分布与推荐域分布间存在大量偏差传统大模型推荐2：大模型生成文本+推荐系统研究背景 缺乏开放域背景知识：推荐模型无法包含开放域知识，而大模型经过大量数据训练，具备广泛的背景知识 无法对辅助信息推理：推荐模型通常只基于序列或特征建模，而LLM可以结合上下文和辅助信息进行推理 受限于信息质量：相比于直接编码文本信息，大模型可以通过推理和知识整合提高信息的准确性和深度传统大模型推荐2：大模型生成文本+推荐系统利用外部知识库和上下文信息来增强推荐辅助信息 提炼和联想新信息(如KAR)：利用LLM从输入中提炼关键信息，并联想生成新的相关内容以丰富推荐 开放域知识引入(如CTRL)：通过嵌入对齐，将开放域知识无缝集成到推荐中，增强内容多样性传统大模型推荐2：大模型生成文本+推荐系统总结与展望 额外的推理时延：模型推理过程可能导致响应时间增加，影响实时性 生成质量依赖于提示模板：输出结果高度依赖于输入提示的质量，需精心设计以确保生成效果传统大模型推荐3：大模型生成推荐结果研究背景 数据稀疏和冷启动问题：基于交互的推荐模型难以对冷启动用户生效，大模型的丰富背景知识能够基于文本进行冷启动推理大模型判断用户是否会选取物品大模型判断用户会选取哪个商品传统大模型推荐3：大模型生成推荐结果通过预训练后的LLM与推荐任务的对齐，直接生成推荐结果 提示工程(如TALLRec、KP4SR)：通过设计专门的prompt，输入用户信息、上下文以及候选物品列表作为辅助信息，使LLM生成推荐结果 推荐模型嵌入融入（如LLaRa）：将来自推荐模型（如协同过滤模型或图神经网络）的embedding融入到模型中，结合LLM的语义理解能力和推荐模型提取协同信息的能力传统大模型推荐3：大模型生成推荐结果总结与展望 强大的冷启动能力：丰富的背景知识为大模型带来了强大的冷启动能力，远远超过了传统的推荐模型难以生成可控的生成结果：大模型输出存在不可控性，需要以损失通用能力为代价使之与推荐任务对齐传统大模型推荐挑战 数据层面：通用大模型预训练阶段缺乏推荐相关数据，不会推荐任务 模态角度：通用大模型难以捕获协同信息，难以满足推荐需求如何借鉴通用大语言模型，扩展传统推荐模型规模，捕捉用户行为模式和物品特征，构建真正的生成式推荐大模型，实现更精准和个性化的推荐，是一个亟待解决的问题生成式推荐大模型将传统推荐小模型做大做深，并使其具备scalinglaw 具备通用大语言模型的涌现能力，更适合推荐任务，且能够深度挖掘用户与物品的协同关联 研究方向：生成式推荐大模型，目前主要在表征和优化层面进行研究，可以分为对应的两类：ID特征的索引与建模、高效训练与推理 1). ID特征的索引与建模生成式推荐大模型1：ID特征的索引与建模研究背景推荐模型通常使用基于ID的表征 高基数流式推荐数据：推荐系统需要处理数十亿级别的动态词汇表，基于ID的表征引入大量参数 表征信息量低：ID无法表示用户或物品特性，缺乏先验信息生成式推荐大模型1：ID特征的索引与建模基于语义embedding获取语义ID，用来代替无意义的物品ID进行推荐 等贡献码本：利用预训练大语言模型获得物品内容特征（如文本描述等）的嵌入，再基于矢量量化的方式生成码本作为语义ID，使其具有内容特征带来的先验信息 层次化码本：基于残差量化的方式获得重要程度逐级递减的码本（粗粒度->细粒度），允许更短码本长度生成式推荐大模型1：ID特征的索引与建模总结与展望 信息损失：通过量化方法将密集嵌入转换为离散语义ID的过程，本质上是一种信息的损失 协同信息缺失：语义ID仅基于物品相关描述信息获得，不包含交互或序列特征，无法建模协同信息。尽管工作如ColaRec提出使用预训练的协同过滤模型获得的物品表示增强语义ID，它削弱了对冷启动的处理能力生成式推荐大模型2：高效序列转换架构研究背景 异构特征处理：推荐系统中的特征缺乏明确结构，包括异构特征如高基数ID、交叉特征、计数器、比率等高推理成本：词表规模和候选项数目庞大 高计算成本：用户行为规模巨大，推荐系统需要处理的令牌数量远大于语言模型生成式推荐大模型2：高效序列转换架构设计具备scalinglaw的模型架构，形成生成式推荐新范式 推荐任务->序列生成任务：将输入的各项异构特征整合和编码成一个统一的时间序列，并将召回、排序等推荐任务重构为统一的Seq2Seq序列生成任务，设计基于transformer的架构生成下一个token。 效率优化：使用随机长度算法降低attention复杂度，通过算子优化等方法降低内存使用量，通过成本摊销扩大推理规模生成式推荐大模型2：高效序列转换架构总结与展望 长序列处理：当前架构不具备拓展到较长序列的能力 时间复杂度：不涉及对时间复杂度的在模型架构层面的优化，未来工作可以考虑设计类似于线性注意力机制或最新提出的mamba等一次复杂度的架构代替或部分代替二次复杂度的自注意力机制。但对于新架构，如何保持scaling law是一个挑战引入额外的状态变量来降低复杂度生成式推荐大模型 大模型推荐方法的归纳总结Data-centric大模型研究推荐scalinglaw探索多行为推荐大模型大模型推荐方法的归纳总结大模型推荐方法训练方式归纳与定义 •大模型推荐训练方式：本综述根据训练方式将已有相关方法归纳为判别式大模型推荐和生成式大模型推荐，并进一步系统化梳理并给出未来研究方向•训练方式系统性定义：为了便于研究者区分大语言模型推荐中的不同训练方式，本综述对于每种训练方式给出了系统性并且清晰的定义大模型推荐方法的归纳总结大模型推荐相关工作和数据集梳理与总结 •代表性大模型推荐工作介绍：介绍各个类别中代表性工作的研究思路和贡献，为研究者理清该领域的研究现状和发展趋势 •大模型推荐公开数据集：目前大语言模型推荐能够使用的一些公开数据集大部分还是基于传统推荐的数据集进行设计和扩充，进一步挖掘大语言模型的潜力仍需文本信息更丰富的数据已有代表性工作 Data-centric大模型研究以数据为中心（Data-centric）的人工智能 GPT成功的数据基石：GPT进化中，模型结构保持相似，训练数据的规模、质量得到极大提升 Data-centric大模型研究：数据重生成面向序列推荐的数据集重生成方法 传统方法的缺陷：传统序列推荐方法常忽视数据中潜在的质量问题和数据缺陷。怎样获得一个信息丰富且泛化性强的训练数据集，以解决序列推荐系统的训练数据质量并提升模型性能 亟待解决的问题：推荐系统旨在从原始数据集�中学习用户偏好�, Model-centric范式使不同模型从相同原始数据中学习到的�→�映射关系具有不同侧重，而Data-centric范式先从原始数据集�针对不同模型重生成易于学习模式的数据集�′，使学习映射�′→�更加简单直观推荐系统中存在的数据问题 Yin et al. Dataset Regeneration for Sequential Recommendation (KDD2024)Paper:https://arxiv.org/pdf/2405.17795;Code:https://github.com/Graph-Team Data-centric大模型研究：数据重生成 DR4SR：模型无关和模型感知的序列数据集重生成框架 模型无关的数据集重生成：基于预训练的模型无关数据生成 预训练阶段(A)学习重生成器:提出滑动窗口策略提取“(序列,模式)”对，构建预训练任务，解决监督信号缺失；提出多样性增强器建模序列和模式之间的一对多关系，解决序列模式监督信号的冲突 推理阶段(B)重生成数据集：提出混合推理策略平衡探索和利用，提高模型发现高阶模式的创造性 模型感知的数据集重生成：基于损失引导的模型感知数据生成 模型感知阶段(C)：提出目标模型评估重生成数据样本的个性化器，采用双层优化策略对其进行高效优化 Data-centric大模型研究：数据重生成面向序列推荐的数据集重生成方法的结果与分析 •方法优越性：DR4SR在不同数据集和各类模型上的性能均显著提升，展现了跨模型结构泛化能力，并能体现以Data-centric和Model-centric范式互补性，体现了Data-centric通用性 •进一步分析：虽然DR4SR可以提供模型感知的序列训练数据集，但仍需要基于原始的数据集构建高阶数据模式和用于增广训练的数据，针对不同数据类型扩展DR4SR数据重生成方法仍需探索基于benchmark数据集在5大类模型架构下显著提升性能 Data-centric大模型研究：EntropyLaw Entropy law：数据压缩与模型智能的紧密关联 Data centric的研究使我们更加关注数据质量的评估，我们的研究通过以下四个维度对数据质量进行计算 数据压缩率R：度量了数据中所蕴含的信息密度。可通过现有的各类数据压缩算法对文本数据进行压缩，随后通过压缩前后的数据大小计算压缩率训练损失L：度

点击免费查看完整报告

你可能感兴趣