行业研究公司研究宏观策略财报招股书会议纪要海南封关低空经济 DeepSeek AIGC 大模型

大模型在华为推荐场景中的探索和应用

信息技术2024-10-28陈渤华为丁***

AI智能总结

背景

信息过载时代，推荐系统通过为用户推荐感兴趣的内容、帮助广告主精准投放、提升平台生态收益等方式发挥重要作用。传统推荐模型主要利用用户-物品协同信号，但缺乏语义信息和深度意图推理；而大模型时代下的推荐系统则引入外部开放世界知识，具备跨域推荐能力，但计算复杂度高，难以处理海量样本。

LLM for Feature

大语言模型（LLM）作为世界知识的压缩器，可以辅助推荐系统提升性能。通用框架KAR通过知识推理和生成、知识利用、知识适配等技术方案，将LLM生成的知识增强向量作为额外特征输入传统推荐模型，显著提升AUC。实验表明，在华为音乐和华为应用市场场景中，该方法使歌曲播放次数、播放设备数和播放时长均显著提升。

进一步探索

用户和物品规模大：利用协同信息对用户/物品聚类，进行LLM推理，线上A/B测试显示播放歌曲次数、设备数和时长均有显著提升。
用户兴趣变迁快：采用流式知识提取，感知用户兴趣变迁，学习增量兴趣，离线AUC显著提升。
embedding表征精细化使用：对原始embedding表征进行离散化，离线AUC显著提升。

面向LLM推荐知识生成的解码加速方法

为解决LLM在推荐知识生成任务中的高资源消耗问题，提出基于检索的投机解码和解码加速发现技术方案，在多个LLM知识生成框架和LLM中取得显著加速效果，并在华为广告场景落地，解码加速3.45x。

LLM for Ranking

针对LLM在长序列理解方面的不足，提出以下方法：

LLM直接排序的长序列理解方法：利用语义相似度检索用户长序列中最相关的行为，弥补LLM长序列理解问题。实验表明，该方法可以显著提升推荐性能，并展现出极强的样本高效性。
LLM个性化参数微调方法：通过引入传统RS模型作为透镜，权衡效率和效果，并实现个性化LLM，取得更好的预测效率和模型效果。
语义增强的推荐方法：通过跨模态知识对齐和自监督微调，将语义知识注入传统RS中，显著提升AUC，并减少推理时延。

总结与展望

大模型对于推荐系统的信息增益：LLM拥有关于Item的世界知识，有助于增强通用知识；LLM具备较强的逻辑推理能力，可以更好地理解用户兴趣和意图。
突破传统定位，重塑推荐流程：LLM在推荐系统中扮演的角色逐渐突破传统定位，在用户交互、推荐流程控制等方面发挥重要作用。
语义协同兼顾，空间融合：通过微调LLM或引入传统推荐模型，为语言模型注入推荐的域内知识。
缓解稀疏场景：通用语义知识有助于提升跨域推荐性能；LLM的zero-shot和few-shot能力可以用于解决冷启动和长尾问题。

挑战与展望：

ID特征的索引和建模：探索更适合语言模型的ID索引和建模策略。
推荐领域的长文本建模：通过检索、重构等方式，提供简短有效的文本输入。
训练效率：设计高效训练方案，提升模型训练效率和更新频率。
推理时延：通过蒸馏、剪枝降低推理模型规模；结合硬件优化提升推理速度。

演讲人：陈渤华为诺亚方舟实验室高级算法工程师 CONTENTS目录 02LLM for Feature 01背景 04总结与展望 03 LLM for Ranking 推荐系统背景信息过载时代下的推荐系统 为用户推荐感兴趣的资讯，提升用户体验广告主精准投放，挖掘潜在客户提供更好的服务，建设平台生态，提升平台收益 Historicaluser-item interactionsor additionalside information(e.g., social relations, item’sknowledge, etc.) INPUT OUTPUT Predict how likely a user would interact with atarget item (e.g., click, view, or purchase) 大模型时代下的推荐系统传统的推荐模型大模型时代下的推荐系统 引入外部开放世界知识，丰富语义信号√具备跨域推荐能力，适合冷启动场景√协同信号缺失×计算复杂度高，难以处理海量样本× 充分利用用户-物品协同信号建模√模型相对较小，时间空间开销低√只能利用数据集内的知识×缺乏语义信息和深度意图推理× 推荐模型如何从大模型中取长补短，从而提升推荐性能？ LLM4Rec LLM4Rec在工业推荐链路中的应用： 特征工程：对原始数据进行加工、增强，得到结构化特征，包括用户/物品维度和样本维度的特征特征编码：对结构化特征进行编码，得到对应的稠密向量表示，如用户/物品表征打分/排序：对候选物品进行打分排序，包括物品打分（精排）和物品直接生成（召回/重排）用户交互：对话式推荐中用户和系统交互过程中，通过理解用户对话和意图，给用户提供物品推荐流程控制：控制推荐系统的整体流程，如对排序阶段的控制 LLM4Rec 根据训练和推理两个阶段，将现有LLM4Rec工作分为四个象限： 横坐标：在训练阶段，大语言模型是否需要微调纵坐标：在推理阶段，是否需要引入传统推荐模型 LLM4Rec呈现出两个趋势：语义+协同 模型：通过引入传统推荐模型（CRM）为语言模型注入协同信号数据：通过引入推荐场景的数据，结合大模型微调，为语言模型注入协同信号大语言模型在推荐系统应用的四象限图及代表性工作 LLM for Feature 利用LLM开放知识辅助推荐的通用框架KAR 大语言模型是世界知识的压缩器 传统的推荐系统为封闭的系统，仅使用推荐场景内部的数据进行训练 •开放世界的知识•基础的逻辑推理能力 •仅具备推荐领域内的知识，利用协同信号和特征共现关系进行推荐•对于用户偏好的学习局限、不全面•难以解决冷启动和数据稀疏的问题 引入世界知识以及逻辑推理能力的开放推荐系统 •开放世界通用知识：用户、物品相关的背景知识•逻辑推理能力：深层理解用户行为动机、偏好推理技术方案知识推理和生成知识利用知识适配 将所生成的知识增强向量作为额外的特征输入到传统的推荐模型 所生成的文本信息内容复杂多面，且存在幻觉问题，推荐模型难以直接理解和利用设计多专家网络进行知识提取、压缩、映射，适配至推荐空间，输出结果鲁棒 基于推荐场景分解关键因素，对用户偏好和物品外部知识分别对LLM提问LLM生成相应的用户兴趣推理知识和物品事实知识 Xi Y, Liu W, Lin J, et al. Towards Open-World Recommendation with Knowledge Augmentation from Large Language Models.RecSys[C], 2024 实验效果 在9个SOTA的推荐模型上，平均AUC显著提升1%+，显示出较好的兼容性和有效性 基于盘古大模型KAR在华为音乐歌单推荐榜单全量上线，对歌曲风格、情感、节奏倾向，用户听歌偏好等知识进行生成，线上A/B播放歌曲次数+1.7%，播放歌曲设备数+1.64%，播放时长+1.57% 在华为应用市场场景全量上线，对APP的开放域标签，用户的APP使用模式和偏好等知识进行生成 Xi Y, Liu W, Lin J, et al. Towards Open-World Recommendation with Knowledge Augmentation from Large Language Models.RecSys[C], 2024 进一步探索 进一步探索1：用户和物品规模大，所需推理次数多，且协同信息缺失 •方法：利用协同信息对用户/物品聚类，对每一个聚类用户/物品集进行LLM推理•效果：华为音乐场景线上A/B，播放歌曲次数+1.99%，播放歌曲设备数+1.73%，播放时长+2.04% 进一步探索2：用户兴趣变迁快，需周期性更新 •方法：采用流式知识提取，感知用户兴趣变迁，学习增量兴趣•效果：华为音乐场景全量上线，相比固定提取，流式提取离线AUC+0.27% 进一步探索3：embedding表征精细化使用 •方法：对原始embedding表征进行离散化，如聚类•效果：相比直接使用embedding，使用离散化ID方法离线AUC+0.3% 面向LLM推荐知识生成的解码加速方法 大语言模型蕴含着丰富的开放世界知识（物品语义知识），具备超强的逻辑推理能力（用户意图、兴趣演变） LLM作为推荐知识生成器提供给传统推荐模型，已带来显著商业收益 LLM是高资源消耗模型，用于推荐知识生成任务会面临调用次数多，单次调用时延长，所需推理机器多等问题 •推荐场景中海量的用户（亿级）和物品（千万级）规模•用户兴趣变迁快，需要周期性刷新•大模型解码耗时长（数秒）•推理机器成本高，电量资源消耗多解码加速发现 基于检索的投机解码 •从历史知识中检索相关文本，并复制到新知识末尾，从而跳过LLM解码过程实现加速解码•串行解码->并行验证 解码加速发现 •Retrieval Inefficiency：检索的耗时占比会随着检索池规模的增长而上涨明显•Diversity Tolerance：解码时从top-k的tokens中采样以增加文本多样性，下游推荐任务高容忍度技术方案 个性化检索 •构建个性化检索池（基于协同和基于属性），控制检索池大小和增加文本分布一致性 模糊校验 •校验阶段放松验证条件，接受更多token，提升加速比•可配置接收门槛概率，避免LLM发散生成实验结果 在4个LLM知识生成框架中，取得3-5x的加速效果，显示出显著的兼容性和有效性，以及近乎无损的下游预测效果实验结果 在5个不同类型LLM中，取得一致的加速效果，显示出较好的兼容性 在华为广告场景落地，利用LLM对目标广告可能吸引的人群，产品特点，竞争优势，品牌定位和形象等知识进行生成，相比原始解码方式，在AUC持平的情况下解码加速3.45x LLM for Ranking LLM直接排序的长序列理解方法 用户行为序列建模对推荐系统预测效果至关重要 •用户行为序列长（~106），兴趣多样•序列长度对推荐系统的效果影响巨大•用户长序列建模工作带来显著商业价值：UBR、ETA等 大模型的长序列理解问题相比传统推荐系统更加严峻 •大多数LLM用于理解用户序列只选取最近10-15个行为•拉长用户行为序列并不能为LLM的推荐效果带来增长，即使输入长度远未超过LLM上下文长度限制（Vicuna-13B的上限为2048 tokens）技术方案 利用语义相似度检索用户长序列中最相关的行为，弥补LLM长序列理解问题不微调LLM：通过引入语义级的用户行为检索，根据当前预测物品提取用户序列核心行为，进而提升LLM的推荐性能微调LLM：利用用户行为检索作为数据增强手段，构造模式增强的混合训练数据集，提升LLM对用户长行为序列的理解能力 Recent-based：User behaviors:[‘Gone with the Wind (1939) (2 stars)', 'The Silence of the Lambs (1991) (3 stars)','The Terminator (1984) (5stars)','Before Sunrise (1995) (2 stars)', 'Blade Runner (1982) (5 stars),'Star Wars: Episode IV (1977) (4 stars)','Modern Times(1936) (5 stars)’,'2001: A Space Odyssey (1968) (5 stars)’, 'Alien (1979) (5 stars)', 'Back to the Future (1985) (4 stars)‘…] The user is a female. Her job is sales. Her age is 35-44. She watched the following movies in order in the past, and ratedthem:['0. Gone with the Wind (1939) (2 stars)', '1. The Silence of the Lambs (1991) (3 stars)', '2. The Terminator (1984) (5stars)', '3. Before Sunrise (1995) (2 stars)', '4. Blade Runner (1982) (5 stars)’]Based on the movies she has watched, deduceif she will like the movie***The Matrix (1999)***. You should ONLY tell me yes or no. Retrieval-based (Rella): The user is a female. Her job is sales. Her age is 35-44. She watched the following movies in order in the past, and ratedthem:['0. The Terminator (1984) (5 stars)', '1. Star Wars: Episode IV (1977) (4 stars)', '2. 2001: A Space Odyssey (1968) (5stars)', '3. Alien (1979) (5 stars)', '4. Back to the Future (1985) (4 stars)']Based on the movies she has watched, deduce ifshe will like the movie***The Matrix (1999)***. You should ONLY tell me yes or no. Lin J, Shan R, Zhu C, et al.Rella: Retrieval-enhanced large language models for lifelong sequential behavior comprehension in recommendation[C]. WWW 2024. 实验结果 ReLLa可以大幅提升不微调、小样本微调场景中推荐性能，并展现出极强的样本高效性（10%样本） •行为检索可以显著提升LLM对用户长序列的理解•LLM SFT可以显著提升推荐效果，且具备极强的样本高效性 Lin J, Shan R, Zhu C, et al.Rella: Retrieval-enhanced l

点击免费查看完整报告