AI智能总结
•背景:为什么要做生成式推荐•MTGR:美团生成式推荐落地实践•MTGRBoost:训推引擎建设•总结与展望:未来工作Outline 背景:为什么要做生成式推荐 大模型Scaling Law•2020年OpenAI首次系统性提出Scaling Law的概念——模型性能随着模型规模、数据量和计算资源的增加而提升,且遵循一定的数学规律。•从GPT开始,旗舰LLM计算复杂度以及参数量快速上升,先后出现了LLama3.1 405B、DeepSeek-R1 671B等大尺寸模型。 Kaplan, Jared, et al. "Scaling laws for neural language models." arXiv preprint arXiv:2001.08361 (2020). 4 美团外卖DLRM Scaling历史…………Key & Values ProjectionQuery ProjectionMulti-Head Attention……Concat……Multi-task predictionUser behavior sequenceContext User profileTarget itemMoEScaling modulea. Scaling cross module优点:user x item建模充分缺点:训练、推理开销难以优化2018~2022 优点:推理可以进行成本分摊缺点:user only,user x item建模不充分2023 推荐系统中Scaling Law——历史发展与困境•注意力机制与推荐系统:•引入注意力历史悠久:从2017年开始,推荐系统领域就开始尝试引入注意力机制,包括SASRec、DIN等,至今采用浅层注意力研究超长序列建模仍然是推荐系统重要的研究方向。•工业实际使用与LLM发展存在巨大gap:工业界至今仍然罕有业务使用超深注意力机制部署线上服务。•核心挑战:•推荐模型训练的token数以及词表空间都远大于LLM(亿级别用户 x 万级别用户序列 x 数百天训练样本= 1014vs1012tokens)•线上推理延迟限制严格(~30ms)低成本、高效率的训练和推理面临巨大的算法与工程挑战。 推荐系统中Scaling Law——历史发展与困境•落后于LLM发展深层次原因:•基建历史包袱重:推荐系统从进入深度学习时代开始,已经使用了近10年的Tensorflow生态,大部分团队还是基于TF1,对于Attention计算的支持远落后于开源Torch生态。•算法认知螺旋上升:不同于LLM简洁的decoder-only架构,推荐模型往往包含多个模块,Scaling哪一部分,怎么Scaling等核心问题在很长一段时间没有共识。•算法与工程的co-design处于原始阶段:LLM领域中,如何极致的压榨GPU性能是算法设计必须考虑的重要因素(如DeepSeek MLA、NSA),而搜推领域基本没有起步。 7 推荐系统中Scaling Law——HSTU•HSTU(Hierarchical Sequential Transduction Units):首次在业务上落地了生成式推荐系统(Generative Recommenders, GR)大模型,对整个建模方式、任务定义进行了大幅度的修改,极具颠覆性,是业界争相复现落地的重点。•数据组织:所有输入特征组织成序列的形式。•任务定义:所有任务(召回&排序)都嵌入到这个序列生成模型中。•模型结构:模型主体采用Transformer,将长序列输入Transformer中进行信息交互。Zhai, Jiaqi, et al. "Actions speak louder than words: Trillion-parameter sequential transducers for generative recommendations." arXiv preprint arXiv:2402.17152 (2024). 推荐系统中Scaling Law——HSTU•HSTU:该方案在Meta已经落地到实际场景中,取得了比原来的推荐系统模式更优的效果。•GR在离线指标和在线AB实验中,都优于DLRM模型。•GR展现出良好的Scaling Law的性质,找到了一条模型效果优化的可持续发展路径。Zhai, Jiaqi, et al. "Actions speak louder than words: Trillion-parameter sequential transducers for generative recommendations." arXiv preprint arXiv:2402.17152 (2024). DLRM vs GR•在有限的资源下,传统推荐模型(DLRM)不能高效处理全量用户行为,需要通过序列检索、特征工程等方式对重要信息进行提取加工,限制了模型效果的上限。•对比DLRM,GR可有效提升推荐模型的训练及推理效率,提升模型scaling的规模上限。DLRM(Deep Learning Recommender Model)数据组织模型范式•模型结构重Cross module;•一次曝光对应一条样本,同一用户多次曝光的用户信息被重复计算,浪费计算资源;•大流量业务需要负采样降低训练成本。推理范式•由于不同服务、请求下要预估的目标不同,较大的Crossmodule导致整个网络几乎要被重算,可复用性差。 10GR(Generative Recommendation)•模型结构重User module;•一次曝光作为一个Token,同一用户多次曝光被压缩成一条单独的样本,用户信息只计算一次;•无需负采样,全部数据训练的额外开销几乎可忽略。•每个候选独立计算Cross module,User module计算共享,支持更大规模的模型。•可利用KV Cache技术在跨请求情形下减少Attention的计算开销,进一步提升吞吐。 MTGR:美团生成式推荐落地实践 MTGR-核心问题•通过Causal Mask建模完整的用户行为链?•MetaGR的落地场景为沉浸式视频流Reels,Causal Mask建模符合业务展现形式,但不一定适合单列业务。•完整行为链在电商业务中噪声较多,往往需要更多的Token进行建模。•删除了全部交叉特征?•MetaGR认为交叉特征全部隐含在序列信息中,通过scale up可以弥补丢失交叉信息带来的信息损失。然而对于LBS业务,删除交叉特征效果损失巨大,在我们的实验中需要Scaling百倍算力才可弥补。•落地核心挑战:•尽量保持DLRM现有特征体系,在训推成本约束的前提下利用GR获取Scaling Law收益。 MTGR 12 MTGR-数据组织User AUser BContext &User profileUser behavior sequenceDLRMHan, Ruidong, et al. "MTGR: Industrial-Scale Generative Recommendation Framework in Meituan." arXiv preprint arXiv:2505.18654 (2025).•按用户聚合,同时取消负采样 & 长序列检索 Target item MTGR-模型结构•模型结构整体上参考HSTU的实现,在序列构成和多目标预估上做了改动:•序列构成:序列由多种不同类别的Token构成——user_profile, lifelong_seq, rt_seq, pv_items。每种Token类别包含多个特征,同一类别具有相同的特征空间。•HSTU计算:输入序列经过Embedding层后,进入到N个HSTU block进行Attention计算。为了避免实时序列和曝光items出现特征穿越,需要根据时间戳自定义mask矩阵。•多目标预估:通过MMoE进行多任务学习。Han, Ruidong, et al. "MTGR: Industrial-Scale Generative Recommendation Framework in Meituan." arXiv preprint arXiv:2505.18654 (2025). 14 MTGR-模型结构•Group LayerNorm:不同与LLM,MTGR包含了多种不同类型的Token,通过Group LN保证不同空间Token可以高效对齐。•Dynamic Mask:不同与Causal Mask,对于静态特征我们采用双向注意力编码提升编码效果,同时对于实时侧,动态演码机制可以避免信息泄漏,具体规则包括:•静态特征对所有特征可见•动态特征满足因果性,每一个特征只能被他后面的特征看到,包括预估候选•预估候选只能看到自己Han, Ruidong, et al. "MTGR: Industrial-Scale Generative Recommendation Framework in Meituan." arXiv preprint arXiv:2505.18654 (2025). MTGR-离在线效果Han, Ruidong, et al. "MTGR: Industrial-Scale Generative Recommendation Framework in Meituan." arXiv preprint arXiv:2505.18654 (2025). MTGR-离在线效果•离线实验在宽度、深度、Token长度多方面观察到近似对数线性的Scaling Law。•在线AB设置small、medium、large三个不同尺寸模型,训练超过半年,离在线均取得收益。•MTGR-large在首页推荐场景全量部署,取得近年来迭代最大收益,训练成本持平,推理成本下降44%。Han, Ruidong, et al. "MTGR: Industrial-Scale Generative Recommendation Framework in Meituan." arXiv preprint arXiv:2505.18654 (2025). MTGRBoost:训推引擎建设 MTGRBoost总体介绍•GR模型训练和推理面临严峻挑战:•训练数据和稠密网络参数规模scale导致离线训练计算量激增:按照Scaling Law的指导,模型效果的提升来自训练数据量和模型参数量的增加,带来训练计算量的大幅增加。•稀疏Embedding规模scale导致离线训练存储规模激增:新模型范式引入更多的样本和特征,导致Embedding数据量大幅膨胀,给Embedding的分布式存储和通信带来严峻的性能挑战。•在线推理模型规模和计算量伴随模型scale激增:模型大小和计算量膨胀显著,需要更强算力、更大显存的GPU加速卡,或者考虑CPU-GPU联合推理的异构计算模式。•解决思路:•建设了GR模型训推引擎——MTGRBoost,解决模型计算量和存储量激增带来的诸多性能挑战。包含两个核心组件:•MTGR-Training:支持低成本、高效率大规模分布式训练•MTGR-Inference:支持低延迟、高吞吐大规模线上推理部署Wang, Yuxiang, et al. "MTGRBoost: Boosting Large-scale Generative Recommendation Models in Meituan." arXiv preprint arXiv:2505.12663 (2025). 19 MTGR-Training•基于TorchRec,我们构建了简单易用、高性能、可扩展的GR模型训练引擎MTGR-Training,可支持千亿参数、100GFLOP/example甚至更大计算量的模型的高效分布式训练。HashtableSparse并行数据读取Sparse合表算法模型1 20MTGR-Train