您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[DataFunSummit2024:生成式AI技术峰会]:槿松-寒退之+基于大模型的生成式检索 - 发现报告

槿松-寒退之+基于大模型的生成式检索

AI智能总结
查看更多
槿松-寒退之+基于大模型的生成式检索

槿松/京东算法工程师寒退之/京东算法工程师 DataFunSummit#2024 背景/现状介绍 Lexicalbased SemanticIDbased 未来展望 01 背景/现状介绍 01背景介绍 召回:在一定时间和计算复杂度的约束下,从全量商品库中,快速找出与当前搜索请求潜在相关的数千商品,要求在有限资源下进行性能和效率(召回率和准确率)之间的平衡。 模型侧:匹配精准度低,尤其是中长尾query/sku用户表述与商品描述间差异较大,缺失常识等信息;给定信息下,模型交互不充分,匹配不准确。索引侧:部署成本高、推理精度损失大两段式的训练模式,索引损失大;商品索引库需要天例行更新,部署、存储成本高。 01背景介绍 •索引侧: •(1)稠密检索两阶段,量化损失-->生成式检索一阶段,不会有链路上的损失•(2)例行大索引-->hash索引或者轻量级索引 •模型侧:•(3)稠密检索中,查询与文档向量的交互不够充分,仅发生在相似度计算-- >生成式检索模型能实现隐式的查询和文档的深度交互,性能上界更高•(4)充分利用大语言模型的scalinglaw特性,提升模型表达能力和泛化能力,显著缓解中长尾问题 02 Lexicalbased 02Lexicalbased 领域特性位置全局无关、局部敏感信息冗余 挑战:训练任务较难、搜索空间大、生成非商品率高等query太短,title较长;传统问答相反,输入信息多,答案少一对多/超多,多样性要求高生成空间大,准确率低,且生成的非商品率过高(不在商品库中) 02Lexicalbased 02Lexicalbased 02Lexicalbased 02Lexicalbased GenR-PO + SFT vs RSR中长尾提升较多,头部较弱 GenR-PO + SFT vsDPO(wcons)偏序学习后,中长尾提升优势仍在,头部差异减弱,recall@1000上,指标几乎相当 GenR-PO + SFT vsDPO(w/ocons)高于DPO不加约束,约束性生成占优 02Lexicalbased q2t/t2qvsquery2multi-span原始Title噪声过多,重定义任务非常关键 L、M为超参,适当的增加span数量,控制span长度会有较好效果 Beamsize为超参,是指标与相关性的妥协 03 SemanticIDbased https://arxiv.org/abs/2407.21488 Lexical-based劣势:生成token数较多时推理速度较慢,存储空间占用大 SID-based难点:依赖于生成SID的表征质量依赖于生成的SID的质量 03SemanticIDbased 该用户信息:年龄:age_2;性别:男性;会员状态:非会员。该用户的历史交互行为有:<xxx><xxx><xxx>,<xxx><xxx><xxx>……。该用户本次搜索的关键词为“XX鼠标”。请根据该用户信息、历史交互行为和本次搜索关键词,预测该用户接下来最可能购买的商品:<xxx><xxx><xxx> RQ量化[1] [1]Google:RecommenderSystemswithGenerativeRetrieval, http://arxiv.org/pdf/2305.05065 03SemanticIDbased 03SemanticIDbased 03SemanticIDbased 第一层 候选点被分成M个聚类桶,token的入度相等。输入分布均匀。 第二层 输入为第一层的残差,分布非均匀。小残差点靠近聚类中心,异常值较大。聚类更关注异常值,形成长尾现象。第三层 残差值变得一致且均匀。类似第一层的均匀分布。第二层大路由节点分散成多个小节点。 整体趋势 随层数增加,残差减小,聚类效应减弱。形成沙漏状结构:数据压缩再扩展,最终均匀分布。语义ID构建后,路径稀疏性增加,非均匀分布现象加剧。 03SemanticIDbased 基本对比头部token大于长尾token 进阶对比交换一二层后给定第一层token显著大于base 03SemanticIDbased 变长式自适应移除大路由节点层头部top@ktoken 启发式直接去除大路由节点层 04 未来展望 1.表征优化 2.时效特征 3.基于大模型的生成式召回-排序框架 THANKS