槿松/京东算法工程师寒退之/京东算法工程师
DataFunSummit#2024
背景/现状介绍
Lexicalbased
SemanticIDbased
未来展望
01
背景/现状介绍
01背景介绍
召回:在一定时间和计算复杂度的约束下,从全量商品库中,快速找出与当前搜索请求潜在相关的数千商品,要求在有限资源下进行性能和效率(召回率和准确率)之间的平衡。
模型侧:匹配精准度低,尤其是中长尾query/sku用户表述与商品描述间差异较大,缺失常识等信息;给定信息下,模型交互不充分,匹配不准确。索引侧:部署成本高、推理精度损失大两段式的训练模式,索引损失大;商品索引库需要天例行更新,部署、存储成本高。
01背景介绍
•索引侧:
•(1)稠密检索两阶段,量化损失-->生成式检索一阶段,不会有链路上的损失•(2)例行大索引-->hash索引或者轻量级索引
•模型侧:•(3)稠密检索中,查询与文档向量的交互不够充分,仅发生在相似度计算--
>生成式检索模型能实现隐式的查询和文档的深度交互,性能上界更高•(4)充分利用大语言模型的scalinglaw特性,提升模型表达能力和泛化能力,显著缓解中长尾问题
02
Lexicalbased
02Lexicalbased
领域特性位置全局无关、局部敏感信息冗余
挑战:训练任务较难、搜索空间大、生成非商品率高等query太短,title较长;传统问答相反,输入信息多,答案少一对多/超多,多样性要求高生成空间大,准确率低,且生成的非商品率过高(不在商品库中)
02Lexicalbased
02Lexicalbased
02Lexicalbased
02Lexicalbased
GenR-PO + SFT vs RSR中长尾提升较多,头部较弱
GenR-PO + SFT vsDPO(wcons)偏序学习后,中长尾提升优势仍在,头部差异减弱,recall@1000上,指标几乎相当
GenR-PO + SFT vsDPO(w/ocons)高于DPO不加约束,约束性生成占优
02Lexicalbased
q2t/t2qvsquery2multi-span原始Title噪声过多,重定义任务非常关键
L、M为超参,适当的增加span数量,控制span长度会有较好效果
Beamsize为超参,是指标与相关性的妥协
03
SemanticIDbased
https://arxiv.org/abs/2407.21488
Lexical-based劣势:生成token数较多时推理速度较慢,存储空间占用大
SID-based难点:依赖于生成SID的表征质量依赖于生成的SID的质量
03SemanticIDbased
该用户信息:年龄:age_2;性别:男性;会员状态:非会员。该用户的历史交互行为有: