行业研究公司研究宏观策略财报招股书会议纪要海南封关低空经济 DeepSeek AIGC 大模型

槿松-寒退之+基于大模型的生成式检索

医药生物2024-12-06DataFunSummit2024：生成式AI技术峰会程***

AI智能总结

背景与现状介绍

召回任务需在时间和计算复杂度约束下，从全量商品库中快速找出与搜索请求潜在相关的商品，平衡性能与效率。当前模型侧存在匹配精准度低（尤其中长尾query/sku）、交互不充分的问题；索引侧存在部署成本高、推理精度损失大、索引更新成本高等问题。

索引侧改进方向

两阶段训练模式优化：从稠密检索两阶段转向生成式检索一阶段，减少链路损失。
索引轻量化：采用hash索引或轻量级索引替代例行大索引。
模型交互增强：利用生成式检索实现隐式深度交互，提升性能上界。
大模型特性利用：借助大模型的scaling law提升表达能力和泛化能力，缓解中长尾问题。

Lexical-based方法分析

领域特性与挑战

位置无关、局部敏感、信息冗余。
训练任务较难，搜索空间大，生成非商品率高（query太短时）。
传统问答相反，输入多输出少，多样性要求高，生成空间大，准确率低。

实验结果

GenR-PO + SFT vs RSR：中长尾提升较多，头部较弱。
GenR-PO + SFT vs DPO(wcons)：偏序学习后中长尾优势仍在，头部差异减弱，recall@1000指标相当。
GenR-PO + SFT vs DPO(w/ocons)：约束性生成优于不加约束的DPO。
q2t/t2q vs query2multi-span：原始Title噪声多，重定义任务关键；适当增加span数量和长度、调整Beamsize效果较好。

SemanticID-based方法分析

方法与难点

Lexical-based劣势：生成token数多时推理慢、存储占用大。
SID-based难点：依赖生成SID的表征质量。

实验设计

RQ量化：基于用户信息、历史交互和搜索关键词预测最可能购买商品。
残差聚类分析：
- 三层残差聚类呈现沙漏结构：层数增加，残差减小，聚类效应减弱。
- 语义ID构建后路径稀疏性增加，非均匀分布现象加剧。
对比实验：
- 基本对比：头部token数量显著大于长尾token。
- 进阶对比：交换一二层后，给定第一层token显著增加。
- 变长式自适应移除大路由节点层，启发式直接去除大路由节点层。

未来展望

表征优化：提升特征表示质量。
时效特征：融入时间维度信息。
基于大模型的生成式召回-排序框架：进一步结合大模型能力优化召回排序效果。

槿松/京东算法工程师寒退之/京东算法工程师 DataFunSummit#2024 背景/现状介绍 Lexicalbased SemanticIDbased 未来展望 01 背景/现状介绍 01背景介绍召回：在一定时间和计算复杂度的约束下，从全量商品库中，快速找出与当前搜索请求潜在相关的数千商品，要求在有限资源下进行性能和效率（召回率和准确率）之间的平衡。模型侧：匹配精准度低，尤其是中长尾query/sku用户表述与商品描述间差异较大，缺失常识等信息；给定信息下，模型交互不充分，匹配不准确。索引侧：部署成本高、推理精度损失大两段式的训练模式，索引损失大；商品索引库需要天例行更新，部署、存储成本高。 01背景介绍 •索引侧： •(1)稠密检索两阶段，量化损失-->生成式检索一阶段，不会有链路上的损失•(2)例行大索引-->hash索引或者轻量级索引 •模型侧：•(3)稠密检索中，查询与文档向量的交互不够充分，仅发生在相似度计算-- >生成式检索模型能实现隐式的查询和文档的深度交互，性能上界更高•(4)充分利用大语言模型的scalinglaw特性，提升模型表达能力和泛化能力，显著缓解中长尾问题 02 Lexicalbased 02Lexicalbased 领域特性位置全局无关、局部敏感信息冗余挑战：训练任务较难、搜索空间大、生成非商品率高等query太短，title较长；传统问答相反，输入信息多，答案少一对多/超多，多样性要求高生成空间大，准确率低，且生成的非商品率过高（不在商品库中） 02Lexicalbased 02Lexicalbased 02Lexicalbased 02Lexicalbased GenR-PO + SFT vs RSR中长尾提升较多，头部较弱 GenR-PO + SFT vsDPO(wcons)偏序学习后，中长尾提升优势仍在，头部差异减弱，recall@1000上，指标几乎相当 GenR-PO + SFT vsDPO(w/ocons)高于DPO不加约束，约束性生成占优 02Lexicalbased q2t/t2qvsquery2multi-span原始Title噪声过多，重定义任务非常关键 L、M为超参，适当的增加span数量，控制span长度会有较好效果 Beamsize为超参，是指标与相关性的妥协 03 SemanticIDbased https://arxiv.org/abs/2407.21488 Lexical-based劣势：生成token数较多时推理速度较慢，存储空间占用大 SID-based难点：依赖于生成SID的表征质量依赖于生成的SID的质量 03SemanticIDbased 该用户信息：年龄：age_2；性别：男性；会员状态：非会员。该用户的历史交互行为有：<xxx><xxx><xxx>，<xxx><xxx><xxx>……。该用户本次搜索的关键词为“XX鼠标”。请根据该用户信息、历史交互行为和本次搜索关键词，预测该用户接下来最可能购买的商品：<xxx><xxx><xxx> RQ量化[1] [1]Google:RecommenderSystemswithGenerativeRetrieval, http://arxiv.org/pdf/2305.05065 03SemanticIDbased 03SemanticIDbased 03SemanticIDbased 第一层候选点被分成M个聚类桶，token的入度相等。输入分布均匀。第二层输入为第一层的残差，分布非均匀。小残差点靠近聚类中心，异常值较大。聚类更关注异常值，形成长尾现象。第三层残差值变得一致且均匀。类似第一层的均匀分布。第二层大路由节点分散成多个小节点。整体趋势随层数增加，残差减小，聚类效应减弱。形成沙漏状结构：数据压缩再扩展，最终均匀分布。语义ID构建后，路径稀疏性增加，非均匀分布现象加剧。 03SemanticIDbased 基本对比头部token大于长尾token 进阶对比交换一二层后给定第一层token显著大于base 03SemanticIDbased 变长式自适应移除大路由节点层头部top@ktoken 启发式直接去除大路由节点层 04 未来展望 1.表征优化 2.时效特征 3.基于大模型的生成式召回-排序框架 THANKS

点击免费查看完整报告