AI智能总结
张祺深蚂蚁集团高级算法专家 主要内容 1.移动APP时代搜索场景的变化和挑战•结构化信息检索问题•多属性语义匹配算法2.生成式的层次化文本多分类样本增强3.大模型时代还留给搜索哪些NLP问题? 1.移动APP时代搜索场景的变化和挑战 搜索内容的变化: •传统搜索搜索引擎搜索的内容是网页(HTML)和文档(Doc),主要关注文本语义的匹配,检索的文档数量庞大。•移动APP上搜索的内容多样性显著增加,例如商品、门店、视频、小程序、账号载体(公众号、生活号)、股票基金等。•Query文本很难完整表示被检索的内容。检索的内容是有限集合,更注重语义相关性。 结构化信息检索问题 1.检索的内容文本信息较少2.检索的内容具有结构化信息:•商品:品牌、行业、类目、款式•小程序:意图、地域、功能•基金:基金类型、经理人、基金公司、板块、重仓股3.不同的搜索内容,具有不同的结构化信息 结构化信息的匹配问题: •如何把用户Query和检索Item的结构化信息完整表示并进行综合的语义匹配? 多属性语义匹配算法 •解决方案-多属性文本信息的匹配场景设计语义匹配框架,通过多属性文本的表征、多属性匹配任务、联合匹配概率建模和整句embedding表征优化等方法,将不同属性的文本信息融合到语义匹配算法中,提升文本语义匹配的准确率。 优化策略 •TokenEmbedding•Multi-View Embedding•Property Embedding•Graph Embedding•Property-Aware Task C2:多属性间文本匹配 •多属性文本联合匹配概率•单属性文本匹配融合概率•复合属性文本匹配融合概率 C3:语义向量融合表示 •构建局部和整体概率之间的联系•利用局部表征获得整体表征 多属性语义匹配算法 •解决方案-多属性文本信息的匹配场景设计语义匹配框架,通过多属性文本的表征、多属性匹配任务、联合匹配概率建模和整句embedding表征优化等方法,将不同属性的文本信息融合到语义匹配算法中,提升文本语义匹配的准确率。 C1:多属性文本表示 •将每个属性所属的tokenembedding进行first last layeraverage pooling作为属性表征。 C2:多属性间文本匹配 •计算query对于每个属性的attentionweight•使用对比学习InfoNCE Loss来优化query与多属性表征的相似度 C3:语义向量融合表示 •query与item之间的余弦相似度作为q-i之间相关性得分。•使用对比学习来优化query与item的整句embedding表征之间的相似度。 多属性语义匹配算法 •同时期的独立工作,google基于多属性的有监督预训练进行属性表征学习,需要有监督的属性样本。 主要内容 1.移动APP时代搜索场景的变化和挑战 •结构化信息检索问题 •多属性语义匹配算法 2.生成式的层次化文本多分类样本增强 3.大模型时代还留给搜索哪些NLP问题? 2.生成式的层次化文本多分类样本增强 Query文本分类问题: •Query文本分类是召回、相关性、排序的重要特征,是搜索场景重要的策略输入(例如搜索结果类型的触发条件) •大规模层次化文本分类问题(分类节点1000-100万),分类体系差异性强 •样本少,不同分类体系的样本无法复用,人工标注成本较高 2.生成式的层次化文本多分类样本增强 层次化文本多分类样本生成的挑战: •生成样本的分类label需要足够准确•生成样本的多样性 •C1:label语义和关键词短语增强的prompt•C2:融入label层级信息的关键词抽取器,对照TF/IDF•C3:过滤模块,类似CF training过滤,用监督样本训练BERT后进行过滤•C4:通用生成式样本增强框架,可以直接替换不同的生成模型 2.生成式的层次化文本多分类样本增强 实验效果: •对比在不同Backbone模型下,不同的生成式文本多分类样本增强方法效果 •EDA:基于规则的增删改•BT:样本的反向翻译•LAMBADA:输入样本label,输出增强样本文本•GDA:输入一段样本,生成一段样本•PromptGDA:一半输入label,一半输入关键词 主要内容 1.移动APP时代搜索场景的变化和挑战•结构化信息检索问题•多属性语义匹配算法2.生成式的层次化文本多分类样本增强3.大模型时代还留给搜索哪些NLP问题? 3.大模型时代还留给了搜索哪些NLP问题? 大模型目前的局限性: •生成结果的准确性•在线服务的耗时•实时信息的获取 对应的NLP问题: 1.大规模语义检索任务2.大规模文本分类任务 Thanks!