您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[复旦大学]:2023年从深度匹配到深度问答报告 - 发现报告

2023年从深度匹配到深度问答报告

信息技术2024-12-09张奇复旦大学哪***
AI智能总结
查看更多
2023年从深度匹配到深度问答报告

复旦大学张奇 目录 1从搜索到问答234深度语义匹配机器阅读理解语言模型预训练 从PC到移动 无处不在的问答引擎 Q:北京处理违章需要带什么证件? Q:汽车没电了打不着火怎么办?A:首先需要一根跨接电线,然后将两车的车头面对面… Q:大红袍是什么茶?A:乌龙茶。 Q:学生证买火车票一年能用几次?A:4次。 来自搜索的问题分布 用户需求强,难度大 ①约1/4用户查询是问答需求②更长尾,更偏向自然语言描述 搜索问答的挑战 面临复杂的互联网文档,文档质量、文本长度千差万别,机器阅读理解难度更大,更具挑战性。 深度匹配 深度匹配–数据来源 深度匹配 Apple官方支持: 如果您的iPhone、iPad或iPod touch开不了机或死机怎么办 用户: iPhone死机了怎么办 苹果8突然卡死,主界面不能动,在线急等 我的肾7突然无法操作,这种情况怎么解决? 用户输入与标准问法差别很大 深度匹配 小孩子发烧38度怎么办ßà小孩子发烧41度怎么办北京大学ßà北京的大学盐酸氯丙嗪ßà盐酸异丙嗪定金ßà订金脑袋测得出的东西叫智商,脑袋测不出的东西叫智慧;眼睛看得到的地方叫视线,眼睛看不到的地方叫视野;耳朵听得到的动静是声音,耳朵听不到的动静是声誉;嘴里说得出来的话叫内容,嘴里说不出来的话叫内涵;…… 失之毫厘,差以千里! 深度匹配 基于句子表示的方法 基于句子表示的方法 基于句子表示的方法 Query和Doc的多层交互,三层QRNN提供了由浅到深的语义编码能力 Attention机制建模Query和Doc的语义一致性,利用Query重构Doc上下文表示的能力,语义信息层层递进 基于交互关系的方法 基于交互关系的方法 MatchPyramid 基于交互关系的方法 基于交互关系的方法 基于QRNN和注意力机制的表示学习序列表示,3倍加速于LSTM注意力机制加强Query-Doc的交互 公开数据集上的表现 深度匹配模型与传统BM25特征差距不大•数据深度不足,Robust04包含60万词,50万篇文档。 基于交互关系的方法优于基于表示的方法 •基于交互关系的方法引入了词精确命中,模糊命中,模板匹配等强信息,缓解了训练数据不足的问题。 多层模型表示学习优于匹配学习,随层数增加,表示学习效果提升更明显•RepresentationLearning模型能够更好地设计多层间交互,提升模型拟合能力 机器阅读理解 机器阅读理解 周杰伦蜡像什么时间亮相上海杜莎夫人蜡像馆? 文章问题+ 答案 机器阅读理解 2015年之后 2015年之前 From: “Towards the Machine Comprehension of Text” byDanqiChen, 2017. 机器阅读理解 2015年之前的模型:单词匹配、逻辑回归、分类等 2015年之后的模型:神经网络 From: “Towards the Machine Comprehension of Text” byDanqiChen, 2017. R-NET GoogleQANET GoogleQANET DATA AUGMENTATION BY BACKTRANSLATION KnReader—IncorporatingCommonsenseKnowledge 1.Knowledge RetrievalPerforms fact retrieval andselects a number of facts 2.Knowledgeable ReaderUseAttention Sum Readeras one of the strongest core models for single-hop RC and extend it with a knowledgefact memorythat is filled with pre-selected facts. Commonsense knowledge or factualbackgroundknowledgeaboutentitiesandevents KnReader—IncorporatingCommonsenseKnowledge 事实类问答 面临的问题 解决思路 ①大量现有模型针对规范文本,假设文本中存在正确答案,而真实场景面临不存在答案的情况;②现有模型很少考虑外部知识,对于涉及推理的问题,效果不好; ②充分利用丰富的外部知识,不仅有利于处理复杂推理问题,也有助于答案存在性判断; 方案:提出融合答案存在性判断、并结合外部知识的答案提取模型EK-RNet EK-Rnet 1、融入passage包含答案的概率 2、在字、词表示基础上融入外部知识信息:全局|局部词频、是否为LAT、实体类型、数量词、来源网页质量等 EK-RNet模型,相比原始Rnet模型,在相同精度水平下(90%),召回提升30% 非事实类问答 面临的问题 解决思路 ①针对长距离依赖和信息丢失问题,在以词为单位的表示和注意力机制基础上,融入以句子为单位的长距离信息传递机制,同时使用ELMO词嵌入,增加上下文相关表示能力 ①网页通常包含长文本,现有阅读理解模型往往因长距离依赖导致丢失重要信息而提取错误答案 ②网页可能不存在正确答案,易过召 ②对答案存在性进行判断 方案:提出联合学习答案存在性判断与答案提取的分层匹配模型HM-LSTM HM-LSTM 2.引入句子级别注意力机制词注意力机制+句子注意力机制 3.使用上下文相关的词向量表示ELMO 语言模型预训练 WordEmbedding的缺陷 一词多义 l山上到处是盛开的杜鹃;树林里传来了杜鹃的叫声。l把电视关上,我们要学习文件;大家注意,下午要拿学习文件来。lproduce filets of smokedbass;exciting jazzbassplayerlJobsistheCEOofApple;Hefinallyatetheapple. WordSense Disambiguation 语言模型预训练方法 EmbeddingsfromLanguageModels l传统WordEmbeddingsl每一个词只对应一个词向量 lEMLo l利用预训练好的双向语言模型,然后根据具体输入从该语言模型中可以得到上下文依赖的当前词表l对于不同上下文的同一个词的表示是不一样的 Peters, M. E. et al. Deep contextualized word representations. NAACL (2018). EmbeddingsfromLanguageModels 双向的LSTM语言模型,一个前向和一个后向语言模型 目标函数:取这两个方向语言模型的最大似然 训练时与任务无关 Peters, M. E. et al. Deep contextualized word representations. NAACL (2018). EmbeddingsfromLanguageModels l针对每个Token l针对某个特定的任务,将双向语言模型的每一中间层进行一个求和 l有监督的NLP任务时,可以将ELMo直接当做特征拼接到具体任务模型的词向量输入或者是模型的最高层表示上。 EmbeddingsfromLanguageModels GenerativePre-Training l利用Transformer网络代替LSTM作为语言模型l更好的捕获长距离语言结构l具体任务时使用有监督数据微调语言模型作为附属任务训练目标 GenerativePre-Training Supervised fine-tuning GenerativePre-Training Radford, A. &Salimans, T. Improving Language Understanding by Generative Pre-Training. (2018). GenerativePre-Training BidirectionalEncoderRepresentations fromTransformers l使用Transformer的编码器来作为语言模型,所有层中都是双向的 lWordPieceEmbedding作为词向量l加入了位置向量和句子切分向量 BidirectionalEncoderRepresentations fromTransformers BidirectionalEncoderRepresentations fromTransformers BidirectionalEncoderRepresentations fromTransformers 语言模型预训练 l可以充分利用大规模的单语语料l一定程度上可以对一词多义进行建模l采用Pretrain模式还可以在很大程度上缓解具体任务对模型结构的依赖 谢谢!