背景介绍
问答技术是认知智能的前沿领域,通过理解语言和运用知识,满足人类直接获取信息和探索深度需求。问答在搜索中的应用主要体现在提供精准答案(如Top1问答、富结果)和作为知识线索,引导用户探索更深度的问题。
问答在搜索中的应用
- 精准答案:通过Top1问答、富结果、智能摘要等形式提供直接答案,满足用户直接需求。
- 深度需求:通过交互式问答澄清、细化需求,推荐相关问题和答案,延展用户探索。
搜索中的Top1精准问答
- 问题类型包括事实型(如“木鱼花是什么鱼做的”)和非事实型(如“静水流深的寓意”)。
- 答案形态多样,包括短答案(如“3-5年”)、长答案、列表、观点论据等。
- 信息来源涵盖网页资讯、UGC社区、PGC自媒体等。
搜索中问答技术与系统
- KBQA(基于知识图谱的问答):利用知识图谱进行语义解析、查询和推理,系统独立且数据结构化。
- DeepQA(基于搜索+机器阅读理解):结合搜索和机器阅读理解,系统包括独立优质问答系统、搜索+在线MRC系统、端到端问答系统。
DeepQA关键技术
- 短答案MRC:从多个搜索文档中抽取唯一答案片段,优化方法包括多文档段落抽取、引入外部知识信息、提升鲁棒性等。
- 长答案MRC:从单文档中抽取多个片段组合成答案,采用组合式问答框架,利用文档结构信息和预训练任务提升效果。
- 判断类观点问答:以组合式问答建模,关注论据而非直接答案,引入文档可答性预测和门机制。
- 列表结构化问答:依托网页结构解析,提取列表块、主项实体和关键片段进行匹配。
问答式搜索
- 稠密段落检索:通过深度语义学习表示,从大规模文本中检索相关段落,模型包括非交互式异形双塔模型和对比学习优化。
- 段落语义匹配:利用全网数据进行预训练,通过点击/曝光数据构造偏序对进行弱监督训练,实现高效匹配。
前沿研究
- 端到端问答:通过检索-阅读两阶段或端到端优化方法(如EM)实现,模型包括DrQA、DPR、FID等。
- 知识指导的问答:通过知识增强预训练模型(如K-BERT)将知识融合到模型中,提升问答效果。
- 多模态问答:针对视频内容进行感知分析+语义分析,通过跨模态检索、匹配、阅读理解、生成等技术实现视频问答。