- 挖掘意义: 针对传统阅读理解效率低的问题,构建智能文本挖掘模型,辅助人们快速从文档中定位答案。
- 挖掘目标: 构建一个智能阅读模型,实现文档与问题的匹配,定位答案所在句子或词语。
- 挖掘流程: 分为预处理和候选答案评分两部分。预处理包括分词、去停用词和词向量表示(word2vec)。候选答案评分部分包括Bi-LSTM提取上下文信息、sentence2vec凸显答句语义、注意力机制整合信息,最后通过阈值确定结果。
- 预处理: 采用jieba分词,去除停用词,使用Skip-gram模型进行word2vec词向量表示。
- 候选答案评分:
- Bi-LSTM层: 使用Bi-LSTM网络提取词向量,保留更多上下文信息。
- 句嵌入层: 应用sentence2vec算法将答句词向量转换为句向量,提升语义表达。
- 注意力层: 计算问句词向量矩阵和答句句向量矩阵的匹配矩阵。
- ATT-over-ATT层: 采用创新的attenton-over-attention机制,分别计算问题到答案和答案到问题的注意力矩阵,并求平均得到注意力向量。
- 注意力汇聚层: 计算正反注意力向量的点积,得到注意力汇聚向量,表示每个答句与问句的匹配程度。
- 实验评估:
- 实验平台: 使用TensorFlow框架,配置Intel i7 CPU、GTX1080显卡、16GB内存和Ubuntu 16.04操作系统。
- 实验数据: 使用出题方提供的数据集、百度WebQA数据集和机器学习保险行业问答开放数据集。
- 评价指标: 精确率、召回率、F1-Score、准确率、MRR、MAP。
- 实验结果:
- 在三个数据集上均表现优异,F1-Score为0.854,准确率为81.201%,验证模型有效性。
- Skip-gram词嵌入方法优于CBOW和One-hot编码。
- sentence2vec句向量方法优于基于RNN生成句向量的方法和仅使用词向量的方法。
- Attention-over-Attention机制优于单一注意力机制,F1-Score提升22.351%。
- 模型优于基于传统方法和卷积神经网络的模型。
- 模型优化:
- 对问句进行语义分析,识别实体和联系,转换为逻辑表达形式。
- 应用文本蕴含思想对候选答案进行重排序。
- 未来改进目标:实现更细粒度的答案提取,将答案定位到词语。