核心观点与模型概述
- 问题背景与任务重定义:在大数据时代,智能阅读系统需求增长,但现有文本匹配模型(如基于tf-idf、BM25的传统方法或基于深度学习的模型)无法有效融合外部知识,导致语义匹配与事实矛盾的问题。本文将智能阅读任务重定义为文本匹配问题,即判断给定两段文本是否匹配,并允许使用第三方知识库辅助判断。
- 模型设计:提出“知语”模型,基于深度学习,从知识与语义双重视角进行文本匹配。模型分为三个阶段:
- 知识检索:使用jieba分词和Lucene索引构建知识库(复旦大学知识工厂,6000万条记录),并采用BM25匹配方法检索相关知识。
- 知识过滤:利用注意力机制,根据问题选择知识三元组中相关的属性,过滤无关知识。
- 深度匹配:将问题、知识、回复作为三元组输入,使用GRU提取时序特征,CNN提取交互特征,并经softmax归一化输出匹配分数。
关键技术与贡献
- 关键技术:词嵌入、GRU、注意力机制、CNN、BM25。
- 主要贡献:
- 首次将知识融入深度学习模型,增强表示能力。
- 实现知识与语义多角度匹配。
- 在泰迪杯数据上取得良好成绩,证明实用性。
实验与结果
- 超参数与框架:嵌入层维度256维,GRU隐状态1024维(双向两层),卷积窗口大小3,Adam优化器(学习率0.001),MXNet框架,服务器4块Titan XP显卡训练。
- 数据集:参赛数据经处理(问题截取20词,回答补齐100词),验证集1000条。
- 性能表现:线下测试集上Recall 0.7,Precision 0.65,F1 0.4+-0.07。
- 收敛性:损失函数随epoch下降,模型易于收敛。
- 错误分析:错误主要源于:
- 知识检索失败(知识库不完整)。
- 知识过滤失败(过滤掉有用知识)。
- 深度匹配失败(难以解释原因)。
总结与展望
- 总结:知语模型有效融合知识与语义,在线下测试集表现鲁棒。主要贡献在于知识与深度学习的结合。
- 展望:未来将解决三大错误问题,并提升模型训练与部署效率。