摘要
本文提出了一种基于潜在语义索引(LSI)和卷积神经网络(CNN)的智能阅读模型,旨在解决用户无需通读文本即可获取所需信息的难题。模型分为数据预处理、关键词匹配和精准匹配三个阶段。首先,对问题数据集进行预处理,包括分词、字典化、序列化和填充字符,并去除无效回答。其次,使用TF-IDF和LSI进行关键词匹配,将问题与文本段落进行相似度计算,得到候选答案段落。最后,设计了一个更深更复杂的CNN模型进行精准匹配,通过卷积操作提取问答特征,并使用ReLU激活函数和Batch Normalization进行优化,最终输出排序后的候选答案。实验结果表明,该模型在F1-Score和准确率指标上均表现出色,泛化能力也优于其他主流模型。未来计划通过改进损失函数、构建基于Web的问答系统和研究基于众包的智能阅读数据处理服务来进一步完善模型。