本文基于BERT深度语言模型,围绕“智慧政务”文本挖掘的主题,完成了留言自动分类、热点问题挖掘和答复意见质量评价3项工作。
在留言自动分类任务上,BERT模型的F-score达到了92.89%,明显优于基线模型LSTM与Fasttext。这证明了BERT模型在政务留言文本分类任务上的优越性和实用性。
在留言热点问题挖掘任务上,本文创新性地提出了首先基于Affinity Propagation(AP)算法对留言进行初步聚类,再通过命名实体识别(NER)进一步过滤类别异常值的策略。这种策略无需预设聚类数目,且显著提高了类中成员的一致性。此外,结合话题时长、留言数、留言的点赞与反对数共3类因素,实现了综合评价每个问题(话题)的热度值。
在答复意见评价任务上,本文设计了9项特征综合评价答复意见,包括答复与留言的相似度、答复长度、命名实体的覆盖率、关键词覆盖率、法律法规分、条理分、网址链接分、联系方式分、扣除的时效分。多特征融合的评价体系有助于客观、全面反映答复意见的质量,促进政府工作人员改进工作态度,增强为人民群众排忧解难的能力。
未来工作将着重于分析留言分类中的分类有误的例子,尝试调整AP聚类算法的preference超参数以发现更优的聚类效果,以及引入NLP的自动句法分析或语义分析技术,衡量答复意见的语句通顺与语义连贯程度。