研究背景与意义
互联网的快速发展催生了网络问政平台,平台上积累了大量反映社情民意的文本数据。对这些数据应用自然语言处理技术与文本挖掘能提升政府管理水平与施政效率。
研究方法与结果
任务一:群众留言分类
- 数据预处理:去除特殊字符、文本去重、去除首尾冗余、分词、去除停用词。
- 特征提取:使用融合Word2Vec和FastText模型训练词向量。
- 模型建立:构建基于卷积神经网络的分类模型,并通过数据增强提高模型性能。
- 模型评价:在测试集上,模型准确率达到91.4%,F1值为90.4%,优于随机森林、XGBoost等模型。
任务二:热点问题挖掘
- 文本去噪:使用TextRank算法提取关键词,并根据词频过滤噪声留言。
- 话题聚类:使用Doc2Vec训练句向量,并使用K-means算法将数据集聚类成7个大类,每个大类具有特定主题。
- 热点问题提取:在每类内使用命名实体识别、模糊匹配和高频词提取特定地点和特定人群,并通过精确匹配得到16个热点问题。
- 热度度量:使用异常时间点留言识别算法剔除时间异常的留言,并定义问题相关留言数量比、问题相关用户数量比、问题相关留言关注度、问题相关留言集中度四个热度评价指标。利用乘法合成法组合熵值法和变异系数法确定权重,并使用TOPSIS法计算热点问题的热度值。
- 事件提取:使用TextRank算法提取每个热点问题的关键词和关键句。
- 研究结论:成功提取出热度值排名前5的热点问题,并提取相关事件。
任务三:答复意见评价体系
- 评价指标体系:从相关性、可解释性、完整性、及时性四个方面构建了答复意见质量评价指标体系,包括问答对统计相似度、问答对语义相似度、问答对主题相似度、是否引用法律条文、是否包含联系方式、答复意见句子长度、答复意见分词后词语个数以及问答对时间差8个指标。
- 聚类结果:使用K-means算法将“答复意见”聚为高质量、中等质量、低质量三类。
- 模型构建:考虑到数据类别不均衡性,建立基于集成学习的二阶段分类器对答复意见进行分类,即在第一阶段对数据进行“高”和“非高”分类,在第二阶段对“非高”类别的数据进行“中”和“非中”分类。
- 模型评价:二阶段分类器在测试集上的准确率达98%,F1值达98.09%,Kappa值达96.93%。
研究结论
本文基于卷积神经网络模型和集成学习方法,成功实现了网络问政平台留言文本的分类、热点问题挖掘和答复意见评价,为政府工作提供了参考。