研究目标
本研究旨在利用网络爬虫工具采集的网络舆情信息,通过数据挖掘技术分析用户信息中不同权重的关键词与网络舆情信息之间的关系,挖掘用户与网络舆情信息的关联规则,并构建关键词加权评分系统,以反映与用户最相关的网络舆情信息。
分析方法与过程
总体流程
本研究主要包括以下步骤:
- Web信息提取与关键词提取:利用Java程序,根据关键词词频统计,对用户信息中的关键词赋予不同权重,并在网络舆情信息资料库中进行web信息提取与关键词提取。
- 关键词权重设置:根据关键词词频,计算每个关键词的权重,出现频数越大的关键词权重越小。
- 构建关键词加权评分系统:基于二值法,将用户信息和网络舆情信息分别转换为向量,并对向量进行加权处理,最终计算向量间的余弦值,构建关键词加权评分系统。
- 评分排序并归档:根据余弦值对网页进行评分排序,并按照预设规则进行归档。
具体步骤
- Web信息提取与关键词提取:
- 对用户信息中的关键词进行预处理,剔除“国别”和“照片”两个关键词。
- 利用Java程序,根据关键词词频统计,对“网络舆情信息”文件夹中的网页进行搜索,并修正搜索规则,剔除只出现性别和住址的网页。
- 关键词的权重设置:
- 根据关键词词频,计算每个关键词的权重,出现频数越大的关键词权重越小。
- 二值法优化构建关键词加权评分系统:
- 将用户信息和网络舆情信息分别转换为向量。
- 利用二值法将用户信息向量中的关键词频数转换为只包含0和1的向量。
- 将用户信息向量与关键词权重向量相乘,得到加权向量。
- 计算用户信息向量和加权向量之间的余弦值,构建关键词加权评分系统。
- 评分排序并归档:
- 根据余弦值对网页进行评分排序,并按照预设规则进行归档,分为“优”、“良”、“中”、“差”四个等级。
结果分析
- 部分用户信息无法找到匹配的关键词,无法进行评分。
- 部分用户信息匹配的关键词主要为性别和住址,评分结果多为“中”等或“差”等。
- 部分用户信息匹配的关键词信息量较大,评分结果为“良”等或“优”等,例如“余晓明”和“张秋白”。
- 部分用户信息存在重复,例如“胡万林”。
结论
- 模型优点:利用Java程序进行关键词搜索和评分,效率高,精准度高。
- 模型缺点:关键词权重设置不合理,导致部分关键词权重差异不明显。
- 模型改进:剔除只出现性别和地址的网页,重新计算评分排名情况,提高了模型的准确性。
关键数据
- 关键词词频统计结果:例如“姓名”出现94次,“性别”出现306次,“住址”出现109次。
- 关键词权重:例如“姓名”权重为0.1091,“性别”权重为0.0812,“住址”权重为0.1005。
- 余弦值:用于衡量用户信息向量和网络舆情信息向量之间的关联程度。
研究结论
本研究构建了关键词加权评分系统,实现了对用户信息与网络舆情信息关联度的分析,并取得了较好的效果。但模型仍存在一些不足,需要进一步改进。