研究目标
本研究旨在利用用户信息和事件数据,通过中文分词技术和关联度分析,建立用户与事件的相互关系,并进一步分析用户之间的关系,从而识别网络舆情事件中的关键人物和潜在关联。
分析方法与过程
总体流程
研究主要包括数据预处理、建模与诊断、模型优化三个步骤。
具体步骤
步骤1:数据预处理
- 缺失值处理:处理错误的身份证号码,提取用户性别、发证地、出生年月日等属性,并对缺失值进行处理。
- 重复值处理:去除重复的事件,保留首次出现的事件,并记录重复事件的频率。
- 分词处理:对事件标题进行中文分词和词性标注。
- 异常值处理:修正分词软件无法识别的异常词语。
- 相关处理:提取包含用户属性的事件,转化为“用户-事件-用户”的形式。
步骤2:建模与诊断
- 用户与用户关联度:利用Clementine软件分析用户之间的关联规则,设置置信度和提升度阈值,生成关联规则和网络图。
- 用户与事件关联度:通过HTML文件提取用户信息(QQ、手机、住址等),并结合事件标题分词结果,构建用户-事件关联度模型。
步骤3:模型分析和优化
- 模型缺点:性别、姓名、地名权重相同,导致匹配数量过多;用户之间关联度普遍较高。
- 模型优点:Clementine软件操作简便,结果直观可靠。
- 模型改进:计算用户-事件关联度,利用欧氏距离排序;标准化距离,消除量纲影响。
结果分析
用户与用户关联
通过Clementine软件分析,发现余晓明与丁羽心、马小龙之间存在显著关联,且多个用户与余晓明相关联。网络图也直观展示了用户之间的关联关系。
用户与事件关联
通过欧氏距离计算,识别出用户与事件的关联程度,并发现事件10831430与多个广州地区的用户关联度较高。
模型诊断
- 关联规则分析显示,王五、马小龙、胡万林、陈龙等用户之间存在较高关联度,与用户信息表中的地区信息一致。
- 网络图进一步验证了关联规则分析的结果。
- 散点图和雷达图分析显示,事件与用户的关联度存在明显差异,部分用户与特定事件关联度较高。
研究结论
- 本研究成功建立了用户与事件的相互关系,并进一步分析了用户之间的关系。
- 通过关联规则分析和网络图,识别出网络舆情事件中的关键人物和潜在关联。
- 模型优化后,结果更加准确可靠,能够有效应用于网络舆情监控和监督。
关键数据
- 关联规则分析中,置信度设置为大于20%,提升度设置为大于1。
- 用户与事件关联度分析中,欧氏距离标准化后,距离小于-1的关联具有较高可信度。
- 用户与用户关联度分析中,一级关系为李天-李江,二级关系包括周世涛-周茂名等,三级关系包括王林-郑玉龙-王力宏等。