行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

第二届挑战赛B3-面向网络舆情的关联度分析

2014-08-27 数睿思王英杰

研究目标

本研究旨在利用用户信息和事件数据，通过中文分词技术和关联度分析，建立用户与事件的相互关系，并进一步分析用户之间的关系，从而识别网络舆情事件中的关键人物和潜在关联。

分析方法与过程

总体流程

研究主要包括数据预处理、建模与诊断、模型优化三个步骤。

具体步骤

步骤1：数据预处理

缺失值处理：处理错误的身份证号码，提取用户性别、发证地、出生年月日等属性，并对缺失值进行处理。
重复值处理：去除重复的事件，保留首次出现的事件，并记录重复事件的频率。
分词处理：对事件标题进行中文分词和词性标注。
异常值处理：修正分词软件无法识别的异常词语。
相关处理：提取包含用户属性的事件，转化为“用户-事件-用户”的形式。

步骤2：建模与诊断

用户与用户关联度：利用Clementine软件分析用户之间的关联规则，设置置信度和提升度阈值，生成关联规则和网络图。
用户与事件关联度：通过HTML文件提取用户信息（QQ、手机、住址等），并结合事件标题分词结果，构建用户-事件关联度模型。

步骤3：模型分析和优化

模型缺点：性别、姓名、地名权重相同，导致匹配数量过多；用户之间关联度普遍较高。
模型优点：Clementine软件操作简便，结果直观可靠。
模型改进：计算用户-事件关联度，利用欧氏距离排序；标准化距离，消除量纲影响。

结果分析

用户与用户关联

通过Clementine软件分析，发现余晓明与丁羽心、马小龙之间存在显著关联，且多个用户与余晓明相关联。网络图也直观展示了用户之间的关联关系。

用户与事件关联

通过欧氏距离计算，识别出用户与事件的关联程度，并发现事件10831430与多个广州地区的用户关联度较高。

模型诊断

关联规则分析显示，王五、马小龙、胡万林、陈龙等用户之间存在较高关联度，与用户信息表中的地区信息一致。
网络图进一步验证了关联规则分析的结果。
散点图和雷达图分析显示，事件与用户的关联度存在明显差异，部分用户与特定事件关联度较高。

研究结论

本研究成功建立了用户与事件的相互关系，并进一步分析了用户之间的关系。
通过关联规则分析和网络图，识别出网络舆情事件中的关键人物和潜在关联。
模型优化后，结果更加准确可靠，能够有效应用于网络舆情监控和监督。

关键数据

关联规则分析中，置信度设置为大于20%，提升度设置为大于1。
用户与事件关联度分析中，欧氏距离标准化后，距离小于-1的关联具有较高可信度。
用户与用户关联度分析中，一级关系为李天-李江，二级关系包括周世涛-周茂名等，三级关系包括王林-郑玉龙-王力宏等。

报告封面

点击免费查看完整报告

你可能感兴趣

hot

第二届挑战赛B2-面向网络舆情的关联度分析

商贸零售

数睿思2014-08-27

hot

第二届挑战赛B1-面向网络舆情的关联度分析

商贸零售

数睿思2014-08-27

hot

第二届挑战赛F4-二部分图网络推荐算法的研究改进

商贸零售

数睿思2014-08-28

hot

第十届挑战赛B3-电力系统负荷预测分析

商贸零售

数睿思2022-06-27

hot

第十一届挑战赛B3-产品订单需求预测分析

商贸零售

数睿思2023-09-01