泰迪华南杯数据挖掘竞赛论文报告总结
研究目标
本研究旨在利用数据挖掘技术,分析给定用户与网络舆情资源的关联度,并进行关联度排序。通过从网络社区采集的舆情信息,找出与指定用户存在关联的用户,并计算这些用户与舆情资源集合的关联度。
分析方法与过程
总体流程
研究主要分为以下步骤:
- 样本数据预处理:对舆情资源和用户信息表进行预处理,包括无效HTML文档过滤、HTML文档噪声清洗、无效信息处理和重复记录处理。
- 为用户各属性设置不同的权重:采用层次分析法(AHP)确定用户各属性(姓名、性别、住址等)的权重。
- 中文分词:使用ICTCLAS工具对HTML和TXT文档进行中文分词,并进行词性标注。
- 关键词词频统计:将用户属性定义为关键词,统计其在舆情文档中的加权词频。
- 关键词在文档中的权重的量化:采用TF*IDF法计算关键词在各文档中的权重。
- 文档分类、关联度计算及排序:根据得分模型对文档进行分类,统计每个用户类中包含的文档篇数,计算用户与舆情资源的关联度,并进行排序。
具体步骤
- 样本数据预处理:
- 舆情资源预处理:过滤无效HTML文档,清洗HTML文档噪声。
- 用户信息表预处理:处理无效信息和重复记录。
- 为用户各属性设置不同的权重:
- 建立层次结构模型,构造成对比较矩阵,计算权向量,并进行一致性检验。
- 中文分词:
- 关键词词频统计:
- 统计用户属性在文档中的加权词频,剔除无关文档与用户。
- 关键词在文档中的权重的量化:
- 文档分类及关联度分析:
- 根据得分模型对文档进行分类,计算每个用户与舆情资源的关联度,并进行排序。
关键数据
- 用户属性权重:通过层次分析法确定,姓名、身份证号、电话号码等属性的权重较高。
- 关键词词频统计:统计了24个用户在361个文档中的属性出现频率。
- 文档分类结果:根据得分模型将文档分类,部分文档被归类到特定用户类别。
研究结论
- 用户与舆情资源的关联度排序结果为:Id16 > Id17 > Id18 > Id26 > Id5 > Id19 > Id11 > Id12 > Id21 > Id27 > Id14 > Id1 > Id20 > Id25 > Id4 > Id22 > Id23 > Id24。
- 模型存在不足:分类模型受阈值影响较大,成对比较矩阵受主观因素影响,缺乏真实语料库导致结果精确度无法计算。
关联度计算
- 关联度计算公式为:
Score_ij = Σ (w_k * W_kji * I_kI), 其中w_k为用户属性权重,W_kji为用户属性在文档中的权重,I_kI为示性函数。
- 阈值设置为
10^(-4),用于判断文档归属类别。
总结
本研究通过数据挖掘技术,成功分析了给定用户与网络舆情资源的关联度,并进行了排序。研究结果表明,Id16与舆情资源的关联度最高,而Id24、Id23、Id22与舆情资源的关联度最低。尽管研究取得了一定成果,但仍存在一些不足之处,需要进一步改进。