第五届挑战赛C1-通用论坛正文提取方法研究与实验报告

2017-06-20 数睿思 Silent

本报告研究了利用网络爬虫技术提取论坛网站有价值信息的方法。针对论坛网站主帖和回帖的标题、作者、时间、内容的提取，提出了三种可行方案，并通过对比分析，最终确定以HTML标签属性共性选择为核心的最优方案。该方案结合CSS选择器和正则表达式，并考虑了部分网络论坛的特殊性，具有高度通用性。

实验过程主要包括以下步骤：

样本数据选取：除了大赛组委会提供的测试样例数据外，还选取了“站长之家”排名前300的论坛作为测试样例数据，以提高方案的普适性。
方案设计与可行性分析：提出了三种初步方案，包括利用网络论坛模板分类选择、使用HTML标签属性共性进行分类筛选以及利用简单的经验进行判断。通过分析，最终确定以方案二为基础的最优方案。
论坛标签统计和主回帖判断：通过使用浏览器的调试工具，统计各个论坛目标内容的共性，并设计了一种具有普遍适用性的URL主回帖判断方案。
程序编写：选择jsoup作为HTML解析库，并设计编制特例处理通用框架，以应对特殊论坛网站。
测试指标和程序测试：设计了用于论坛通用爬虫的测试指标，并通过人工筛查的方式对程序运行结果进行判定，计算得出查准率和查全率等指标。

实验结果表明，该方案对论坛网站具有普适性，查准率和查全率均在90%以上。同时，针对不能普适的论坛网站，设计了简单框架以填充特殊规则来处理。

核心成果：开发了一个基于HTML标签属性共性选择的通用论坛爬虫程序，能够有效地提取论坛网站主帖和回帖的标题、作者、时间、内容等信息。
程序运行：程序采用Java语言编写，并使用jsoup库进行HTML解析。程序流程包括初始化、获取网页HTML内容、获取帖子字段信息、组合属性集合、生成帖子对象和写入流对象等步骤。
测试结果：对样本数据和论坛排行榜数据进行测试，查准率和查全率均在90%以上，证明了程序的普适性。
实验感想：论坛格式变化多样，但主要内容所应用的CSS选择器具有相似性，普适性较高。信息瞬息万变，部分论坛网站存在异常情况，规则具有局限性，需要设计框架处理特殊论坛。