全国大学生数据挖掘竞赛 优秀作品 作品名称:基于电商平台家电设备的消费者评论数据挖掘分析荣获奖项:特等奖作品单位:华南师范大学作品成员:周涛吴家舜邵悦涵指导教师:杨坦 基于情感分析、语义网络和主题模型的评论文本分析 摘要:随着网上购物在中国越来越流行,人们对于网上购物的需求变得越来越高,这给京东、淘宝等电商平台得到了很大的发展机遇,但是与此同时,这种需求也推动了更多的店商平台的崛起,引发了激烈的竞争。而在这种电商平台激烈竞争的大背景下,除了提高商品质量、压低商品价格外,了解更多消费者的心声对于店商平台来说也变得越来越有必要,其中非常重要的方式就是对消费者的文本评论数据进行内在信息的数据挖掘分析。而得到的这些信息,也会有利于对应商品的生产厂家自身竞争力的提升。本文将基于数据挖掘技术对京东三种品牌型号的热水器的评论数据进行内在信息的挖掘与分析。 在本次数据挖掘过程中,我们首先对获取得到的评论数据利用python以及ICTCLAS工具进行数据预处理、分词以及停用词过滤操作,实现了对评论数据的优化,并提升了其可建模度。 接着,采用多种方法来进行数据挖掘模型的构建,为后面的评论分析构建分析的基础。为此我们先利用深度学习的方法,通过多种工具构建栈式自编码神经网络;其次,运用武汉大学的ROSTCM6系统为三种品牌型号热水器的好差评文本构建语义网络;再有,利用LDA主题模型的思想,结合统计学的角度实现评论主题模型的构建。 最后,运用构造出来的多种数据挖掘模型的结果,对这些评论数据进行多方面多角度的评论文本分析,以提取评论中隐藏的信息。栈式自编码神经网络被用以进行情感倾向性分析;语义网络重建了有价值高频词之间的关系,在共词矩阵以及评论定向筛选回查的帮助下,一定程度上得到了京东三种品牌型号热水器包括特有优点、抱怨点等信息;LDA主题模型则滤取出了从统计学角度上的给予不同型号热水器好差评的消费者的关注点,以了解热水器消费者一般关注的对象。 关键词:评论数据;文本分析;信息提取;语义网络;LDA;栈式自编码 comments analysis based on sentiment analysis,semanticnetworkandLatentDirichletAllocation Abstract:With the prevalence of online shopping in China, consumer has paid more and moreattention on online shopping, which at the same time, brings opportunities and challenges to E-businesssuch as Jingdong and Taobao. With the background of challenges, studying what people virtually thinkbased on data analyzing and mining plays an important role in improving the quality of the products andservice. What’s more, the study will strengthen the competitiveness of E-business.Therefore,in this thesis,some researchare done on the products comments of three different brands based on data mining.Firstly,in order to optimize the comment data and enhance the ability of our model,we pre-process thecomment data and stoplists filtering by using python,and utilizing ICTCLAS to do wordsegmentations.Secondly,in order to analyze the information of the comments, we choose various methods to establish the data mining model. First, deep learning is applied on the construction of Stacked AutoEncoder(SAE) neural network. Then, we utilize theROSTCM6system(building by Wuhan university) to build upsemantic network on account of favorable and unfavorable comments. Finally, combined with statisticalperspectives, we establish the Latent Dirichlet Allocation (LDA) model to study the information offavorable and unfavorable comments.Finally,the above models are applied comprehensively to analyze the comments from different perspectives, which can discover the latent information in comments. And we doemotional tendencyanalys isthrough Stacked AutoEncoder (SAE) neural network model.furthermore, semantic networkrebuilds the relationship between the valuable high-frequency words. With the help of co-word matrix andthe comment directional filter checkback, we attain the strengthsand weaknesses of three differentbrands-Midea, Haier, Wanhe. Additionally, combined with statistical perspectives, we apply LDA model tostudy the core concerns and their attitude from consumers on three different brands. Key words:comment data, text analysis, Stacked AutoEncoder (SAE), semantic network, Latent Dirichlet Allocation (LDA), information extraction 目录 1.挖掘目标...............................................................................................1 2.分析方法与过程....................................................................................1 2.1.总体流程.....................................................................................................................12.2.具体步骤.....................................................................................................................12.3.结果分析...................................................................................................................18 4.参考文献.............................................................................................27 1.挖掘目标 本次建模针对京东电商平台海尔、美的、万和三种品牌型号的热水器的消费者的文本评论数据,在对文本进行基本的机器预处理、中文分词、停用词过滤后,通过建立包括栈式自编码深度学习、语义网络与LDA主题模型等多种数据挖掘模型,实现对文本评论数据的倾向性判断以及所隐藏的信息的挖掘并分析,以期望得到有价值的内在内容。 2.分析方法与过程 2.1.总体流程 本论文的分析流程可大致分为以下四步: 第一步:获取分析用的原始数据(文本评论语料),部分数据自行爬取;第二步:对获取的数据进行基本的处理操作,包括数据预处理、中文分词、停用词过滤等操作;第三步:文本评论数据经过处理后,运用多种手段对评论数据进行多方面的分析;第四步:从对应结果的分析中获取文本评论数据中有价值的内容。 2.2.具体步骤 2.2.1数据介绍 本文使用的实验数据为从京东得到的海尔ES50H-Q1(ZE)热水器(50升)、美的F50-15A1热水器(50升)以及万和DSCF50-T4A热水器(50升)的文本评论数据(前两者来自所给数据,可通过 筛选的方式得到,而最后一种则来自我们的自行爬取),即选取三个品牌的热水器,且每个品牌选取一个型号来研究。从总体上来说,京东作为国内最大型的电商平台之一,在该网站购买的顾客比较多,因此相关产品的评论也就会比较多,而且评论质量也较一些其它网站上的要好。 2.2.2文本评论预处理 取到文本后,我们首先要进行文本评论数据的预处理。文本评论数据里面存在大量价值含量很低甚至没有价值含量的条目,如果将这些评论数据也引入进行分词、词频统计乃至情感分析等,则必然会对分析造成很大的影响,得到的结果的质量也必然是存在问题的。那么在利用到这些文本评论数据之前就必须要先进行文本预处理,把大量的这些无价值含量的评论去除。 我们运用Python2.7对这些文本评论数据的预处理主要由三个部分组成:文本去重、机械语料压缩以及短句删除。按照各自处理的特性,我们依照这个顺序进行文本评论数据的预处理。 2.2.2.1文本去重 (1)文本去重的基本解释及原因 文本去重,顾名思义,就是去除文本评论数据中重复的部分。无论获取到什么样的文本评论数据,首先要进行的预处理应当都是文本去重。文本去重的主要原因如下: ①一些电商平台往往为了避免一些客户长时间不进行评论,会设置一道程序,如果用户超过规定的时间仍然没有做出评论,系统会自动替客户做出评论,当然这种评论的结果大多都会是好评,比如国美。但是这类数据显然没有任何分析价值,而且这种评论是大量重复出现的,必须去除。 ②同一个人可能会出现重复的评论,因为同一个人可能会购买多种热水器,然后在进行评论过程中可能为了省事,就在多个热水器中采用同样或相近的评论,这里当然可能不乏有价值的评论,但是即使有价值也只有第一条有作用。 ③由语言的特点我们知道,在大多数情况下,