全国大学生数据挖掘竞赛 优秀作品 作品名称:基于电商平台家电设备的消费者评论数据挖掘分析荣获奖项:一等奖作品单位:南京财经大学作品成员:纪明明李翰林王攀指导教师:李冠艺 基于电商平台热水器的消费者需求及产品数据挖掘分析 摘要:本文对三大电商平台、六大热水器品牌和五大热水器类型的评论数据通过数据清洗、数据集成和融合、数据变换、数据规约等方法进行了预处理;在此基础上,使用情感词典和语义规则进行极性累加,进行评论的情感分析;最后采取了消费者决策的AHP-FCE(层次分析法与模糊综合评判)分析,结合参考百度指数及F-IDF评论词频得出的分层评判及模糊综合评判的数值化求解,最终得出对某一种类热水器品牌差异化评分,并得出及探究了各热水器品牌类型的用户购买原因和差异化卖点,实现数据挖掘后对数据的实际应用。 关键词:数据预处理、情感分析、层次分析、模糊评判 Data mining analysis based on water heaters consumerdemand and product of e-commerce platforms Abstract:This paper uses comments data from top three electriccommercial platforms, top six water heater brands and top fivewater heater types to implement data preprocessing through datacleaning, data integration and fusion, data changing, and dataStatute. This paper uses emotional dictionary and semantic rules toimplement sentiment analysis by the method of Polar cumulative.And then, this paper uses Baidu index and frequency of F-IDFcomments to achieve the numerical solution of layered evaluationand fuzzy synthetic evaluation, reaches the score of a certain typeof water heater brand differences, explores the user purchasedcauses and differences of selling of different water heater brandsand implements practical application of data mining. Key words: Data Preprocessing,Sentiment Analysis,Analytic Hierarchy Process,FuzzySets 目录 一、研究目标 二、分析方法与过程 (一)总体流程(二)具体步骤1.数据获取2.数据处理(三)结果分析1.情感分析2. AHP-FCE分析 三、结论 四、参考文献 一、研究目标 本次数据挖掘通过火车头和八爪鱼两个软件实现,通过对三大电商平台、六大热水器品牌和五大热水器制热类型的热水器进行价格、型号、评论时间、评论数据的挖掘,获取到电商平台数据后,对数据进行处理,剔除造假数据和无意义数据。对处理过后的数据进行分析,运用情感分析方法分析评论数据,发掘用户情感倾向,进一步分析个热水器产品的优势和劣势、差异化买点和用户个性化需求。 二、分析方法与过程 (一)总体流程 数据获取:通过火车头和八爪鱼两个软件实现,通过对三大电商平台、六大热水器品牌和五大热水器制热类型的热水器进行价格、型号、评论时间、评论数据的挖掘。 数据处理:通过简单的对评论数据去重以后,对接下来的数据进行数据清理,以此对含噪、错误、确实、冗余的数据进行处理;在数据集成和融合的基础上,再对数据进行数据变换以此使数据规范化;最后对数据进行数据规约,并以可视化呈现。 数据分析:采用了情感分析和AHP-FCE分析法。情感分析主要通过情感词典和语义规则的方法进行分析,在此基础上进行极性累加;AHP-FCE分析首先对购买的决策层级进行划分,再对AHP进行定性描述,最后对购买决策FCE进行综合评判。 (二)具体步骤 1.数据获取 根据中国网商行情系统数据,截至2014年6月,我国电商平台热水 器销售市场份额情况如下图所示,天猫商城、京东商城和苏宁易购位列电商平台销售市场份额前三,其中天猫商城占整个市场份额的46.7%,京东商城占37.8%,苏宁易购占8.7%,其余6.8%是其他电商平台(国美、易迅等)所占市场份额。 由于销售市场份额前三的电商平台所占市场份额之和已达到所有电商平台销售市场份额的90%以上,所以我们的数据主要从天猫商城、京东商城和苏宁易购采集,并且采集的数据具有足够的代表性。 其次,根据品牌划分,我国电商平台的热水器品牌市场份额中,万家乐、美的、海尔、万和、阿里斯顿和能率六个品牌位列市场份额前六,总计占电商平台市场份额的81.6%,所以在数据采集时,主要采集天猫、京东、苏宁易购三大电商平台中,该六个品牌的热水器的数据。 根据淘宝指数数据,在2014年5月至2015年5月期间,各种类型的热水器的销售市场份额占比如上图所示,电热水器、燃气热水器即热式热水器位列前三,紧随其后的分别是空气能热水器和太阳能热水器,以上五种热水器类型占到了整个市场的94.27%。因此,在采集数据时,我们选择了以上五种类型的热水器进行评论采集,使得采集的数据具有充分的代表性。 2.数据处理 数据处理是数据分析过程中最花费时间、最乏味的,但也是最重要的一步.该步骤处理得当,可以有效地提升数据质量,减轻下一步工作量,并作为数据精准分析的基础.本文数据处理的过程主要分为以下几步: 1)数据粗处理 在充分采集三个电商平台相关数据的基础上,获取了海量而驳杂的数据。出于评论内容真实有效的考虑,在整个数据集中,本文选取了三个无效属性进行并集删除操作(A∪B∪C),分别为: A.评论项为空B.评论不含中文C.不含关键词的评论作为预处理之前的粗处理,京东、天猫和苏宁三个平台的平均去除率 在7.3%左右。 2)数据预处理 a)数据清洗 与资讯,微博不同,商品评论文本的噪声更少,除了粗处理去除的无效数据,主要就在于商家恶意刷的重复评论。在对文本的进一步观察和相应网站的考证基础上,再次发现了大量短时间内不断重复的虚假评论。基于层次分析法的模型,采用凝聚层次聚类的算法,对整个数据集中的五个相关联的属性进行交集删除操作(A∩B∩C∩D∩E),分别为: A.评论时间(不同评论相隔60s以内) 第3页 B.评论内容(100%相似度)C.相同平台D.相同品牌E.相同型号 三家电商平台热水器的清洗结果见表1: b)数据集成和融合 本文的集成合并多家电商平台中采集到的多个热水器品类数据,存放到一个一致的数据存储中。本文的融合仅限于数据层的数据融合,即把数据融合的思想引入到数据预处理的过程中,加入数据的智能化合成,产生比单一信息源更准确、更完全、更可靠的数据进行估计和判断。按照模式集成和对象匹配的原则,通过对数值属性的相关系数Rab(见公式1)的判定检测冗余,按照统一的构造集成融合,进而提升其后挖掘过程的准确度和速度。 其中,n是数据集样本个数,分别是元组i中a和b的值, 分别是a和b的均值; 分别是a和b的标准差。 c)数据变换 本文进行数据变换的目的在于将多维数据压缩成较少维数的数据,消除不同平台各型号热水器数据在时间、空间、属性及精度等特征表现方面的差异。这类方法虽然对原始数据都有一定的损害,但其结果往往具有更大的实用性,主要步骤如下: 数据平滑去噪,使连续数据离散化,增加粒度数据聚集对数据进行汇总;数据概化减少数据复杂度,用excel中的分类汇总使各数据落入指定条目区域属性构造。 d)数据规约 本文用数据规约技术得到数据集的规约表示,主要通过数据立方体聚集、属性子集的分类选择得到更易于处理的文本数据,且不损伤原始数据的完整性。 三、结果分析 1.评论情感分析 已采集的数据中,评论所体现的复杂信息含有很多隐藏价值,本文在此从情感分析的角度对其进行挖掘。与传统较长的文本(新闻、博客、微博等)不同,商品的评论信息文本简短,字数一般在10-30字左右,语句随意,一条评论语句中除了文字信息,还穿插着标点符号商品评论的这些特征对文本的情感分析会产生一定影响,通常一条评论的情感与它所含符号的情感也是相符的。例如~表达的一般是正面的情感。 本文采用基于情感词典和基于语义规则的两种方法,对处理后的评论进行情感分析。 1)基于情感词典的方法 词典资源是基于情感词典方法的前提,本文使用台湾大学ntusd(简体中文2810正面词语+ 8276负面性词语)和HowNet评价词词典(9,193个中文评价词语/短语)作为词库,然而词库有褒贬分类,但是没有标注情感极性强度。本文把褒义词语的情感极性值设为0.7,贬义词语情感极性值设为-0.7,作为评判基准,采用极性累加的算法进行估算。 基于情感词典的方法首先对每条评论进行分词、词性标注等预处理,然后依据情感词典判断每条商品评论中出现的所有情感词以及强度,并采用极性累加的方法来计算每条评论的情感极性,算法如下: 其中:为一条微博中所含的情感词; 为一个情感词的情感极性; 为一条评论的情感极性; 若结果大于零,评论为褒义倾向, 若结果小于零,表明结果为贬义倾向,否则为中性。 2)基于语义规则的方法 考虑到基于情感词典的方法有着明显的缺点:对独立的词语来进行分析的,也就是把词语从句子中孤立出来,忽略词语的前后联系。简单举例,海尔的热水器不好,只提取情感词难以得出正确的结论。孤立地分析情感词,并不能完全正确地反映评论信息的情感倾向,必须将语句的联系考虑 进来,才能够提高分析的准确度。因此,在词语情感计算的基础上,本文同时也着眼于语句中能够改变词语情感倾向或者情感强度的修饰副词等。将会改变词语极性强度的修饰副词分为两类,第一类是否定词,它会改变极性倾向,比如上个例子的“不”就是反义;第二类是程度词,它会改变极性强度,如“比较”、“非常”等。 同时,简短的评论文本有其自身的特征,本文只考虑最高频出现的消息文本中的符号,如“!”、“~”等符号,其他对评论文本的情感极性没有什么影响的,不予以考虑。 3)基于PMI-IR算法与搜索引擎结合进行分类 使用PMI-IR算法,以情感词语为中心,通过搜索引擎返回的结果来计算文本中的情感要索和背景情感词之间的点互信息值,从而对文本进行情感分类,方便下一步情感词汇的整合。 a)情感词汇 情感词是判断电热水器评论文本是否具有情感倾向的一个重要特征。根据人们留言习惯和大量语料分析得知,人们在商品评论中反馈大多是通过情感词的形式实现的,情感词的褒贬也通常代表这句子的褒贬。 通常情况下商品评论文本中都是比较简单的句子,情感词的倾向很多时候决定了商品评论的情感倾向,情感词的数量和情感强度对每条商品评论的情感倾向有较大的影响,因此仍然采用极性累加的方法,即通过情感词极性累加的公式2来计算每条商品评论的情感极性。 b)细分程度副词语态 情感词典分析用词表中提供了程度级别词语,本文以此为基础,参考商品评论评论中高频出现的词汇添加人工整理的程度副词表,把程度副词分为三个级别。第一级的程度词对所修饰的情感词的情感强度大大加强,例如“极”、“最”;第二级的程度词对所修饰的情感词的情感强度是加强作用,如“很”、“非常”。第三级的程度词对所修饰的情感词的情感强度是削弱作用,如“有些”、“