全国大学生数据挖掘竞赛 优秀作品 作品名称:基于电商平台家电设备的消费者评论数据挖掘分析荣获奖项:二等奖作品单位:闽江学院作品成员:林贵纯黄碧航指导老师: 基于电商平台电热水器的消费者需求及产品数据挖掘分析 摘要:近年来电子商务发展迅速,本文主要研究了基于电商平台电热水器的消费者需求及产品数据挖掘。首先,基于网上顾客产品评价的文本数据进行产品评价分析;其次,通过方差分析建立非饱和模型,实现对电热水器交易量的预测以及寻找各个变量之间的重要程度;再次,基于计算机本研究是以消费者为中心,从消费者纷繁复杂的情感需求出发分离出个性化需求并加以研究。同时把情感设计的方法论引入产品的个性化设计中,使产品的个性化设计深入消费者情感世界,更好的满足消费者的个性化需求;最后,建立消费者的电商平台购买行为模型。本文主要从两个方面着手研究,一方面是消费者的情感需求及情感化设计方法;另一方面是对情感需求中的个性化需求的剖析。切词技术和模糊综合评价法,本方法可对产品进行持续性评价,从而了解产品评价的动态变化,达到分析挖掘消费者购买行为的目的。最后,把研究结果应用于产品的不断完善。 关键词:数据挖掘SPSS模糊综合评价法情感分析个性化需求购买行为 Based on the electric business platform of electric waterheater consumer demand and product analysis of datamining Abstract:E-commerce has developed rapidly in recent years, this papermainly studied the electric business platform based on consumer demand andproduct data mining electric water heater. First of all, based on the evaluation oftext data online customers products evaluation analysis; Secondly,through theanalysis of variance model of unsaturated, realize the electric water heatervolume forecast and looking for between each variable importance ; Again, thestudy is based on computer consumers as the center, starting from the emotionalneeds of consumers complicated isolated individual needs and research. At thesametime,introduce the design methodology of the emotional productspersonalized design, make the products personalized design into their emotionalworld, better meet the personalized needs of consumers; In the end, consumersof electric business platform purchase behavior model is set up. This articlemainly from twoaspects, on the one hand is the emotional needs of theconsumers and the emotional design method; On the other hand is to theemotionalneeds of the individualized demand analysis.Cutting wordtechnologyand fuzzy comprehensive evaluation method,this method canevaluate sustainability of product, to understand the dynamic change of productevaluation, to achieve the purpose of consumers' purchasing behavior analysis ofmining. Finally, apply the results to continuously improve products. Key words:data mining ;SPSS; method of fuzzy comprehensive evaluation;sentiment analysis;personalized demand;purchasing behavior 目录 1.研究目标...............................................................................................1 2.分析方法与过程....................................................................................1 2.1.总体流程.....................................................................................................................22.2.具体步骤.....................................................................................................................32.3.结果分析...................................................................................................................22 3.结论.....................................................................................................28 参考文献.............................................................................................29 1.研究目标 本次建模目标是利用电商平台上留下的五大电商出售的多种品牌的电热器的评论数据,基于网上顾客产品评价的文本数据进行产品评价分析,而不是以问卷、深度访谈或焦点小组讨论,较好的削弱了顾客由于记忆偏差产生的调研误差采用数据挖掘技术,分析各类评论数据直接的相互关系、发现事件之间的内部关联,深入了解消费者在电商平台上购买净水器时的偏好、影响消费者购买电热水器产品的因素以及消费者们对已购买净水器的使用情况和满意程度,基于模糊综合评价法及情感分析,对产品评价进行文本分析,了解产品评价的动态变化,从而达到消费者购买行为分析挖掘的目的。 2.分析方法与过程 为了让建模更加清晰,结合评论的特点,我们建模的主要步骤如下: 步骤一:基于电商平台净水器设备的消费者的评价对文本进行分析;步奏二:提取数据,利用SPSS对数据进行预处理,方差分析,均值检验等;步骤三:基于效用最大化原则,对用户的个性化需求进行分析,建立网络消费者购买决策的指标休系;步骤四:基于消费者对不同品牌的电热水器的购买行为不同建立数学模型。 2.1.总体流程 2.2.具体步骤 2.2.1评论文本数据分析 2.2.1.1产品评价体系 在引出本文的研究模型之前,先给出基于网上用户评论文本数据的评价体系,见表2.2.1(b)。在该体系中,评价体系从产品和品牌两个大类进行测量:产品又细分为如下一级构念:产品质量(产品形式)、产品功能(产品属性)、感知价值和产品服务;品牌则细分为如下一级构念:态度、个性和形象。在每个一级构念下面又进一步进行了细化,发展出二级构念(如品质、特征、外观则为产品质量的二级构念);为了更好的与产品评论相对应,本文在二级构念下面演化出一级维度(如原料、工艺和耐用度就是品质的一级维度)。文本数据中对产品各个维度的描述将会按照模糊归类法,先将文本数据进行预料切分,划出特征词和评分词(多为情感词汇),再用中文配对方式进行模糊归类,将相似特征值归入一级维度下,然后根据各维度出现的频次赋予权重,并依此方法类推出一级构念和二级构念的权重。具体举例如下: 2.2.1.2文本数据分析流程 整个文本数据研究分析主要分如下几个步骤: (1)用数据爬虫从中文零售网站上面抓取产品信息。(2)文本预处理,对文本数据进行去重和过滤掉那些没有实际意义的评论和词。(3)分词,产品的属性或特征一般是名词或者名词短语,在评论数据中, 大部分都是一些复杂的长短句,分词是将连续的字序列按照一定的规范重新组合,具体方法可参照中科院发布的分词系统ICTCLAS。 (4)抽取产品特征词和评分词,找出所有文本评论中的高频名词和名词短语(特征);并将评分词量化,赋予打分。 (5)用相似性匹配法,将上面找出的名词和名词短语归类入评价体系中,并用递推的方法统计各层级的的权重。(6)根据模糊综合评价法,得出每个特征层面的评分高低、出现次数和权重,计算出一级维度的评分高低和总出现次数,再由一级维度的信息推算出二级构念,由二级构念的相关信息推算出一级构念,最后得出总体的评价结果。 2.2.1.3权重计算模型 (1)单个特征的平均分计算: 假设某种产品所有对特征i的打分的所有用户(假设有n个用户)的分数为xi1,xi2,…,xin,则特征i的平均分iX为: (2)单个一级级维度的平均分计算: 假设某个一级维度k下(假设有m个特征)所有特征的平均分分别为Xk1,Xk2,…,Xkm,并且m个特征的所提及的次数为分别为pk1,pk2,…,pkm,则一级维度k的平均分kY为: (3)单个二级构念的平均分计算: 假设某个二级构念r下(假设有g个一级维度)所有一级维度的平均分分别为Yr1,Yr2,…,Yrg,并且g个一级维度的次数分别为qr1,qr2,…,qrg,则二级构念r的平均分rZ为: 其中qrk=pk1+pk2+pkm,在这里k是指一级维度k。如果特征与二级构念之间没有一级维度的分类,那么二级构念平均分的计算通过公式(2)来计算。 (4)单个一级构念的平均分计算: 假设某个一级构念s下(假设有t个二级构念)所有二级构念的平均分分别为Zs1,Zs2,…,Zst,并且t个二级构念的次数分别为hs1,hs2,…,hst,则一级构念s的平均分sC为: 2.2.1.4数据分析 本文中的数据分析,是为了验证基于切词技术和模糊归类法的文本数据分析,在笔者归纳出的产品评价体系中的可行性。进行探索的文本数据主要来自于国美、京东、苏宁、淘宝和易迅五大电商上各种品牌的电热水器的购买后评论,品牌包括万家乐、帅康、美的、康宝、海尔、AO、格兰仕、万和、WONDERFLOW、华帝。本文中所有切词和特征归类,均在查阅广泛文献及参照相应营销字典库的前提下,由人工进行。 (1)数据清理 在文本给出的售后评论后,先根据评论内容长短和对产品描述的深入度,淘汰