您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [TIPDM]:第三届挑战赛A5-基于电商平台家电设备的消费者需求及产品数据挖掘分析 - 发现报告

第三届挑战赛A5-基于电商平台家电设备的消费者需求及产品数据挖掘分析

2015-11-23 TIPDM 董亚琴
报告封面

全国大学生数据挖掘竞赛 优秀作品 作品名称:基于电商平台家电设备的消费者评论数据挖掘分析荣获奖项:二等奖作品单位:暨南大学作品成员:邓伟雄童雪玉黄国南指导教师:张元标 基于电商平台家电设备的消费者需求及产品数据挖掘 摘要 本文通过对电商评论数据的处理和分析,构建了垃圾评论识别模型、基于RAE词向量自编码的SVM文本情感极性分析模型和产品优劣势分析模型进行文本挖掘,最后基于对淘宝指数和百度指数的提取与分析,构建了用户购买行为的挖掘模型。 针对垃圾评论的识别问题,将垃圾评论归为无关信息、水军评论和系统默认好评三种,并从根据不同的分类特征制定规则予以剔除。 针对评论情感分析,尝试使用半监督的深层学习RAE模型,采用word2vec工具对8万多条评论进行训练得到词向量,再对评论进行情感极性分类,然后从情感的积极方提炼出产品的优势,从情感的消极方提取产品的劣势,但由于其对于不同软件的接口封装较难转移,参数繁多且较难设定和偏置函数无法获得等原因,进而改用基于RAE的递归自编码模型的有监督的SVM模型,进行情感极性识别,通过手工标示400条评论的情感极性,进而训练SVM模型,使其对剩下的评论进行情感极性分类,结果显示情感分类的正确率达85%。 针对产品优劣势分析,由于消极情感只占总评价数的0.28%,样本过小,因此从消极的情感方提取产品劣势并不可行,转而使用用户关注度分析的方法对产品属性下的用户满意度进行统计分析,通过词频统计提炼出产品的优劣势所在。 针对用户购买行为的挖掘,先确定一组搜索关键字,然后爬取对应关键字下的日搜索量,搜索人群年龄性别及消费能力等分布,进行确定产品的主要消费人群及其消费关注点 关键词: 词向量递归自编码SVM模型情感极性分析 The data mining based on the electric business platform about consumers’ demands and products characters Abstract: To deeply mine the comments of ecomercial products, this paper aims to build the modelof invalid comments recognition, the SVM text emotional polarity analysis model based onRAE auto coding and then distinguishes the advantages and disadvantages via texts analysis.At last, it grabs and analyzes the Taobao index and Baidu index, building the purchasebehavior mining model. In theinvalid comments recognition model,it first labels three kinds of invalidinformation,like irrelevant comments,posters comments and system comments.Thenseparate these information by their own characters.As for the emotional polarity analysis, this paper tried the semi-supervised deep learning RAE model at first, using toolbox word2vec to initial eighty thousands term vectors separatedfrom our comment list. Then classified the comments based on these vectors with RAE,obtaining the advantages from the positive comments and the disadvantages from the negative.However, given the difficulty to transfer packages among different softwares, the numericunknown parameters and offset function, it tries another supervised approaches SVM modelbased on RAE auto coding. By handmade labeling four hundreds comments with emotionalpolarity to train the SVM, then use the well- trained models to classify the rest comments,showing that it has an 85% accuracy.In the advantages and disadvantages analysis model, the negative comments just account for 0.28%, a small scale, making the plan to obtain negative information infeasible. Hence it’sto be transferred into the approaches to analyze the customers’ attention to the properties ofthe product, count the satisfaction degree under each property. Then get the advantages anddisadvantages via word frequency statistics.In the customers’ behavior mining part, it’s to set a group of keywords, used to get the search clicks under each terms. And then mining the age and consumption level to get themain consumer groups and their focus points. Key words: Term vectorsRecursive since the coding SVM model Emotional polarity analysis 目录 摘要.....................................................................11.挖掘目标...........................................................12.分析方法与过程.........................................................12.1总体流程....................................................12.2具体步骤....................................................22.3结果分析....................................................83.结论..................................................................144.参考文献...............................................................14 1.挖掘目标 本次建模目标是利用在各大电商平台抓取下来的真实评论数据,首先进行水军和随意发表的评论的识别与剔除,再采用数据挖掘技术,构建基于RAE自编码的SVM模型,进行有监督的分析,即先手工进行部分评论的情感极性标识作为训练语料,得到用户评论中所包含的情感极性。从而可以在情感极性为正的句子中提取产品优势和用户购买的原因,在情感极性为负的句子中提取产品劣势和个性化需求。从各大电商网站中重新爬取商家推荐的产品优势,再与我们从评论中提取出从各类产品优势中提炼不同产品的差异化卖点。最后,根据百度指数和淘宝指数对关键词热水器和净水机进行查找,能够找到热水器和净水机的消费人群,人群购买的关注点及搜索的关键字。 2.分析方法与过程 2.1总体流程 本部分使用一个总体流程图描述建模方法及过程,并对各部分进行简要说明。 流程图见图1. 本用例主要包括如下步骤: 步骤一:使用火车浏览器爬取相关数据,获得初始数据。 步骤二:对评论的可信度进行分析可得评论中包含三类垃圾评论,制定规则分别对三类垃圾评论进行处理。 步骤三:使用R语言对热水器和净水机的评论进行切词,将整个句子切成独立的词块。 步骤四:使用word2vec将已经切碎的词转化成词向量。 步骤五:构建SVM模型,同时进行手工标记样本的情感极性及产品属性。将手工标记的评论数据用于三方面:模型的训练、模型的准确度检测及模型的调整。 步骤六:对模型进行优化重构后输入词向量重新组建的句向量,利用经过训练的SVM模型的处理输出情感极性。 步骤七:通过对步骤六的计算可得非好评在用户评论中的比重很小,因此可以通过人工统计的方法找寻产品的优劣势。 步骤八:使用SVM模型统计评论中用户对产品性能的认可,进而可以找寻各品牌间产品的差异,构建四分图可以得到产品的优势点。 步骤九:对百度指数和淘宝指数进行分析,得到产品的目标消费人群、用户购买的关注点及用户购买的关注点及主要消费人群。 2.2具体步骤 2.2.1使用火车浏览器对题目所涉及的各品牌产品进行评论的爬取。 2.2.2对垃圾评论进行处理: 垃圾评论的定义:垃圾评论是指那些为了促销某种商品而给出的一些不实际不相符的积极评论,或是为了诋毁某种品牌而给出的一些虚假的负面评论,试图故意误导阅读的人或自动的数据挖掘和情感分析系统的:“不合法”的活动。【1】垃圾评论的分类:对数据进行预处理,根据垃圾评论的识别,将垃圾评论分为以下几种:a.无意义信息,即用户发布的单纯宣泄自己感情的语句,内容空洞,并没有对产品的特征进行分析和评价。b.系统评论,即系统自身默认给出的评论。 c.评论内容过短,即用户并不是出于对产品进行认真评价的目的进行评价,而是为了网站的积分赠送或者商家的优惠进行的敷衍的评价。 在使用编程的过程中设立了几个规则进行作为删除垃圾评论的依据: a.由从各大电商网站抓取的评论可得如果用户未作出评论,系统会说默认好评,据此制定规则1,如果评论中含系统默认好评的,则删除该评论。 b.由于认定评论内容过短无法包含实质信息,因此删除字符串个数小于6的评论,据此制定股则2,如果评论中含字符串个数小于6的,则删除该评论。 c.再次对抓取的评论进行分析发现,无意义信息中还包含只有字母或字母个数较多的以及符号或数字过多的评论,因此设定规则3,如果一条评论中字母的总数/这条评论的长度大于1/2,或者一条评论中数字的总数/这条评论的长度大于1/2,则认为该条评论是垃圾评论,删除该评论。 d.由于存在网络延时或者用户重复评论等原因出现的重复评论也是垃圾评论,则据此 制定规则,在上下两行数据中若连续两行数据都相等,则删除其中一行数据。 e.数