题目关关关关于航空客户的信息挖掘于航空客户的信息挖掘于航空客户的信息挖掘于航空客户的信息挖掘队长程裕程裕程裕程裕成员蔡少真蔡少真蔡少真蔡少真李伟东李伟东李伟东李伟东学校(院系)华南理工大学华南理工大学华南理工大学华南理工大学((((理学院数学系理学院数学系理学院数学系理学院数学系))))指导教师完成时间2013201320132013----4444----21212121 综合评定成绩: 评委评委评委评委评语评语评语评语: 评委评委评委评委签名签名签名签名:::: 关于关于关于关于航空客户的信息挖掘航空客户的信息挖掘航空客户的信息挖掘航空客户的信息挖掘 摘摘摘摘要要要要::::为了提高航空的上座率,对样本数据进行挖掘进行客户流失预测、客户细分及客户价值评估。基于 logistic 回归分析建立客户流失预测模型,得出每个客户的流失倾向概率。定义一阈值为 0.5,若流失倾向概率大于 0.5,则该客户的预测状态为流失;反之,则非流失。 建立 RFM 模型将客户划分为重要保持客户、重要发展客户、重要挽留客户、忠诚型一般客户、低价值客户五个类别。最后,综合分析客户的类型和流失状态,分析不同客户的特征,得到以下结果: 不同类别客户的指标平均值都不相近,易识别; 单从各个类别客户来讲,各指标情况在流失客户与非流失客户中有一定的差异。 针对不同的客户,可以采取不同的营销活动来提高上座率: 针对重要保持客户,进行客户保持。针对重要发展客户,进行客户发展。针对重要挽留客户,进行流失预警。针对忠诚型一般客户,进行交叉销售。 关键词关键词关键词关键词::::客户流失预测客户细分客户价值评估logistic 回归分析RFM 模型 Data Mining on Aviation Customers Abstract:In order to increase the attendance rates on airlines, mining customer churnprediction was carried out on the sample data, customer segmentation and customer valueevaluation. Based on logistic regression analysis to establish customer churn prediction model,each customer tendency of loss probability are obtained. To define a threshold value 0.5, if theloss probability is greater than 0.5, then we define that customer to be lost; on the other hand,not lost. Establish RFM model to help deviding the customers into 5 classes:importantmaintaining customers, important developing customers, important retaining customers, loyalcustomers,low value customers.At last,considering the types and loss status ofcustomers,synthetically analyse the characteristics of different customers.The results are: different kinds of customers’ indicators are different,easy to identifylost and not lost customers’ indicators are still different According to different customers, different marketing activities can be taken to increasethe attendance ofthe airlines: For important maintaining customers:keep good relationship with these customersFor important developing customers:develope positive relationship with thesecustomersFor important retaining customers:prevent customer churnFor loyal customers:conduct crossed marketing Key words:customer churn predictioncustomer segmentationcustomer valueelauationlogistic regresson analysisRFM model 目录 目录目录目录目录 1.挖掘目标挖掘目标挖掘目标挖掘目标............................................................................................... 6 2.1.1.数据样本.............................................................................................................. 62.1.2. Logistic回归分析.................................................................................................. 72.1.3.结果分析.............................................................................................................. 8 2.2.1.航空公司客户细分参数的确定........................................................................ 122.2.2.航空公司客户细分的具体步骤........................................................................ 122.2.3.结果分析............................................................................................................ 13 4.参考文献参考文献参考文献参考文献..............................................................................................16 1.挖掘挖掘挖掘挖掘目目目目标标标标 市场竞争异常激烈的今天,如何识别有价值的客户是企业营销策略的一个非常重要的环节。我们希望通过从大量的旅客乘机记录中对航空公司的客户进行行为分析,采用数据挖掘技术,达到以下目标: 对客户进行流失倾向评分,预测流失情况;进行客户细分,将客户划分为五类;客户价值评估,挖掘出有价值的客户;综合分析客户流失与客户细分结果,提出有效方案以进行更精确地营销,从而实现提升航空客运的上座率目标。 2.分析方法与过程分析方法与过程分析方法与过程分析方法与过程 2.1.客户流失模型客户流失模型客户流失模型客户流失模型 客户流失是指客户因某种原因而离开为其服务公司的一种常见行为。由于各种因素的不确定性和市场不断的增长以及一些竞争对手的存在,很多客户不断地从一个公司转向另一个公司,其目的是为了求得更低的价格和更好的服务。一般来说,流失客户可分为自愿流失和非自愿流失,而航空公司的流失客户基本上是属于自愿流失的。 客户流失预测主要是对客户现所处状态的一种预测,通过模型计算出客户流失倾向概率,给定一阈值与概率进行比较。当流失倾向概率大于阈值时,则将该客户预测为流失;若流失倾向概率小于或等于阈值时,则预测结果为非流失。 在本题中,我们定义流失客户为:最后一次乘机时间至观察窗口末端时长>=观察窗口内最大乘机间隔。并以1标记流失客户,0标记为非流失客户。总共可得到非流失客户数为38519,流失客户为24468。 2.1.1.数据样本数据样本数据样本数据样本 同时尽可能收集能影响客户流失的各种因素,包括:入会时间,第一次飞行时间、性别、会员卡级别、年龄、飞行次数、基本积分、总加权飞行公里数、平均乘机时间间隔、其他积分、非乘机的积分变动次数等等。 为了能更好的分析数据随季度的变化情况,我们引入了趋势值和变动值: 第6页,共16页 趋势值:表示8个季度内属性增大或减小的速度与方向,以一元线性回归的斜率表示。斜率大于0,表示增大,斜率越大,增加速度越大;斜率小于0,表示减小,且斜率越小,减小的速度越大。 波动值:表示8个季度内属性的变化幅度,以样本的方差表示。方差越大,表示数据变化幅度越大越不稳定;方差越小,表示数据变化幅度越小越稳定。 对于数据缺失的情况,SPSS中带有处理缺失值的方法: ○1剔除法 当缺失值非常少的时候,可对缺失的数据进行删除或报告。 ○2替代法 SPSS中可以选择以变量均值、临近点的均值、临近点的中位值、线性内插发或线性趋势法来替换缺失的数据。 2.1.2.Logistic回归分析回归分析回归分析回归分析 客户流失状态只有两种情况,即流失与非流失,这两种状态分别用1和0表示。因此我们可以采用多因素非条件logistic回归模型为基本依据,通过logistic回归建立客户流失概率预测模型进行评价,从而得出每个客户的流失倾向概率。 设客户的流失情况为 表示流失,表示非流失,,,则有 即为时的概率值。 由于概率P的取值范围是在[0,1]区间,需先对概率P做Logit变换,具体如下:第一步,将P转换成,即 称为发生比,是事件发生的概率与不发生的概率的比值。 第二步,将转换成ln,即 称为Logit P,经过变化后的与Logit P之间的增长性是一致的。 第7页,共16页 经过Logit变化后,则可建立自变量和因变量之间的关系模型,即逻辑回归模型: 即 于是有 从而有 即为逻辑回归函数,是典型的增长函数,能很好体现概率P和自变量间的非线性关系。 得到每个客户的流失倾向概率后,给定阈值0.5,当流失倾向概率大于0.5,则预测结果为流失;若流失倾向概率小于0.5,则预测结果为非流失。 2.1.3.结果分析结果分析结果分析结果分析 借助SPSS软件对数据进行logistic回归分析,筛选出对模型影响较大的指标,经过多次筛选结果显示观测窗口季度平均飞行次数X1、积分兑换次数X2、非乘机的积分变动次数X3、平均乘机时间间隔X4、飞行次数波动值X5、飞行次数趋势值X6、年龄X7对回归模型较为显著影响。 Logistic回归分析结果为: 表一Logistic回归分析模型系数综合检验 表二Logistic 回归分析模型汇总 模型汇总模型汇总模型汇总模型汇总 表三Logistic 回归分析分类表 表四Logistic回归分析方差中的变量 结果显示,模型的卡方值较大,Sig=