核心观点与关键数据
本文围绕银行客户忠诚度分析展开,通过数据探索、可视化分析和预测建模等方法,探究影响客户忠诚度的因素,并提出相应的策略建议。
任务一:数据探索与清洗
- 对短期客户产品购买数据进行了缺失值和重复值处理,并对字符型数据进行了特征编码。
- 对长期客户资源信息数据进行了异常值处理。
任务二:产品营销数据可视化分析
- 利用Spearman相关系数分析了短期数据中各指标的相关性,发现拜访客户通话时长与产品购买结果呈弱正相关,婚姻状况与年龄呈弱负相关。
- 分析了不同产品购买情况下客户的年龄结构分布,发现31-40岁年龄段客户是主要购买群体。
- 分析了蓝领和学生的产品购买情况,发现学生是主要购买群体。
- 分析了拜访客户通话时长与产品购买结果的关系,发现通话时间越长,购买可能性越高。
任务三:客户流失因素可视化分析
- 分析了两种流失情况下不同年龄客户的占比,发现41-50岁年龄段客户流失最多。
- 分析了两种流失情况下客户信用资格与年龄的分布,发现中高信用值客户偶有流失。
- 分析了两种流失情况下账号户龄的占比,发现短期户龄账户流失率较高。
- 分析了新老客户各资产阶段的流失情况,发现低资产和高资产阶段客户流失较多。
任务四:特征构建
- 构建了新老客户活跃度特征、不同金融资产客户活跃程度特征和不同金融资产信用卡持有状态特征。
任务五:银行客户长期忠诚度预测建模
- 选取了客户信用资格、性别、年龄、个人年收入等8个特征,分别利用XGBoost分类预测和随机森林分类预测两种模型进行预测。
- XGBoost模型在训练集和测试集上的F1值分别为98.4%和86%,随机森林模型在训练集和测试集上的F1值分别为98%和85%。
- 最终选取XGBoost模型完成预测,并使用混淆矩阵、F1 Score、准确率、召回率、精确率等指标对模型进行评估。
研究结论
- 银行应重点关注31-60岁的客户群体,特别是中高信用值且年龄在31-60岁的客户。
- 银行应加强对低资产和高资产客户的联系,维护好客户关系。
- 银行应合理把握推销时间,避免客户产生反感。
- XGBoost模型在预测客户忠诚度方面具有较高的准确性和可靠性。