问题一:基于嵌入法的特征选择
- 目标: 确定各行业与财务数据造假相关的数据指标,并分析比较不同行业上市公司相关数据指标的异同。
- 方法: 采用基于惩罚项(LASSO回归、逻辑回归、SVM)和基于树模型(随机森林、GBDT、XGBoost、LightGBM)两种不同的嵌入法进行特征选择。
- 结果:
- 通过分析各算法排名前30个指标,挑选出在所有算法中出现次数大于或等于3次的指标作为与财务数据造假相关的数据指标。
- 以制造业和房地产业为例,对挑选出来的指标进行共性分析和差异性分析,发现不同行业挑选的特征基本上能看出该行业的资金使用特点。
问题二:基于Stacking模型的造假公司筛选
- 目标: 根据附件2中制造业各上市公司的财务数据,确定出第6年财务数据造假的上市公司。
- 方法:
- 通过SMOTE采样解决不同行业的数据不平衡问题。
- 利用F1-score和AUC指标,并基于k折交叉验证和网格搜索给问题一中效果较好的LR、RF、GBDT、XGBoost、LightGBM模型进行超参数调优。
- 基于Stacking集成学习理论,将模型融合成一个集成分类预测模型,第1层基学习器选择RF、GBDT、XGBoost、LightGBM模型,第2层元学习器选择了LR模型。
- 结果:
- Stacking集成模型在测试集上的F1-score得分为0.96,AUC为0.79,高于所有的基学习器,不存在过拟合现象并且预测效果良好。
- 求出第6年制造业的预测结果为有20家上市公司发生财务数据造假。
问题三:寻找发生造假的公司
- 目标: 根据附件2中其他(除制造业外)各行业上市公司的财务数据,确定出第6年财务数据造假的上市公司。
- 方法:
- 采用问题二的方法对其他行业进行预测。
- 对没有发生造假情况的租赁和商务服务业使用OneClass SVM进行异常点检测。
- 结果:
- 所有行业(除制造业)在第6年共有27家上市公司发生财务造假。
- 试图寻找一个能包含全行业的集成学习机器分类模型,但在超参数调优的过程中,发现由于LR模型的局限性,限制了集成学习机器模型的能力,暂时不能得到此机器模型。