研究背景与问题
随着中国证券市场的快速发展,上市公司数量不断增加,财务数据造假问题日益突出。为降低投资风险,保障投资人资金安全,本研究旨在通过数据挖掘技术,识别可能存在财务造假的上市公司。
数据预处理
研究对原始数据集进行了预处理,包括数据拼接、无关特征剔除、缺失值处理、异常值处理和标准化等步骤。缺失值处理根据缺失比例采用删除、均值填充和随机森林填充等方法;异常值处理采用箱型图法进行识别和处理;标准化采用z-score方法将数据转换为均值为0,标准差为1的分布。
机器学习算法介绍
研究介绍了7种机器学习算法:逻辑回归(LR)、支持向量机(SVM)、随机森林(RF)、多层感知器(MLP)、XGBoost、GBDT和AdaBoost,并简述了其原理和特点。
模型评价
研究采用F1分数和AUC值作为模型评价指标,F1分数综合考虑了模型的查准率和召回率,AUC值则反映了模型的分类能力。
数据不平衡处理
研究针对数据集样本类别比例不均衡的问题,采用了不处理、朴素随机欠采样、朴素随机过采样和ADASYN过采样等方法。其中,11个行业由于造假公司数量过少,未进行平衡处理;其余行业根据AUC值比较结果选择最优的平衡方法。
特征选择
研究采用权重法、过滤法、包裹法和嵌入法等方法进行特征选择,并结合经济学意义最终确定了19个特征因子。通过构建相似度公式并制作热图,分析了不同行业财务造假相关指标的异同。
超参数调整
研究采用网络搜索方法对7种模型的超参数进行调优,以AUC值作为评价指标。通过设置参数范围和进行交叉验证,最终确定了各行业最优模型的参数组合。
模型预测
研究使用7种模型对第6年的样本特征集进行预测,其中8种行业采用最优模型,其余3种行业采用SVM权重法进行预测。预测结果显示,制造业财务造假公司数量为47家,造假比例约为1.77%。
研究结论
本研究采用机器学习模型预测上市公司财务造假情况,具有一定的准确性和现实意义。通过数据不平衡处理、特征选择和模型调优等步骤,有效提高了模型的预测性能。研究结果可为投资者提供参考,降低投资风险。