第九届挑战赛A2-基于机器学习模型预测财务造假的上市公司

2021-07-28 数睿思李艺华🌸

随着中国证券市场的快速发展，上市公司数量不断增加，财务数据造假问题日益突出。为降低投资风险，保障投资人资金安全，本研究旨在通过数据挖掘技术，识别可能存在财务造假的上市公司。

研究对原始数据集进行了预处理，包括数据拼接、无关特征剔除、缺失值处理、异常值处理和标准化等步骤。缺失值处理根据缺失比例采用删除、均值填充和随机森林填充等方法；异常值处理采用箱型图法进行识别和处理；标准化采用z-score方法将数据转换为均值为0，标准差为1的分布。

研究介绍了7种机器学习算法：逻辑回归（LR）、支持向量机（SVM）、随机森林（RF）、多层感知器（MLP）、XGBoost、GBDT和AdaBoost，并简述了其原理和特点。

研究采用F1分数和AUC值作为模型评价指标，F1分数综合考虑了模型的查准率和召回率，AUC值则反映了模型的分类能力。

研究针对数据集样本类别比例不均衡的问题，采用了不处理、朴素随机欠采样、朴素随机过采样和ADASYN过采样等方法。其中，11个行业由于造假公司数量过少，未进行平衡处理；其余行业根据AUC值比较结果选择最优的平衡方法。

研究采用权重法、过滤法、包裹法和嵌入法等方法进行特征选择，并结合经济学意义最终确定了19个特征因子。通过构建相似度公式并制作热图，分析了不同行业财务造假相关指标的异同。

研究采用网络搜索方法对7种模型的超参数进行调优，以AUC值作为评价指标。通过设置参数范围和进行交叉验证，最终确定了各行业最优模型的参数组合。

研究使用7种模型对第6年的样本特征集进行预测，其中8种行业采用最优模型，其余3种行业采用SVM权重法进行预测。预测结果显示，制造业财务造假公司数量为47家，造假比例约为1.77%。

本研究采用机器学习模型预测上市公司财务造假情况，具有一定的准确性和现实意义。通过数据不平衡处理、特征选择和模型调优等步骤，有效提高了模型的预测性能。研究结果可为投资者提供参考，降低投资风险。

点击免费查看完整报告

你可能感兴趣