行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

第九届挑战赛A1-基于数据挖掘的上市公司财务数据分析

2021-07-28 数睿思周振

问题一：基于嵌入法的特征选择

目标：确定各行业与财务数据造假相关的数据指标，并分析比较不同行业上市公司相关数据指标的异同。
方法：采用基于惩罚项（LASSO回归、逻辑回归、SVM）和基于树模型（随机森林、GBDT、XGBoost、LightGBM）两种不同的嵌入法进行特征选择。
结果：
- 通过分析各算法排名前30个指标，挑选出在所有算法中出现次数大于或等于3次的指标作为与财务数据造假相关的数据指标。
- 以制造业和房地产业为例，对挑选出来的指标进行共性分析和差异性分析，发现不同行业挑选的特征基本上能看出该行业的资金使用特点。

问题二：基于Stacking模型的造假公司筛选

目标：根据附件2中制造业各上市公司的财务数据，确定出第6年财务数据造假的上市公司。
方法：
- 通过SMOTE采样解决不同行业的数据不平衡问题。
- 利用F1-score和AUC指标，并基于k折交叉验证和网格搜索给问题一中效果较好的LR、RF、GBDT、XGBoost、LightGBM模型进行超参数调优。
- 基于Stacking集成学习理论，将模型融合成一个集成分类预测模型，第1层基学习器选择RF、GBDT、XGBoost、LightGBM模型，第2层元学习器选择了LR模型。
结果：
- Stacking集成模型在测试集上的F1-score得分为0.96，AUC为0.79，高于所有的基学习器，不存在过拟合现象并且预测效果良好。
- 求出第6年制造业的预测结果为有20家上市公司发生财务数据造假。

问题三：寻找发生造假的公司

目标：根据附件2中其他（除制造业外）各行业上市公司的财务数据，确定出第6年财务数据造假的上市公司。
方法：
- 采用问题二的方法对其他行业进行预测。
- 对没有发生造假情况的租赁和商务服务业使用OneClass SVM进行异常点检测。
结果：
- 所有行业（除制造业）在第6年共有27家上市公司发生财务造假。
- 试图寻找一个能包含全行业的集成学习机器分类模型，但在超参数调优的过程中，发现由于LR模型的局限性，限制了集成学习机器模型的能力，暂时不能得到此机器模型。

报告封面

点击免费查看完整报告

你可能感兴趣

第六届挑战赛A1-基于非侵入式负荷检测与分解的电力数据挖掘

数睿思2018-11-15

第三届挑战赛A1-基于电商平台家电设备的消费者需求及产品数据挖掘分析

TIPDM2015-11-23

第二挑战赛届A1-基于图像处理和数据挖掘技术的车辆压双黄线检测

数睿思2014-08-27

第九届挑战赛C2-基于文本挖掘的旅游目的地印象分析

数睿思2021-07-28

第九届挑战赛C3-基于LDA主题模型和LightGBM分类模型的在线旅游评论挖掘及分析

数睿思2021-07-28

第四届挑战赛A1-基于深度学习和语言模型的印刷文字 OCR 系统

数睿思2016-10-18

第五届挑战赛A1-基于市场资金流向分析的Suibian期货策略

数睿思2017-06-21

第九届挑战赛C1-基于细粒度情感分析与迁移学习的游客目的地印象分析

数睿思2021-07-28

第九届挑战赛A2-基于机器学习模型预测财务造假的上市公司

数睿思2021-07-28

第十届挑战赛A1-基于深度学习的农田害虫定位与识别研究

数睿思2022-06-27