AI智能总结
策略研究·策略专题 证券分析师:王开021-60933132wangkai8@guosen.com.cnS0980521030001 证券分析师:陈凯畅021-60375429chengkaichang@guosen.com.cnS0980523090002 ➢财务造假样本分析:从CSMAR数据库“财务违规表”筛选2010-2021年样本,通讯服务行业造假占比最高,金融和公用事业最低。2010-2018年造假公司数量及占比上升,2019年后下降,且约58.3%的造假行为在1-2年内暴露或终止。信息披露违规成为主流,虚构利润和虚列资产减少。 ➢特征池构建:基于上市公司定期财务报告,从8个维度构建378个比率型指标,经筛选处理后保留100个指标,形成特征池,包含5483个财务造假样本和42046个控制样本。 ➢情感语调因子构建:利用DeepSeek R1模型分析财报文本情感语调,设计相关函数和处理流程,获取情感语调分数。财务造假公司情感语调分数整体低于正常公司,可捕捉情绪矛盾、模糊表述和行业异常等风险线索。 ➢模型表现:分别构建Logistic、LightGBM和MLP模型,加入情感语调因子后,三个模型召回率均提升,第二类错误下降。情感语调因子在非线性模型(MLP、LightGBM)中重要性高,与传统财务指标协同,提升综合预警能力。 ➢拓展路径:基于Zero-Shot的财报文本直接分析模式,利用大模型通用语义理解能力挖掘潜在造假信号;基于违规说明的Fine-Tuning模式,对基座LLMs进行微调构建专家模型,通过精准匹配率和人工盲测评估。 ➢风险提示:模型过拟合风险,DeepSeek的训练依赖于投喂的框架语料与底稿数据,多维框架下存在未来函数和过拟合风险;数据口径调整风险,财务指标统计口径的调整可能带来AI配置结论的改变;AI推理的不稳健性,AI模型的输出结论具备一定随机性,多次生成可能产生不同的结果。 目录目录 财务造假上市公司样本整理01 02 情感语调因子在财务造假识别模型中的表现04 AI挖掘财报文本信息的拓展路径05 造假的违规类型造假的违规类型 ➢认定财务造假需满足三个要件:主观故意性、财务数据操纵性、误导利益相关者目的性。在15个违规类型中,通常认为虚构利润、虚列资产、虚假记载、重大遗漏、披露不实、欺诈上市、一般会计处理不当为财务造假类违规。 样本初步处理样本初步处理 ➢在财务造假样本筛选中,本文的数据来源于CSMAR数据库的“财务违规表”。本文选择2010年1月1日之后的样本进行分析。同时,由于财务造假的处罚公布具有滞后性,因此决定暂时不研究最近2年,即2023年12月31日之后的所有样本。 财务造假上市公司的行业、造假类型、年份分布财务造假上市公司的行业、造假类型、年份分布 ➢通讯服务行业财务造假公司占比最高(19.4%),金融和公用事业领域造假比例最低(均低于8.5%),显示出行业监管强度、业务复杂性与财务舞弊风险负相关关系。 ➢财务造假持续时间与公司数量呈显著负相关,约58.3%的造假行为集中在1-2年内暴露或终止,表明系统性舞弊难以长期维持,且监管纠偏机制在中期(3-5年)逐渐显效。 ➢2010-2018年财务造假公司数量及占比持续攀升(从7.5%增至17.9%),2019年后呈下降趋势(2023年财务造假率反常骤降则主要由于财务造假行为暴露的滞后性),反映证券法修订后监管趋严,财务造假行为得到显著遏制。 资料来源:万得,CSMAR,国信证券经济研究所整理注:横轴为持续年数,纵轴为上市公司数 资料来源:万得,CSMAR,国信证券经济研究所整理 财务造假上市公司的行业、造假类型、年份分布财务造假上市公司的行业、造假类型、年份分布 从行业动态与违规模式演变来看,财务造假呈现显著的结构性特征: ➢行业风险周期分化:2010-2018年间,通讯服务、能源与金融行业成为违规重灾区,其中通讯服务行业违规率从2010年的8.7%激增至2018年的32.7%,金融业在2015年因资产端扩张与监管套利导致违规率达25.6%的历史峰值。这一趋势与行业特性密切相关——通讯服务行业技术迭代快、资本开支密集,管理层倾向于通过模糊技术商业化进展(重大遗漏)掩盖现金流压力;能源行业则受大宗商品价格波动驱动,常通过虚增储量或成本资本化调节利润。2019年后随着新《证券法》实施及穿透式监管推进,全行业违规率普遍下行,但房地产行业在2022年仍维持15.5%的高违规率,凸显行业流动性危机下企业通过虚增预售收入、隐匿表外负债等复合手段粉饰报表的顽疾。 ➢违规手段迭代升级:信息披露违规(重大遗漏57.8%、虚假记载54.9%)取代传统利润操纵成为主流,其技术隐蔽性体现在两方面,一是通过选择性披露行业利好政策、弱化技术研发失败风险、构建片面叙事误导投资者;二是借助复杂术语包装关联交易、利用模糊表述规避业绩承诺。相较而言,虚构利润和虚列资产因审计程序中对银行流水、存货监盘的强化而大幅萎缩。 目录目录 财务造假上市公司样本整理01 基于结构化数据构建财务造假识别模型特征池 02 DeepSeek辅助构建基于财报文本的情感语调因子 04 AI挖掘财报文本信息的拓展路径05 特征池构建特征池构建————基于结构化财报数据基于结构化财报数据 ➢数据来源与筛选依据:聚焦上市公司定期财务报告信息,提取标准化财务报表数值信息(资产负债表、利润表、现金流量表等)。采用年度报告作为核心数据来源,主要因其具备完整性,涵盖法定披露的全部财务与非财务信息。具体数据来源于CSMAR数据库的“财务指标分析表”。 ➢特征构建原则:基于跨公司&跨行业可比性考虑,1)采用比率型指标:将绝对值转化为相对值(如资产负债率、销售净利率);2)归一化&标准化:对不同行业内的样本指标通过Max-Min方法将指标值限定在[0,1]区间,且进行Z-score标准化处理;3)行业属性处理:保万得一级行业分类作为控制变量,采用独热编码处理行业属性。4)多维度覆盖原则:从8个维度构建财务指标体系,分别为偿债能力、经营能力、盈利能力、发展能力、比率结构、风险水平、现金流分析、每股指标。 ➢特征池优化机制:1)充足性筛选:剔除缺失值超过50%的指标;2)显著性检验:保留p值小于0.1的因子。3)离群值处理:采用IQR方法,离群值用上下限代替。 ➢原有8个维度,总计378个指标,对于指标数据缺失超过50%的样本直接进行删除,同时对所有指标进行显著性检验,筛选出p值小于0.1的指标。最终保留指标100个,财务造假样本5483个,控制样本42046个。 目录目录 财务造假上市公司样本整理01基于结构化数据构建财务造假识别模型特征池02AI挖掘财报文本信息的拓展路径05情感语调因子在财务造假识别模型中的表现04DeepSeek辅助构建基于财报文本的情感语调因子03 非结构数据:基于财报文本的情感语调因子非结构数据:基于财报文本的情感语调因子 全局配置模块 非结构数据:基于财报文本的情感语调因子非结构数据:基于财报文本的情感语调因子 ➢传统财务指标受会计准则和法律约束,可能存在人为操纵空间,而文本情感语调反映了管理层对企业经营状况的真实情绪流露,具有更强的隐蔽性特征。过度积极的表述可能是管理层掩盖财务问题的策略,如虚增收入时通过夸大描述转移投资者注意力;负面情绪升高往往预示资金链紧张或业绩下滑,可能触发管理层通过财务造假缓解短期压力。而且从合法性的角度来看,年报文本中流露出的负面情绪也是公司为了降低投资者预期,避免未来遭遇法律诉讼困扰的必要手段。 ➢文本情感分析捕捉非结构化风险线索: •情绪矛盾:财务数据向好但语调消极,可能暗示数据真实性存疑;•模糊表述:大量使用复杂术语或转折词(如“尽管”、“但是”)可能掩盖真实风险;•行业异常:与同行业情感倾向偏离较大的公司更可能存在舞弊。 ➢从DeepSeek生成的财报文本情感语调分数分布来看,财务造假公司的情感语调分数整体低于正常公司的情感语调分数;这一规律在以万得一级行业分类后的样本中依旧成立。 目录目录 财务造假上市公司样本整理01 02 情感语调因子在财务造假识别模型中的表现 04 AI挖掘财报文本信息的拓展路径05 建立识别财务造假的建立识别财务造假的LogisticLogistic模型模型 ➢Logistic回归是一种广泛应用的机器学习算法,尤其擅长处理二分类问题。Logistic回归模型通过使用逻辑函数(Sigmoid函数)将预测值映射到概率空间,从而能够直接输出样本属于某一类的概率。以下为Logistic回归的数学逻辑: ➢输入:训练数据集𝑋=𝑥1,𝑥2,…,𝑥𝑛和目标值𝑦=𝑦1,𝑦2,…,𝑦𝑛 ➢输出:预测值ො𝑦 ➢模型假设:假设模型输出为事件发生的概率: 其中σ𝑧=11+𝑒−𝑧称作Sigmoid函数 ➢损失函数:使用对数似然损失函数进行优化,目标是最大化似然函数: 对每一层计算线性变换:𝐿𝑤,𝑏=−1𝑛σ𝑖=1𝑛𝑦𝑖𝑙𝑜𝑔𝑝𝑖+1−𝑦𝑖𝑙𝑜𝑔1−𝑝𝑖 其中(𝑝𝑖=𝑃𝑦=1𝑥𝑖) ➢梯度下降,计算损失函数对参数的梯度: ➢更新参数: ➢预测输出:设定阈值(一般为0.5),当𝑃𝑦=1𝑥>0.5时ො𝑦=1,否则ො𝑦=0 DeepSeekDeepSeek情感语调因子加入特征池前后情感语调因子加入特征池前后LogisticLogistic模型表现对比模型表现对比 ➢加入情感语调因子后,模型在召回率(测试集:65.27%→69.01%,+3.74%)得到提升,第二类错误同步下降,验证了情感因子在识别财务造假场景中的核心价值。尽管其他指标(准确率、特异性)有所下降,但这反映了模型在平衡“抓造假”与“保正常”目标时的合理权衡。在财务造假检测中,降低漏判(第二类错误)的优先级通常高于误判(第一类错误),因此情感因子对召回率的提升具有实际意义。 ➢财务造假公司往往在财报文本中隐含负面情感信号(如模糊措辞、矛盾逻辑、过度乐观修饰),情感因子通过量化文本情感倾向,帮助模型更敏感地捕捉这些特征,强化对造假样本的识别能力。作为线性模型,Logistic通过调整特征权重优化分类边界。情感因子通过正向权重调整(负面情感→更高造假概率),直接扩大了造假类别的判别边界,从而提高召回率。 DeepSeekDeepSeek情感语调因子加入特征池前后情感语调因子加入特征池前后LogisticLogistic模型特征变量重要性模型特征变量重要性 ➢1)情感因子隐性协同:虽未进入前10,但通过调整财务指标权重分布(如偿债能力指标重要性提升、ROA权重下降),间接强化模型对造假信号的组合识别能力。2)财务主导逻辑稳固:前10全为财务指标(盈利能力/偿债能力/每股指标),情感语调因子仅辅助优化特征关联,解释召回率提升源于财务与情感信号的线性组合增强。3)业务兼容性优先:模型保持"财务基本面为主,情感为辅"的可解释结构,符合风控场景对财务指标核心地位的强依赖。 资料来源:万得,CSMAR,国信证券经济研究所整理 建立识别财务造假的建立识别财务造假的LightGBMLightGBM模型模型 ➢LightGBM(Light Gradient Boosting Machine)是一种高效的梯度提升框架,通过直方图分割技术离散化连续特征,结合单边梯度采样(GOSS)和互斥特征捆绑(EFB)降低计算开销,显著提升训练速度与内存效率。其采用Leaf-wise树生长策略,聚焦损失下降显著的分支,构建判别力更强的树结构,同时平衡模型精度与训练效率。该算法擅长处理高维、大规模数据,在数据挖掘、推荐系统等场景中表现卓越,尤其适用于对实时性和计算资源敏感的工业级任务。以下为LightGBM模型的数学描述: ➢输入:训练数据集𝑋=𝑥1,𝑥2,…,𝑥𝑛和目标值𝑦=𝑦