您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国泰君安证券]:学术纵横系列之五十五:机器学习模型中如何处理缺失值 - 发现报告

学术纵横系列之五十五:机器学习模型中如何处理缺失值

2024-08-12卢开庆国泰君安证券D***
学术纵横系列之五十五:机器学习模型中如何处理缺失值

金融工程/2024.08.12 机器学习模型中如何处理缺失值卢开庆(分析师) 021-38038674 ——学术纵横系列之�十� 本报告导读: 本篇报告介绍了文献Missingvalueshandlingformachinelearningportfolios的主要结论,文章主要研究了在使用机器学习构建的投资组合中处理缺失值的方法,为股票收益预测中常见的缺失值处理提供了建议。 投资要点: 缺失值填充方法的选择:文章分析了截面均值填充和截面期望最大化方法(EM)填充在不同算法中的效果差异,并展示了其他四种缺失值填充和四种收益预测算法的效果。结论是股票收益预测效果与 缺失值填充方法的关系不大,并且复杂的机器学习方法的表现可能不如简单OLS回归。 缺失值处理效果的解释:文章发现在大多数情况下,使用简单均值填充的效果最好。这可能是由于(1)数据截面相关性整体较低,因此已有数据对于缺失值数据而言提供的信息较为有限;(2)缺失值 往往在时间维度上聚集出现,时间序列方法和EM算法能利用的信息有效度较低;(3)同一数据源的缺失值往往聚集出现,甚至会出现缺失值数量远大于观测值的情况,不利于进行严格的逻辑填充。 lukaiqing026727@gtjas.com 登记编号S0880524080005 相关报告 Gerber统计法:估计投资组合协方差矩阵的新方法2024.06.17 订单流数据特征挖掘的机器学习方法2024.05.27如何构建更有效的股票间动量2023.11.17 日夜收益差的形成机制2023.09.27防御型股票的特征2023.08.21 金融工 程 学术前沿模型专题报告 证券研究报 告 在股票收益预测时按市值进行分组:文章发现在预测股票收益时,在PCR、sPCR、GBRT等模型中根据市值分组可以显著提升投资组合表现。这一结果表明不同市值规模、不同流动性的股票的收益预 测结构是不同的。 风险提示:量化模型失效风险:本篇报告所述文章的结论是基于量化模型和历史数据的得到的,请注意样本外存在失效可能性,详细结论请参考文献原文。 目录 1.引言3 1.1.因子值缺失情况展示3 2.截面最大期望填充&截面均值填充4 2.1.截面EM算法填充4 2.2.截面均值填充4 3.两个填充方法在不同算法中的效果分析5 3.1.单因子策略5 3.2.PCR多因子策略6 3.3.填充信息和因子相关性6 3.4.缺失值填充的噪声和陷阱7 3.5.比例主成分(ScaledPCR)和预期收益的维度问题8 4.其他缺失值填充方法收益预测方法的组合效果9 4.1.拓展的缺失值填充方法9 4.2.拓展的收益预测方法9 4.3.模型预测和超参数调优10 4.4.不同方法的预测结果展示与分析10 5.风险提示11 1.引言 机器学习算法对于底层输入数据的完整性有较高要求,以往很多研究直接将包含缺失值的股票删除,当数据集涉及多个不同维度或者长周期数据时这样的做法会删去几乎所有个股(Chen和Zimmermann(2022)的研究包含125个因子,这样的操作会删去99%的个股)。因此,在应用机器学习算法时如何填充缺失的因子值数据亦是一个值得探讨的问题。 在Missingvalueshandlingformachinelearningportfolios一文中,作者详细分析了截面均值填充和截面期望最大化方法(EM)填充在不同算法中的效果差异,并展示了其他四种缺失值填充和四种收益预测算法的效果。文章的结论是最简单的截面均值填充方法在大部分算法中效果都很好。 作者认为原因包括:(1)数据截面相关性整体较低,因此已有数据对于缺失值数据而言提供的信息较为有限;(2)缺失值往往在时间维度上聚集出现,时间序列方法和EM算法能利用的信息有效度较低;(3)同一数据源的缺失值往往聚集出现,甚至会出现缺失值数量远大于观测值的情形,不利于进行严格的逻辑填充。 文献信息: AndrewY.Chen,JackMcCoy,Missingvalueshandlingformachinelearningportfolios,JournalofFinancialEconomics,Volume155,2024,103815,ISSN0304-405X,https://doi.org/10.1016/j.jfineco.2024.103815. 1.1.因子值缺失情况展示 文章展示了159个不同类型的因子的缺失情况,如下图所示,大部分股票都存在不同程度的数据缺失。如果有缺失值就删去个股,那么这里将删去所有个股。因此,填充缺失的因子值是非常有必要的。 图1:不同因子在不同个股上均存在缺失值 数据来源:Missingvalueshandlingformachinelearningportfolios 2.截面最大期望填充&截面均值填充 在进行缺失值填充前,文章对原始股票数据进行了一些预处理,步骤如下: (1)对股票数据进行对称1%分位数的缩尾处理,减少异常值的影响;(2)对预测因子进行Box-Cox变换,使其趋近于正态分布;(3)对预测因子进行标准化处理。 2.1.截面EM算法填充 假设有�只股票,每只股票在第�月具有一组预测因子向量𝑋𝑖,𝑡,其中缺失值和观察值分别表示为𝑋𝑚𝑖𝑠𝑠|𝑖,�和𝑋𝑜𝑏𝑠|𝑖,�。假设Σ̂�为𝑋𝑖,�的跨股票协方差矩阵Σ�的合理估计(例如,可以让Σ̂�是具有预测数据的股票对的样本协方差)。然后,填充𝑋𝑚𝑖𝑠𝑠|𝑖,�的一种直观方法是使用: 𝑖,� 𝑋̂𝑚𝑖𝑠𝑠|𝑖,�=𝛽̂′𝑋𝑜𝑏𝑠|𝑖,�(1) 其中 𝛽̂′≡Σ̂−1Σ̂𝑜𝑏𝑠,𝑚𝑖𝑠𝑠|𝑖,�(2) 𝑖,�𝑜𝑏𝑠,𝑜𝑏𝑠|𝑖,� Σ̂𝑚𝑖𝑠𝑠,𝑜𝑏𝑠|𝑖,�和Σ̂𝑜𝑏𝑠,𝑜𝑏𝑠|𝑖,�是Σ�的子矩阵,分别对应于股票�的缺失值和观测值。类似于经典OLS公式𝛽̂=[𝑋′𝑋]−1𝑋′𝑦,式(1)-(2)使用了变量之间的协方差来 完成预测。由于文章对变量进行了标准化使其均值为零,式(1)中省略了截距项。 但是这种方法下的填充数据通常存在以下性质 𝑖=1 𝑖,� Σ̂�≠𝑁−1∑�𝑋̂𝑖,�𝑋̂′(3) 其中𝑋̂𝑖,�结合了𝑋̂𝑚𝑖𝑠𝑠|𝑖,�和𝑋𝑜𝑏𝑠|𝑖,�。在这种情况下,作者并不清楚是否应该使 𝑖=1 𝑖,� 用Σ̂�或𝑁−1∑�𝑋̂𝑖,�𝑋̂′来填充缺失值。除此之外,式(1)-(2)没有解决如何处 𝑚𝑖𝑠𝑠|𝑖,� 理高阶缺失项的问题:不仅𝑋𝑚𝑖𝑠𝑠|𝑖,�是未知的,𝑋𝑚𝑖𝑠𝑠|𝑖,𝑡𝑋′也是未知的。 𝑚𝑖𝑠𝑠|𝑖,� 𝑋𝑚𝑖𝑠𝑠|𝑖,𝑡𝑋′的期望值不同于式(1)的外积,对于Σ�的严格估计可能会起到重要作用。估计此高阶项的一种直观方法是使用下式,这一结果也可以从高斯更新公式中推导出来: [𝑋̂𝑋′] =Σ−𝛽̂′Σ +𝑋̂ 𝑋̂′(4) 𝑖,� 𝑖,�𝑚𝑖𝑠𝑠,𝑚𝑖𝑠𝑠|𝑖,� 𝑚𝑖𝑠𝑠,𝑚𝑖𝑠𝑠|𝑖,� 𝑖,� 𝑜𝑏𝑠,𝑚𝑖𝑠𝑠|𝑖,� 𝑚𝑖𝑠𝑠|𝑖,� 𝑚𝑖𝑠𝑠|𝑖,� EM算法通过反复迭代公式(1)-(2)和公式(3)解决自洽性问题,重复这两个步 直至满足‖Σ̂𝑛𝑒�−Σ̂𝑡‖ ≤�。文章使用�=10−4。 �∞ E步:利用式(1)和(2),使用观测数据和当前猜测的Σ̂�填充缺失数据。 � M步:通过将E步中填充的数据代入式(3)的右边,估计一个新的Σ̂𝑛𝑒� 。根据式(4),将高阶修正𝑋̂𝑚𝑖𝑠𝑠|𝑖,𝑡𝑋̂′的子矩阵添加到Σ̂𝑛𝑒�中。 𝑚𝑖𝑠𝑠|𝑖,�� 2.2.截面均值填充 截面均值填充即使用已有数据的截面均值替换缺失值。考虑到文章已对预测 因子进行正态化和标准化,简单均值填充等同于将缺失值直接替换为零。均值填充具有简单易行,计算成本低且透明度高的优点。但是从理论方面,均值填充可能会造成显著的有偏推断(significantlybiasedinferences)。此外,值得一提的是,均值填充实质上是EM算法填充的特例,此时协方差矩阵Σ̂�的非对角线元素为零。 3.两个填充方法在不同算法中的效果分析 3.1.单因子策略 文章作者将EM算法填充应用于单因子策略,并将其结果与删除具有缺失值的股票进行对比。每月选择500只预测值最高的股票做多,500只预测值最低的股票做空,以此消除填充数据时可能出现的预测因子稀释效应 (”predictordilution”effects)。 结果表明EM算法填充相比于直接删除缺失值而言,在策略平均收益和夏普上确实有改进,但不明显。表1展示了在EM算法填充的改进效果:策略平均收益的分布总体向右移动,但左尾向左移动,这一特点在等权重组合中尤其明显;策略夏普比率几乎没有改进,且分布的两尾均向外移动。 表1:缺失数据对单预测因子策略的影响 数据来源:Missingvalueshandlingformachinelearningportfolios 3.2.PCR多因子策略 在多因子回归任务中,文章利用主成分回归(PCR)方法避免过拟合问题,并构建多空策略。 1.首先按市值将股票分为三类: micro:市值低于NYSE市值的20% small:市值介于NYSE市值的20%至50% big:市值高于NYSE市值的50% 1.对于每一个类别,使用过去120个月的数据找到预测因子的主成分,然后使用最小二乘法(OLS)通过前K个主成分预测股票收益 2.形成一个投资组合,买入预测收益最高的前10%股票,卖空预测收益最低的10%股票,并持有一个月 结果表明截面EM算法填充和截面均值填充在预测投资收益方面的差异不明显。图1展示了平均收益和夏普比率随选取主成分数量的变化情况。在等权重组合中,EM算法填充对应的平均收益和夏普比率略高于简单均值填充,但这一优势在选取的主成分数量增加时消失。而对于价值加权组合,两种缺失值填充方式效果相似。 图2:缺失数据对PCR多预测因子策略(分组预测)的影响 数据来源:Missingvalueshandlingformachinelearningportfolios 3.3.填充信息和因子相关性 在股票收益预测中,已有的因子数据中几乎不包含缺失值的信息。下图展示了预测因子间的相关性分布和主成分的解释方差比率,可以发现已有因子数 据之间的相关性大多接近零,这一现象令EM算法没有用武之地。此外,缺失值往往以块状出现,使用较远的数据进行填充事实上可以贡献的信息有限。 图3:相关性的历史数据分布情况 数据来源:Missingvalueshandlingformachinelearningportfolios 3.4.缺失值填充的噪声和陷阱 EM算法填充引入的噪声可能超过其所带来的信息增益。下图展示了随机遮蔽10%的观测值后使用EM算法填充后,计算出的均方根误差𝑅𝑀𝑆�= √∑� (𝑟𝑖−𝑟̂𝑖)2。可以发现对于小市值股票,EM算法填充造成的误差比较显著, 𝑖=1 � 意味着EM算法填充引入的噪声有可能对预测造成较大程度的负面影响。 图4:随机屏蔽数据时的估算误差情况 数据来源:Missingvalueshandlingformachinelearningportfolios 上述结论也在下图中得到印证。相比图2,如果预测模型没有按市值区分,EM算法填充方法会导致模型预测表现下降。这很大程度上是EM算法填充在小市值股票上表现不佳造成的。 图5:缺失数据对PCA多预测因子策略(未分组预测)的影响 数据来源:Missingvalueshandlingformachine