
股债相关性是每一项资产配置决策的基石,但考虑到其联动性可能会根据经济状况大幅波动,因此可靠地对其进行估计是一项挑战。 基于随机森林的特征选择和特征重要性:利用监督机器学习技术,本文提出了一种新的方法,用于识别美国股债收益相关性的关键决定因素,最终发现通货膨胀、通货膨胀的不确定性、实际收益率、资产波动率、经济增长为股债相关性的关键因子,并据此预测相关性动态的变化。与现有文献相比,本文的方法允许系统地检测股债相关性的主要驱动因素,并揭示不同经济体制下每个决定因素重要性随时间的变化。 特征重要性随时间而变化:通过本文实证分析表明,特征重要性具有时变性;尽管通胀仍然是相关性长期趋势的关键驱动力,但全球金融危机后,实际收益率等其他因子的重要性开始增加。 基于梯度提升的五因子回归预测模型:在进行样本外投资组合评估后,作者表明,五因子梯度提升回归法在估计相关性的实际水平和变化趋势方面优于所有其他现有的基于因子的模型,从而为预测时变的股债联动性波动提供了一种稳健的解决方案,可进一步应用于资产配置决策和风险管理。 1.引言 衡量和预测股票和债券之间的联动对资产配置决策至关重要,是构建多元化投资组合的基础(Markowitz 1952;Sharpe 1964)。此外,股债相关性是风险管理中的一个重要因素,例如,利用股债相关性衡量给定投资组合的风险价值。 因此,越来越多的学术研究致力于进行股债相关性建模(Adams 2017)。 Bollerslev(1990)引入的恒定条件相关(CCC)模型是最早也是最流行的用于测量相关性的多元波动率模型之一,直到Robert Engle(2002)引入了动态条件相关模型,该模型在CCC模型的基础上进行了改进,其假设联动性按照简单的GARCH类型结构线性演化。Sheppard、Engle和Cappiello(2006)通过引入平滑参数和条件不对称性,进一步扩展了这项工作。然而,不同相关性机制的平稳过渡性质使得在这种增强模型下,目标相关性(correlation targeting)是不可能实现的。为了克服这个问题,Kwan、Li和Ng(2009)提出了阈值变化条件的相关性模型,该模型基于网格搜索的数据样本相关矩阵得出的准最大似然估计,可以实现离散机制转换(regime switches)和目标相关性。 尽管这些时间序列模型是预测联动性波动的伟大尝试,但人们对股债相关性的主要决定因素知之甚少,这使得投资组合经理难以解释相关性的动态波动。为了解决这一局限性,一些人建议在基于这些决定因素动态预测联动波动之前,使用动态因子线性回归来揭示相关性的驱动因素。 例如,Connolly、Stivers和Sun(2007)发现,股债相关性和股票市场隐含波动性之间存在很强的关系,在低(高)波动率日后,联动性倾向于正(负)波动。Yang、Zhou和Wang(2009)利用1855年至2001年的长期历史数据表明:考虑到股票和债券贴现率的共同风险敞口,更高的股债相关性往往会跟随更高的短期利率和通货膨胀率。在一个三因素模型中,Andersson、Krylova和Vähämaa(2008)进一步使用通货膨胀和股票波动率预测经济增长下相关性,最终发现相关性在高通胀预期期间趋于增加,在股票波动率上升的背景下趋于减少;然而,他们没有发现经济增长在统计上的显著影响。最近,Aslanidis和Martinez(2021)借鉴了对相关性设置平稳过渡条件的观点,并使用股市波动性和短期利率来定义不同的相关性机制。尽管这些基于因素的机制模型建立在时间序列建模的局限性基础上,它们提供了更多关于股债相关性时变的驱动因素的透明度,但没有考虑整个投资期内每个决定因素重要性的时变,因此在样本外评估中也表现不佳。 在文献《Forecasting US Equity and Bond Correlation—A Machine Learning Approach》中,作者试图通过一个时变的监督机器学习(Verdhan 2020)特征重要性(Tirelli 2011)的模型系统地选择宏观经济因素,并使用这些因素通过非线性梯度提升(Friedman 2002)监督回归模型预测样本外相关性,从而解决上述局限性。文献中的发现为相关性研究做出了三个新的贡献。首先,文献提供了五因素模型预测相关性波动能力的实证证据。 这五个因素包括10年期通货膨胀、10年期通货膨胀不确定性、10年期实际收益率、股票波动率和工业产出增长。第二,文献表明,尽管通货膨胀仍然是相关性长期趋势的关键驱动力,但其重要性随着时间的推移而变化,自全球金融危机以来,随着市场对美联储政策的增强和缩减变得更加敏感,实际收益率等其他因素的重要性开始增加。最后,基于文献的样本外投资组合评估,表明文献提出的非线性机器学习方法优于所有其他现有的基于因素的模型。 本文的结构如下:理论基础章节介绍了特征选择过程,以及使用的基于决策树模型的特征重要性和监督机器学习回归函数。第三章提供了系统的特征选择步骤和特征重要性的时变的结果。第四章给出了基于有监督的机器学习回归模型的样本外预测结果,并提供了与现有模型的比较。 在原文文献结论章节,我们给出了原文中根据研究结果给出的结论和建议。最后我们给出了针对股债相关性及模型学习中的一些思考。 2.理论基础 2.1.特征选择 在对预测股债相关性的特征重要性进行排序之前,必须首先选择要包含在训练数据集中的特征的数量和类型。特征选择被定义为选择相关特征子集的过程,这些特征能够充分反映结果变量。在这种情况下,结果变量为美国的股债联动性。要创建一个解释相关性变动的数据集,首先必须找到影响股票和债券收益根本的宏观经济和金融因素。具体来说,可以按照以下方式分解股票与债券收益率公式: ∞ 𝑡 1 + 𝐺 ) ]× 𝐷 𝑃 = 𝐸 [∑ ( 𝑠𝑡𝑜𝑐𝑘 1 + 𝑌+ 𝐸𝑅𝑃 𝑡 𝑡 𝑡=1 𝑇 𝐶 (1 + 𝑌) 100(1 + 𝑌) 𝑡 ] 𝑃 = 𝐸 [∑ + 𝑏𝑜𝑛𝑑 𝑡 𝑇 𝑡 𝑇 𝑡=1 其中G是指预期股息增长率,𝑌反映了对未来短期利率和所需债券风险溢价的预期,𝐸𝑅𝑃是指除债券风险溢价外,嵌入股票贴现率中的所需股权风险溢价。在债券收益率模型中,𝐶和100分别是定期息票和债券的票面价值为100的固定现金流。 𝑡 𝑡 𝑡 从等式中可以明显看出,股票和债券既有共同的因素,也有相反的因素,导致它们联动或分离。文献关注宏观经济冲击影响这些因素的五个关键点,包括通货膨胀、商业周期、波动性、货币政策和不确定性冲击。通货膨胀冲击可能会导致相关性增加,因为较高的通货膨胀会直接提高预期的未来短期利率和与通货膨胀相关的债券风险溢价,从而降低债券收益。而在高通胀期间,贴现率提高将会影响现金流预期的任何正向变化,进而对股票产生负面影响(Ilmanen 2003)。另一方面,增长和波动率冲击对未来股息和股票风险溢价产生影响,它们可能会破坏股票和债券之间的关系。货币政策冲击的影响更加微妙,因为更高的实际收益率会提高股票和债券共享的折现率部分,从而增加两者相关性,但Rankin和Idil(2014)指出,如果伴随强劲的收益增长,这种影响有时可能会被抵消。最后,随着股票风险溢价增加(压低股价),而债券期限溢价下降(债券价格上升),增长前景不确定性的增加将降低股债相关性。 接下来,文献选择了一系列反映五次经济冲击的宏观变量,详见特征选择和特征重要性结果部分。为了降低数据集的维数,采用了主成分分析(PCA),并使用PCA中的因子加载来消除高度相关的变量。然后,根据数据集预测相关性变化的程度,使用Svetnik(2003)引入的随机森林分类器来选择样本中包含的最终变量集。假设随机森林A是N棵树的 {𝑇(𝑋), 𝑇(𝑋), ⋯ , 𝑇 集合,则有 (𝑋)},其中X是多维向量。这个集合基于{𝑌(𝑋), 𝑌(𝑋), ⋯ , 𝑌= 𝑇= 𝑇 𝑛 每棵树产生N个不同的结果, = 𝑇(𝑋)}, 𝑛 𝑛 其中𝑌是基于第N棵树的预测。然后,通过投票法取票数最多的类别或取平均的方式,对这些树的所有输出进行聚类,以产生对随机森林A的最终预测。 𝑛 2.2.基于树模型的特征重要性 在选择最终数据集后,使用基于决策树的机器学习模型(López Chau 2013)对每个输入变量的重要性进行排序。对于一个单一的决策树模型,每个特征重要性可表示为: ∑𝑓𝑖= 𝑛𝑖 𝑗:𝑛𝑜𝑑𝑒 𝑗 𝑠𝑝𝑙𝑖𝑡𝑠 𝑜𝑛 𝑓𝑒𝑎𝑡𝑢𝑟𝑒 𝑖 𝑗 𝑖 ∑ 𝑛𝑖 𝑘𝜖𝑎𝑙𝑙 𝑛𝑜𝑑𝑒𝑠 𝑘 其中𝑓𝑖是特征𝑖的重要性,𝑛𝑖是内部节点𝑗的重要性。后者以节点j的每个子节点的基尼不纯度减少量及到达该节点的概率加权计算得到。然后,将每个特征的重要性𝑋计算为内部节点误差的所有减少的总和,通过除以单个决策树上所有特征重要性值的总和,可以将其进一步标准化为如下的百分比值: 𝑖 𝑗 𝐼 𝑓𝑖 𝑖 𝑛𝑜𝑟𝑚𝑓𝑖= 𝑖 ∑ 𝑓𝑖 𝑗𝜖𝑎𝑙𝑙 𝑓𝑒𝑎𝑡𝑢𝑟𝑒𝑠 𝑜𝑛 𝑑𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑡𝑟𝑒𝑒 𝑗 为了获得多个决策树的最终特征重要性得分,计算每个树上特征重要性的总和,并除以树的总数。例如,如果模型有M个决策树,那么特征重要性等于 𝑀 1𝑓𝑖= 2𝑖 2𝐼 ∑ 𝑓𝑖𝑀 (𝑇) 𝑚 𝑚=1 将此特征重要性函数应用于整个训练集,以获得对预测股票和债券联动波动最重要的特征的概述。此外,我们将特征重要性函数纳入一个扩展窗口,以便更动态地了解每个特征的重要性是如何随时间变化的。 2.3.梯度提升回归模型 在最后一步中,使用上一节中确定的最重要变量作为梯度提升回归模型的输入来预测相关性。与随机森林模型不同,梯度提升算法通过在每次迭代中基于最小二乘法的伪残差依次拟合每个单独的决策树来建立加性回归模型。 更具体地说,梯度提升模型建立在梯度下降的基础上,使得损失函数𝐿(𝜃)最小化,以获得优化的参数𝜃: 𝜕 𝜃 = 𝜃 − 𝛼 ∙ 𝐿(𝜃) 𝜕𝜃 假设有一个带有M个阶段的梯度提升模型;假设𝑓(𝑥)是在m阶段的不完全预测模型,将 𝑚 (𝑥) = 𝑓 (𝑥) + 𝛽 (𝑥) 𝑓 ℎ 𝑚 𝑚−1 𝑚𝑚 (𝑥) (𝑥) 其中,ℎ(𝑥)是在现有弱学习器𝑓 的基础上改进𝑓 的新估计器。 𝑚 𝑚−1 𝑚𝑖𝑚 𝑁𝑖=1 在每个阶段m,需要最小化损失函数𝐿(𝑓) = ∑用梯度下降法,得到: 𝐿(𝑦,𝑓(𝑥)),通过使 𝑖 𝜕 (𝑥) = 𝑓 (𝑥) − 𝛽 (𝑥)) 𝑓 ∙ 𝐿(𝑦, 𝑓(𝑥) 𝑚 𝑚−1 𝑚 𝑚−1 𝑖 𝜕𝑓 𝑚−1 结合上述两个方程,可以推出 (𝑥))(𝑥) 𝜕𝐿(𝑦, 𝑓(𝑥) = − 𝑚−1𝑚−1 𝑖 ℎ 𝑚 𝜕𝑓 3.特征选择及特征重要性结果 3.1.计算细节 所有的计算都是在一台拥有60 GB内存的16核机器上进行的。文献使用ScikitLearn 0.24(Pedregosa et al.2011)进行数据标准化、PCA、随机森林和梯度提升的计算,以及计算所有评估指标。 数据选择和初步统计:样本数据集从1988年1月开始,在2021年3月结束,总共产生399个月观测值。为了估计股债相关性,使用标准普尔500综合总收益指数来代表美国股票收益,使用标准普