您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[东方证券]:因子选股系列之一〇四:融合基本面信息的ASTGNN因子挖掘模型 - 发现报告

因子选股系列之一〇四:融合基本面信息的ASTGNN因子挖掘模型

2024-05-27杨怡玲东方证券晓***
因子选股系列之一〇四:融合基本面信息的ASTGNN因子挖掘模型

报告发布日期 融合基本面信息的ASTGNN因子挖掘模型 ——因子选股系列之一〇四 杨怡玲yangyiling@orientsec.com.cn执业证书编号:S0860523040002 研究结论 融入基本面信息的ASTGNN模型 ⚫本文使用一些量价和基本面数据作为输入,通过优化风险因子与收益率之间的R-square、风险因子自相关系数和风险因子间的膨胀系数来训练RNN+GAT模型生成风险因子,并利用所生成的风险因子来计算图模型中的邻接矩阵,以期更精确的度量交易日截面上个股之间的相似度关系。 陶文启taowenqi@orientsec.com.cn ⚫考虑到高频量价数据集与长周期数据集天然的低相关性,并且长周期数据所蕴含信息对预测短期收益率也有一定的能力,因此我们加入长周期数据集,以给全模型提供信息增量,从而进一步提升最终生成因子的选股效果。 基本面因子的重构:——因子选股系列之一〇二2024-03-21自适应时空图网络周频alpha模型:——因子选股系列之一〇一2024-02-28基于抗噪的AI量价模型改进方案:——因子选股系列之九十八2023-12-24基于残差网络的端到端因子挖掘模型:——因子选股系列之九十六2023-08-24基于循环神经网络的多频率因子挖掘:——因子选股系列之九十一2023-06-06 单数据集上实验结论 ⚫整体来看,今年以来截至2024年4月30日各个数据集中,数据集week和lfq_monthly表现最好,超额均超过了20%,且最大回撤相对往年更低。 ⚫长周期数据集与其他数据集相关性较低,其中lfq_monthly因子相关性均低于0.5,这意味着通过引入基本面可以给数据集带来信息增量,但日度采样的估值因子中包含了日度个股价格序列信息,在RNN进行时序学习的时候可能过度捕捉这一部分信息,最终导致最终生成因子与数据集day和Ms生成因子相关性相对较高⚫对综合打分贡献度最高的数据集是week数据集,而贡献程度最低的是l2数据集。事实上相较于其他几个数据集,l2数据信息含量更加丰富,与其他数据集之间的相关性也更低,因此认为l2数据集仍有较大改善空间。 合成因子的实验结论 ⚫从最终因子回测结果来看我们可以得到:1.相较于基准模型,加入长周期数据集之后模型RankIC、ICIR等指标均显著提升,多头组合换手率也显著降低。这说明通过加入与高频量价数据集低相关的长周期数据集后,全模型能够得到更多的信息增量,从而大大提高最终生成因子的选股效果。2.通过引入机器学习得到的风险因子来构建图模型的邻接矩阵后,因子RankIC、top组年化超额收益率等指标得到进一步提升,多头组合换手率也能进一步降低,这说明使用机器学习风险因子来进行股票相似度的刻画更加精确。 ⚫基于两种改进方案融合后,新模型非线性加权合成打分2018年以来截至2024年4月30日在中证全指上周频RankIC均值可达16.61%,top组年化超额可达50.41%;在沪深300、中证500、中证1000这三个指数上RankIC均值分别为10.70%、13.05%、16.09%。该打分可直接用于月频调仓,在中证全指上2018年和2020年以来截至2024年4月30日月频RankIC分别为19.16%和17.53%,ICIR为2.07和2.10,分二十组多头超额为35.03%和35.27%。相较于基准模型,各宽基指数股票池上两种改进方案生成因子的选股能力均有明显提升效果,并且衰减速度将显著降低。 ⚫本文生成因子也可以直接应用于指数增强策略,在各宽基指数上均能获得显著的超额收益,在成分股100%限制和周单边换手率约束为20%约束下,2018年以来截至2024年4月30日,新模型打分在沪深300、中证500和中证1000增强策略上年化超额收益率分别为16.98%、19.96%和31.63%。 风险提示 ⚫量化模型失效⚫极端市场造成冲击,导致亏损 目录 引言...............................................................................................................4 一、融入基本面信息的ASTGNN模型...........................................................5 1.1图模型邻接矩阵的改进.................................................................................................51.2加入基本面数据集........................................................................................................8 二、各数据集单因子分析.............................................................................10 2.1回测说明.....................................................................................................................102.2各数据集单因子绩效分析...........................................................................................112.3各数据集单因子相关系数分析....................................................................................122.4各数据集特征重要性分析...........................................................................................12 三、各数据集因子非线性加权结果分析........................................................13 3.1中证全指上的表现......................................................................................................133.2各宽基指数上的表现...................................................................................................14 四、合成因子指数增强组合表现...................................................................15 4.1增强组合构建说明......................................................................................................154.2沪深300指数增强......................................................................................................164.3中证500指数增强......................................................................................................174.4中证1000指数增强....................................................................................................18 五、结论......................................................................................................19 风险提示......................................................................................................20 图表目录 图1:端到端AI量价模型框架......................................................................................................4图2:RNN+GAT网络结构...........................................................................................................6图3:风险因子提取模型的输入....................................................................................................7图4:因子滞后五天自相关系数....................................................................................................7图5:因子单元提取网络结构.......................................................................................................8图6:两种采样方式下长周期数据集的表现..................................................................................9图7:日度采样分年度表现...........................................................................................................9图8:月度采样分年度表现...........................................................................................................9图9:长周期数据集生成因子暴露情况.......................................................................................10图10:各数据集因子汇总表现(回测期20231229~20240430)...............................................11图11:今年以来各数据集因子多头净值走势(回测期20231229~20240430).........................11图12:各数据集生成因子间相关系数矩阵.................................................................................12图13:各数据集特征重要性