
报告发布日期 基于异构图神经网络的股票关联因子挖掘 ——因子选股系列之九十九 杨怡玲yangyiling@orientsec.com.cn执业证书编号:S0860523040002薛耕xuegeng@orientsec.com.cn执业证书编号:S0860523080007 研究结论 ⚫图神经网络(GNN)近年来成为图分析的主流工具,同样也是量化领域的研究热点,这种网络结构能够整合股票间复杂的关联信息。与传统的图聚类和中心性度量等方法相比,GNN通过节点和邻边的特征传递机制,可以更深入地挖掘和利用图结构中的数据,如供应链关系和行业分类,以增强个股预测的准确性。 ⚫异构图的多维度融合:本报告通过构建异构图神经网络(Heterogeneous GraphNeural Network)对股票市场进行建模,有效地融合了多种类型的节点和边。股票的量价因子作为节点特征,行业归属、基金共同持仓和分析师共同覆盖作为邻边特征,共同构成了一个多维度的异构图模型。这种融合方法不仅丰富了模型的信息维度,也提高了对未来收益率预测的准确性。 基于抗噪的AI量价模型改进方案:——因子选股系列之九十八2023-12-24DFQ-TRA: 多 交 易 模 式 学 习 因 子 挖 掘 系统:——因子选股系列之九十七2023-11-14基于残差网络的端到端因子挖掘模型:——因子选股系列之九十六2023-08-24DFQ强化学习因子组合挖掘系统:——因子选股系列之九十五2023-08-17UMR2.0——风险溢价视角下的动量反转统一框架再升级:——因子选股系列之九十四2023-07-13集成模型在量价特征中的应用:——因子选股系列之九十三2023-07-01 ⚫残差连接防止特征稀释:为了应对图神经网络中邻居特征聚合导致的中心节点特征稀释问题,本研究引入了残差连接。通过将中心节点的原始特征与聚合后的邻居特征结合,残差连接确保了中心节点的特征在传播过程中得以保留。这种设计有效地提高了模型处理大量邻居节点情况下的稳定性和性能。 ⚫XGBoost的两阶段训练:本研究在GNN的全连接层后端采用了“因子单元”模块,并结合梯度提升算法XGBoost进行了二次训练。通过这种两阶段训练方法,模型能够更有效地提取和利用正交的弱因子,优化了股票预测打分的准确性。相比直接预测,这种方法展现了更强的泛化能力和更优的预测结果。 ⚫RNN与GNN的融合:本报告同时考虑了循环神经网络(RNN)和图神经网络(GNN)的优势,结合了股票数据的时间维度(RNN)和空间维度(GNN)特征。通过这种融合,模型不仅能够分析股票的时序模式,还能捕捉股票间的相互关系。这种融合策略显著提高了因子的整体绩效,证明了时间和空间信息融合的有效性。 ⚫数据和训练:本文使用了63个颗粒度为日的常见量价因子作为股票的原始特征,针对GNN模型,节点特征为量价因子的截面数据,邻边特征为同行业归属、基金共同持仓和分析师共同覆盖;针对RNN模型,数据格式为这些量价因子的时间序列。报告采用“5+1+1”的“训练-验证-测试”窗口,按年进行滚动训练,样本频率为月频,对后20日收益率(中性化)进行拟合。 ⚫回测结果:基于GNN二阶段模型的因子(月频)表现为:RankIC0.125,ICIR3.19,夏普值2.95,多头超额年化收益21.0%。将其与RNN结合之后,得到的综合因子绩效均有提升:RankIC0.131,ICIR3.36,夏普值3.40,多头超额年化收益25.4% 风险提示 量化模型失效风险、市场极端环境冲击 目录 一、引言........................................................................................................5 二、图神经网络.............................................................................................7 2.1 GCN.............................................................................................................................72.2节点特征......................................................................................................................82.3邻边建模......................................................................................................................8 三、GNN模型及测试结果............................................................................11 3.1不同邻边同质图模型测试...........................................................................................113.2异构图模型测试..........................................................................................................14 四、GNN与RNN的模型融合......................................................................18 4.1 RNN模型...................................................................................................................194.2混合模型....................................................................................................................214.3增强组合表现.............................................................................................................23 五、总结与讨论...........................................................................................24 六、风险提示...............................................................................................24 七、引用文献...............................................................................................25 图表目录 图1:GNNXGB+RNNXGB模型超额收益表现.............................................................................6图2:子模型回测对比..................................................................................................................6图3:GCN示例...........................................................................................................................7图4:因子列表.............................................................................................................................8图5:股票数量前十的中信一级行业(截至20231031).............................................................8图6:单一股票被重仓最多(截至20231031)............................................................................9图7:被同时重仓次数最多的股票对(截至20231031).............................................................9图8:单一股票被分析师覆盖最多(截至20231031)...............................................................10图9:被同分析师覆盖次数最多(截至20231031)...................................................................10图10:训练测试框架 ..................................................................................................................11图11:同质图模型结构细节.......................................................................................................12图12:行业因子Rank IC表现...................................................................................................13图13:行业因子分组超额净值...................................................................................................13图14:基金重仓因子Rank IC表现............................................................................................13图15:基金重仓因子分组超额净值............................................................................................13图16:分析师覆盖因子Rank IC表现........................................................................................14图17:分析师覆盖因子分组超额净值..............