您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [东方证券]:因子选股系列之一百:DFQ-HIST:添加图信息的选股因子挖掘系统 - 发现报告

因子选股系列之一百:DFQ-HIST:添加图信息的选股因子挖掘系统

2024-02-07 杨怡玲,刘静涵 东方证券 坚守此念
报告封面

报告发布日期 DFQ-HIST:添加图信息的选股因子挖掘系统 ——因子选股系列之一百 杨怡玲yangyiling@orientsec.com.cn执业证书编号:S0860523040002刘静涵021-63325888*3211liujinghan@orientsec.com.cn执业证书编号:S0860520080003香港证监会牌照:BSX840 研究结论 ⚫HIST模型(sHareInformation for Stock Trend forecasting,基于图的可通过挖掘概念共享信息进行股票趋势预测),由中山大学和微软亚洲研究院合作在2022年1月发布于arXiv。 ⚫DFQ-HIST模型在原文模型基础上进行修改和优化,是一种新的股票趋势预测框架,能够充分挖掘股票预定义概念和隐藏概念中的动态共享信息:(1)刻画股票联动现象;(2)引入人工预定义概念,并且考虑到了预定义概念的不完备性和动态变化性;(3)引入隐藏概念,进一步挖掘股票关联信息;(4)应用注意力机制,将个股信息和概念信息进行融合;(5)加入股票时序特征编码模块,融合股票自身的历史时序特征信息;(6)使用双重残差学习结构,处理不同模块的信息。(7)相比其他常见图模型,HIST模型效果最好。 基 于 异 构 图 神 经 网 络 的 股 票 关 联 因 子 挖掘:——因子选股系列之九十九2024-01-02基于抗噪的AI量价模型改进方案:——因子选股系列之九十八2023-12-24DFQ-TRA: 多 交 易 模 式 学 习 因 子 挖 掘 系统:——因子选股系列之九十七2023-11-14基于残差网络的端到端因子挖掘模型:——因子选股系列之九十六2023-08-24DFQ强化学习因子组合挖掘系统:——因子选股系列之九十五2023-08-17UMR2.0——风险溢价视角下的动量反转统一框架再升级:——因子选股系列之九十四2023-07-13集成模型在量价特征中的应用:——因子选股系列之九十三2023-07-01基于循环神经网络的多频率因子挖掘:——因子选股系列之九十一2023-06-06DFQ遗传规划价量因子挖掘系统:——因子选股系列之九十2023-05-28 ⚫DFQ-HIST模型中有几个关键步骤,对提升模型效果都有帮助:(1)多输入:使用基础特征和alpha因子两类输入;(2)多标签:使用未来5日、10日、20日收益率多个标签;(3)时序特征提取:GRU模型效果最好;(4)融合图信息:添加图信息后可以显著提升多头表现;(5)预定义概念选取:使用公司行业及主营业务构成数据;(6)预定义概念修正:校正预定义概念的共享信息、挖掘缺失的股票概念以及减少不太重要概念的影响可以提升模型性能;(7)隐藏概念挖掘:模型可以挖掘出在预定义概念之外的股票关联;(5)双重残差结构:移除预定义概念模块、隐藏概念模块、移除个体信息模块,或取消残差结构都将降低模型性能。 ⚫合成因子绩效:在中证全指股票池中,HIST模型合成因子得分各项表现均明显最强。测试集(2020-2023年)上rankic达到17%,rankicir达到1.34(未年化),20分组多头年化超额收益29.31%,月均单边换手73%。分组单调性好。因子受行业市值风格的影响较小,因子中性化后表现依然很强,优于其他模型。随机种子对全市场训练的模型结果影响不大,5个路径下得到的因子值相关系数在90%左右。 ⚫沪 深300指数增 强组合:2020年以来年化信息比达到2.27,年化对冲收益11.55%,年化跟踪误差4.87%,单边年换手7.45倍。 ⚫中 证500指数增 强组合:2020年以来年化信息比达到2.09,年化对冲收益13.13%,年化跟踪误差6%,单边年换手9.67倍。 ⚫中证1000指数增强组合:HIST模型在中证1000指增组合中表现突出:(1)整体表现:2020年以来年化信息比达到3.6,年化对冲收益25.55%,年化跟踪误差6.39%,单边年换手10.06倍。(2)回撤情况:超额收益净值曲线走势平滑,未出现长时间失效。超额收益最大回撤仅为4.55%,出现在2023年4月,且回撤持续时间很短。(3)分年表现:2020-2023每年均取得正超额,2023年对冲收益20%。 风险提示 1.量化模型失效风险。2.极端市场环境对模型的影响。 目录 一、模型概述.................................................................................................6 1.1股票联动现象...............................................................................................................61.2预定义概念的不完备性和动态变化性............................................................................61.3预定义概念和隐藏概念.................................................................................................71.4个股信息和概念信息的融合..........................................................................................81.5时序信息和图信息的结合.............................................................................................81.6双重残差学习结构........................................................................................................81.7不同图模型效果对比...................................................................................................10 二、模型核心要点........................................................................................11 2.1多输入........................................................................................................................112.2多标签........................................................................................................................122.3时序特征提取的价值...................................................................................................122.4图信息的价值.............................................................................................................132.5预定义概念选取..........................................................................................................132.6预定义概念修正的价值...............................................................................................132.7隐藏概念挖掘.............................................................................................................142.8双重残差结构的价值...................................................................................................15 三、模型说明...............................................................................................16 3.1数据说明....................................................................................................................163.2对抗过拟合技巧..........................................................................................................163.3代码修改点.................................................................................................................17 四、模型结果...............................................................................................18 4.1运算用时....................................................................................................................184.2合成因子绩效.............................................................................................................184.3中性化因子表现..........................................................................................................234.4随机种子的影响..........................................................................................................234.5与其他量价模型相关性...............................................................................................23 五、指数增强组合...............................................................