您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[东方证券]:因子选股系列之一〇八:dd-Ensemble:基于知识蒸馏的alpha因子挖掘模型 - 发现报告

因子选股系列之一〇八:dd-Ensemble:基于知识蒸馏的alpha因子挖掘模型

2024-08-19杨怡玲东方证券G***
因子选股系列之一〇八:dd-Ensemble:基于知识蒸馏的alpha因子挖掘模型

报告发布日期 KD-Ensemble:基于知识蒸馏的alpha因子挖掘模型 ——因子选股系列之一〇八 杨怡玲yangyiling@orientsec.com.cn执业证书编号:S0860523040002 研究结论 模型改进思路 ⚫考虑到在基础版本中我们使用的l2数据集中绝大部分人工因子主要是基于大单构建的,而小单和盘口数据所蕴含的信息量也十分巨大,因此本文将构建一些基于小单和盘口的因子以对l2数据集进行信息补充,从而使得l2数据集反映的日内信息更加充分从而给全模型带来增量效果。 陶文启taowenqi@orientsec.com.cn 非线性市值风控全攻略:——因子选股系列之一〇五2024-05-27融合基本面信息的ASTGNN因子挖掘模型:——因子选股系列之一〇四2024-05-27基本面因子的重构:——因子选股系列之一〇二2024-03-21自适应时空图网络周频alpha模型:——因子选股系列之一〇一2024-02-28周频多因子行业轮动模型:——量化策略研究之七2024-01-21基于残差网络的端到端因子挖掘模型:——因子选股系列之九十六2023-08-24基于循环神经网络的多频率因子挖掘:——因子选股系列之九十一2023-06-06 ⚫基于知识蒸馏的思想在因子单元加权阶段将树模型和神经网络进行集成,先通过教师模型对信息进行过滤,之后将过滤得到的有效信息提供给学生模型进行训练,从而让学生模型能更有效的学习。通过知识蒸馏方法,我们希望集成后的模型既能继承树模型能较好处理分类型数据和泛化能力强的优势,又能继承神经网络能够较好拟合极度非线性函数的优势。 ⚫今年年初基于量价的机器学习因子出现了较大回撤,原因在于模型预测的市场风格与真实环境出现了较大偏差,因此我们在alpha因子生成阶段加入风险因子生成部分,并二者相互正交从而抑制alpha因子中这种可能带来较大回撤的轮动成分。 小单和盘口因子的实验结论 ⚫小单早盘占比、小单早盘净流入和小单收益率因子在各个股票池上表现均较好,但按分位数划分的表现整体强于按金额划分。小单早盘占比因子在大盘股上的表现整体强于小盘股。 ⚫按照中位数划分的小单占比因子在中证全指上RankIC均值接近0,但绝对值均值13.22%,胜率接近50%,对未来收益有着较好的解释能力,但预测方向波动较大,可认为该因子可视作一个较好的刻画短期风险的风险因子。 合成因子的实验结论 ⚫基于知识蒸馏合成打分2018年以来在中证全指上周频RankIC均值和年化ICIR分别可达16.69%和8.00,top组年化超额可达51.73%;在沪深300、中证500、中证1000三个指数上RankIC均值分别为12.22%、12.39%、15.35%,分十组多头年化超额分别为34.16%、31.38%、41.81%,相较于基准模型,各宽基指数股票池新模型生成因子的选股能力均有明显提升效果。 ⚫基于风险中性模型生成打分在中证全指上周频RankIC和年化ICIR分别为15.83%和8.15,多头组合年化超额可达47.96%,该模型2024年表现十分突出多头组合截至7月31日累计超额29.20%,最大回撤仅-7.48%,稳定性较强。 ⚫本文生成因子也可以直接应用于指数增强策略,在各宽基指数上均能获得显著的超额收益,在成分股80%限制和周单边换手率约束为20%约束下,2018年以来,新模型打分构建的Barra风控组合在沪深300、中证500和中证1000增强策略上年化超额收益率分别为16.88%、24.02%和31.38%。 风险提示 ⚫量化模型失效⚫极端市场造成冲击,导致亏损 目录 一、引言........................................................................................................5 二、Level2数据集的扩充...............................................................................7 2.1回测说明......................................................................................................................72.2小单类因子...................................................................................................................72.3盘口类因子.................................................................................................................122.4与大单类因子相关性分析...........................................................................................132.5 RNN合成因子表现.....................................................................................................14 三、知识蒸馏和模型集成.............................................................................16 四、风险中性的alpha因子生成...................................................................18 五、各数据集因子非线性加权结果分析........................................................19 5.1中证全指上的表现......................................................................................................195.2各宽基指数上的表现...................................................................................................215.3各模型因子相关性及风险暴露分析.............................................................................22 六、合成因子指数增强组合表现...................................................................23 6.1增强组合构建说明......................................................................................................236.2沪深300指数增强......................................................................................................236.3中证500指数增强......................................................................................................256.4中证1000指数增强....................................................................................................27 风险提示......................................................................................................30 核心参考文献...............................................................................................31 图表目录 图1:端到端AI量价模型框架......................................................................................................5图2:小单早盘占比因子表现(金额).........................................................................................8图3:小单早盘占比因子表现(中位数).....................................................................................8图4:小单早盘占比因子(金额)中证全指上表现.......................................................................8图5:小单早盘占比因子(中位数)中证全指上表现....................................................................8图6:小单早盘净流入因子表现(金额).....................................................................................9图7:小单早盘净流入因子表现(中位数)..................................................................................9图8:小单占比因子表现(金额)................................................................................................9图9:小单占比因子表现(中位数).............................................................................................9图10:小单占比因子(金额)中证全指上表现..........................................................................10图11:小单占比因子(中位数)中证全指上表现.......................................................................10图12:小单收益率因子表现(金额).........................................................................................10图13:小单收益率因子表现(中位数).................................................