报告发布日期 DFQ-XGB:基于树模型的alpha预测方案 ——因子选股系列之一〇七 杨怡玲yangyiling@orientsec.com.cn执业证书编号:S0860523040002刘静涵021-63325888*3211liujinghan@orientsec.com.cn执业证书编号:S0860520080003香港证监会牌照:BSX840 研究结论 树模型的训练细节 ⚫输入特征的构造:树模型需要人工构造特征来捕捉时间依赖性。以纯截面70特征为输入的模型表现,明显弱于以添加时序信息的430特征为输入的模型,IC低1pct以上,RANKIC低接近2pct,ICIR和RANKICIR也有较大差距,多头年化超额低7pct以上。 ⚫数据预处理方案的选择:解释变量X截面上进行稳健的Zscore标准化,减小异常值对标准化结果的影响。预测标签Y截面上进行Zscore标准化。 ⚫调参技巧:使用Optuna调参方法,调参后模型在测试集上的效果有明显提高,IC和RANKIC提高近1pct,多头年化超额提高近4pct。 基于风险注意力的因子挖掘模型:——因子选股系列之一〇六2024-05-29非线性市值风控全攻略:——因子选股系列之一〇五2024-05-27融合基本面信息的ASTGNN因子挖掘模型:——因子选股系列之一〇四2024-05-27DFQ-FactorVAE:融合变分自编码器和概率动态因子模型的alpha预测方案:——因子选股系列之一〇三2024-05-14基本面因子的重构:——因子选股系列之一〇二2024-03-21自适应时空图网络周频alpha模型:——因子选股系列之一〇一2024-02-28DFQ-HIST:添加图信息的选股因子挖掘系统:——因子选股系列之一百2024-02-07基 于 异 构 图 神 经 网 络 的 股 票 关 联 因 子 挖掘:——因子选股系列之九十九2024-01-02基于抗噪的AI量价模型改进方案:——因子选股系列之九十八2023-12-24DFQ-TRA: 多 交 易 模 式 学 习 因 子 挖 掘 系统:——因子选股系列之九十七2023-11-14基于残差网络的端到端因子挖掘模型:——因子选股系列之九十六2023-08-24DFQ强化学习因子组合挖掘系统:——因子选股系列之九十五2023-08-17集成模型在量价特征中的应用:——因子选股系列之九十三2023-07-01基于循环神经网络的多频率因子挖掘:——因子选股系列之九十一2023-06-06DFQ遗传规划价量因子挖掘系统:——因子选股系列之九十2023-05-28 ⚫随机种子的影响:不同种子下得到的模型表现较为接近,IC和RANKIC相差都在0.5pct以内,多头年化超额相差2pct以内。不同种子下得到的模型相关性很高。 ⚫树模型和神经网络模型的比较:相同输入特征下,MLP、GRU模型效果均不如XGB模型,RANKIC低1pct左右。XGB与两个网络模型的多头超额收益相关性仅60%。 树模型的训练效果: ⚫因子整体绩效表现:在各个股票池中,DFQ-XGB模型都能获得与神经网络模型相当甚至更优的绩效。在中证全指股票池中,DFQ-XGB模型所得到因子的稳定性最强,测试集上IC12.96%,RANKIC15.43%,20分组多头年化超额收益29.58%。 ⚫因子多头组表现:在中证全指股票池中,DFQ-XGB模型20分组多头组表现整体较强,累计超额仅低于HIST和FactorVAE模型。XGB模型和HIST、FactorVAE模型的多头超额净值的曲线走势存在差异,波峰波谷恰好相反,呈现出较好的互补性。 ⚫因子分年绩效表现:在各个股票池中,DFQ-XGB模型2024年的表现都很突出,尤其多头端。在中证全指股票池中,DFQ-XGB模型2024年的多头表现最优。2024年IC达到15.75%,20分组多头年化超额35.24%,最大回撤5.8%。 多模型集成增量: ⚫多模型相关性:DFQ-XGB模型所得因子与其他模型的相关性都比较低,在中证全指股票池中,DFQ-XGB模型与其他模型日度多头超额收益的相关性在50%以下。 ⚫多模型集成表现:在中证全指股票池中,DFQ-XGB模型与DFQ-HIST模型等权合成后效果更佳,达到1+1>2的集成效果。测试集上IC达到13.39%,RANKIC达到17.19%,20分组多头日度超额年化收益率达到36.12%。 Top100组合表现: ⚫在中证全指内,使用DFQ-XGB模型构建的top100组合,绩效表现优于其他模型。2020年以来年化绝对收益达到25.68%,年化夏普比达到1.17,最大回撤27.28%。 指数增强组合表现: ⚫沪深300指数增强组合表现:将XGB、dfqfactor、FactorVAE三个模型得分,按照1:1:2的权重结合使用,表现可超越任何一个单一模型。2020年以来年化信息比达到2.53,年化对冲收益14.90%,年化跟踪误差5.56%。 ⚫中证500指数增强组合表现:将XGB、TRA两个模型等权结合使用,表现可超越任何一个单一模型。2020年以来年化信息比2.31,年化对冲收益17.65%。⚫中证1000指数增强组合表现:将XGB、HIST两个模型等权结合使用,表现可超越任何一个单一模型。2020年以来年化信息比达到3.04,年化对冲收益24.06%。 风险提示 1.量化模型失效风险。2.极端市场环境对模型的影响。 目录 一、树模型的训练细节............................................................................5 1.1训练区间的选择.....................................................................................................51.2样本空间的选择.....................................................................................................61.3输入特征的构造.....................................................................................................61.4数据预处理方案的选择..........................................................................................71.5基础树模型的选择..................................................................................................81.6对抗过拟合技巧.....................................................................................................91.7调参技巧................................................................................................................91.8Double Ensemble模型的增量.............................................................................111.9随机种子的影响...................................................................................................121.10树模型和神经网络模型比较.................................................................................12 二、树模型的训练效果.................................................................................13 2.1模型的训练和预测过程........................................................................................132.2模型训练趋势.......................................................................................................142.3因子整体绩效表现................................................................................................142.4因子多头组表现...................................................................................................162.5因子分年绩效表现................................................................................................182.6因子多头组绩效归因............................................................................................222.7中性化因子绩效表现............................................................................................25 三、多模型集成增量....................................................................................26 3.1多模型相关性.......................................................................................................263.2多模型集成表现...................................................................................................28 四、Top100组合表现..................................................................................30 4.1Top100组合构建说明..........................................................................................304.2Top100组合表现.................................................................................................30 五、指数增强组合表现.........