您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[东方证券]:因子选股系列之九十一:基于循环神经网络的多频率因子挖掘 - 发现报告
当前位置:首页/其他报告/报告详情/

因子选股系列之九十一:基于循环神经网络的多频率因子挖掘

2023-06-06杨怡玲东方证券比***
因子选股系列之九十一:基于循环神经网络的多频率因子挖掘

有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 金融工程 | 专题报告 研究结论 ⚫ 前期报告《周频量价指增策略》利用 RNN为主体模型搭建了AI量价模型框架,并将其应用于选股策略。本报告主要对该报告中数据预处理和RNN模型提取因子这两部分进行了复现和一些细节方面改进,包括最后一层增加Batch-Norm层、使用的标签经过中性化和截面标准化等预处理。 ⚫ 通过讨论模型中一些参数的设置,我们认为:1)适当降低模型的学习率有助于梯度下降时寻找到验证集上表现更优的模型参数,但会大大增加模型训练时间;2)增加RNN中丢弃率大小有助于增强模型的泛化能力,但会降低模型在验证集上的表现;3)验证集上模型性能随正交惩罚参数增大呈现先上升后下降的趋势;4)适当增加因子单元个数有利于控制生成各单因子间的低相关性,但会增加过拟合风险。 ⚫ 2017年以来,一元和多元RNN等权合成因子在中证全指、沪深300、中证500、中证1000四个指数成分股上双周频RankIC均值分别为14.47%、10.05%、11.03%、14.45%和14.63%、10.24%、11.15%、14.91%,数值均超过了10%。这说明RNN生成因子市值偏向性较低 ⚫ RNN在各数据集生成因子等权合成之后打分可直接应用于指数增强策略,成分股不低于80%限制、周单边换手率约束为20%约束下,一元模型打分在沪深300、中证500和中证1000增强策略上年化对冲收益率分别为12.22%、13.79%和23.63%,多元模型打分在沪深300、中证500和中证1000增强策略上年化对冲收益率分别为12.52%、14.85%和22.15%。 ⚫ 根据各数据集上生成因子回测结果,我们认为1)多元RNN生成因子单元中各单因子仍然有较好的选股能力且各单因子之间相关性较低,说明多元RNN挖掘因子能力较高;2)我们分钟特征数据集并没有完全表示分钟k线数据包含信息,分钟线特征有待进一步挖掘;3)我们level2特征数据集所包含的信息与日频及分钟特征数据集重叠度更低,进一步研究level2特征将会给整个模型带来更多增量。 风险提示 ⚫ 量化模型基于历史数据分析,未来存在失效风险,建议投资者紧密跟踪模型表现。 ⚫ 极端市场环境可能对模型效果造成剧烈冲击,导致收益亏损。 报告发布日期 2023年06月06日 证券分析师 杨怡玲 yangyiling@orientsec.com.cn 执业证书编号:S0860523040002 联系人 陶文启 taowenqi@orientsec.com.cn 多模型学习量价时序特征:——因子选股系列之八十三 2022-06-12 周频量价指增模型:——因子选股系列之八十一 2022-03-28 基于循环神经网络的多频率因子挖掘 ——因子选股系列之九十一 金融工程 | 专题报告 —— 基于循环神经网络的多频率因子挖掘 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 2 目 录 引言 ............................................................................................................... 5 一、基于机器学习的AI量价模型介绍 ............................................................ 5 1.1 一元以及多元RNN模型概述 ........................................................................................ 6 1.2 模型训练与数据说明 ..................................................................................................... 8 二、模型的参数设定 .................................................................................... 10 2.1 不同学习率(learning rate)的影响 ........................................................................... 10 2.2 不同丢弃率(dropout rate)的影响 ............................................................................ 11 2.3 不同正交惩罚参数的影响 ........................................................................................... 11 2.4多元RNN生成因子个数的影响 .................................................................................. 12 三、模型的因子分析结果 ............................................................................. 13 3.1 多元RNN生成因子单元中单因子的表现 .................................................................... 13 3.2 RNN在各数据集上生成因子的表现 ............................................................................ 14 3.3 RNN等权合成因子的表现 .......................................................................................... 16 3.4 等权合成因子与量价因子的相关性分析 ...................................................................... 18 四、合成因子指数增强组合表现 ................................................................... 19 4.1增强组合构建说明 ...................................................................................................... 19 4.2沪深300组合增强 ...................................................................................................... 19 4.3中证500组合增强 ...................................................................................................... 21 4.4中证1000组合增强 .................................................................................................... 22 五、结论 ...................................................................................................... 23 风险提示 ...................................................................................................... 24 金融工程 | 专题报告 —— 基于循环神经网络的多频率因子挖掘 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 3 图表目录 图 1:AI量价模型框架 ................................................................................................................. 6 图2:RNN模型结构 .................................................................................................................... 7 图3:一元RNN的NN层结构示意图 ........................................................................................... 7 图4:多元RNN的NN层结构示意图 ........................................................................................... 7 图 5:模型训练示意图 .................................................................................................................. 9 图6:不同学习率训练集上损失函数变化情况 ............................................................................ 10 图7:不同学习率验证集上RankIC变化情况 ............................................................................. 10 图8:不同丢弃率训练集上损失函数变化情况 ............................................................................ 11 图9:不同丢弃率验证集上RankIC变化情况 ............................................................................. 11 图10:生成不同因子数验证集上RankIC变化情况 .................................................................... 12 图11:生成不同因子数验证集上因子平均相关系数变化情况 ..................................................... 12 图12:数据集day上因子单元RankIC分布 ..............................