您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[信达证券]:深度学习揭秘系列之一:基于量价与基本面结合的深度学习选股策略 - 发现报告

深度学习揭秘系列之一:基于量价与基本面结合的深度学习选股策略

2024-08-06于明明、周金铭、孙石信达证券丁***
深度学习揭秘系列之一:基于量价与基本面结合的深度学习选股策略

周金铭金融工程与金融产品分析师执业编号:S1500523050003联系电话:+86 18511558803邮箱:zhoujinming@cindasc.com 孙石金融工程与金融产品分析师执业编号:S1500523080010联系电话:+86 18817366228邮箱:sunshi@cindasc.com 证券研究报告 金工研究 2024年8月6日 ➢非线性模型更能挖掘量价因子的潜力。本文以开源Alpha158作为量价因子集,以及常见的估值、成长、质量、分析师一致预期等因子作为基本面因子集进行基础研究,采用线性模型Lasso和非线性模型MLP分别对量价与基本面因子进行合成。结果显示,非线性MLP模型相较于线性Lasso模型在量价因子上优势较明显,MLP模型的5日RankIC较Lasso模型提升1.82pct,费后多头超额收益提升9.42pct;20日RankIC较Lasso提升1.94pct,费后多头超额收益提升6.54pct。但非线性模型的优势在基本面因子上不突出,MLP模型长期表现与Lasso模型几乎持平。我们认为可能有几个原因:1)基本面因子之间结合的逻辑偏线性,而量价因子的非线性组合可能包含增量信息。2)部分基本面因子在财报真空期值不变,而标签Y却每天有变动。3)基本面因子数量相较于量价因子偏少。 周金铭金融工程与金融产品分析师执业编号:S1500523050003联系电话:+86 18511558803邮箱:zhoujinming@cindasc.com 孙石金融工程与金融产品分析师执业编号:S1500523080010联系电话:+86 18817366228邮箱:sunshi@cindasc.com ➢端到端的分支网络结合量价与基本面更具优势。前文我们用全连接神经网络分别结合了量价与基本面因子,但如何进一步将量价因子与基本面因子相结合是我们关心的另一方面。我们从基础的线性结合方式入手,尝试等权结合与ICIR加权结合前文神经网络拟合的量价与基本面因子,结果表明线性结合的因子较难战胜纯量价因子。5日纯量价因子的RankIC为12.39%,纯基本面因子RankIC为7.32%,等权因子RankIC为11.64%,ICIR加权因子RankIC为12.37%。因此我们更进一步,采用分支网络端到端计算量价与基本面的子因子合成,以及量价与基本面因子的权重生成。结果显示,5日分支网络合成因子RankIC为12.9%,相较于原始量价因子提升0.51pct,多头超额年化收益为10.85%,提升2.54pct,多空超额年化收益为132.21%,提升9.77pct。在20日的维度同样也优于其他合成方式。 ➢基于长短期收益预测的混频组合。5日因子对短期收益的预测效果更好,而20日因子对长期收益的预测能力更佳。因此我们以20日因子的多头组合为底仓,与5日因子排名靠前的股票取交集进行高频调整。与前25%的5日因子取交集,多头超额提升6.98pct,与前50%取交集提升4.79pct,与前75%取交集提升3.26pct。且交集股票范围越小,换手越高,因此这是一个以提高换手率获取更高收益的组合思路。另外,我们发现混频组合的最大回撤会更接近于底仓20日组合的最大回撤,因此提高了收益的同时最大回撤并无显著增加。 ➢基于低频量价、高频量价、基本面因子的中证1000指增策略。在20日调仓的换手下,限制100%指数成分股内选股,个股权重最大偏离0.5%,行业最大偏离3%,风格最大偏离0.01的约束条件,中证1000指增组合2015年至2024年5月31日年化收益为11.59%,年化信息比为3.56,单边年化换手率7.61。相对中证1000全收益的年化超额收益为13.17%,收益波动比为3.77,收益回撤比为5.06。今年超额收益为3.73%。 信达证券股份有限公司CINDA SECURITIES CO.,LTD北京市西城区宣武门西大街甲127金隅大厦B座邮编:100031 风险因素:结论基于历史数据,在市场环境转变时模型存在失效的风险。 目录 一、深度学习理论...............................................................................................................................5 1.1、神经元与激活函数............................................................................................................51.2、前馈神经网络拟合能力较强.............................................................................................61.3、前馈神经网络的反向传播算法.........................................................................................81.4、学习率调整算法Adam......................................................................................................91.5、丢弃法(Dropout).........................................................................................................10二、Lasso Vs MLP——分别用于量价与基本面因子..................................................................112.1、量价因子数据集..............................................................................................................112.2、基本面因子数据集..........................................................................................................132.3、数据预处理与网络参数设置...........................................................................................152.4、Lasso VsMLP——量价因子.......................................................................................172.5、Lasso Vs MLP——基本面因子...................................................................................192.6、全连接网络隐藏层神经元数量设置的敏感性分析与启示...........................................212.7、小结:非线性模型更能挖掘量价因子的潜力...............................................................23三、量价与基本面因子结合的初步尝试.........................................................................................263.1、线性方式——等权结合...............................................................................................273.2、线性方式——ICIR加权..............................................................................................283.3、非线性方式——输入层拼接量价与基本面...............................................................303.4、非线性方式——分支网络统筹子因子合成与大类因子加权...................................323.5、小结:端到端的分支网络结合量价与基本面更具优势...............................................34四、基于长短期收益预测的混频组合.............................................................................................38五、基于低频量价、高频量价、基本面因子的中证1000指增策略............................................41参考文献............................................................................................................................................43风险因素............................................................................................................................................44 表目录 表1:Alpha 158因子列表...............................................................................................................11表2:基本面因子列表.....................................................................................................................13表3:各模型全区间IC统计—量价因子预测未来5日与20日..............................................18表4:各模型全区间多头超额与多空超额收益风险特征指标—量价因子..............................18表5:各模型全区间IC统计—基本面因子预测未来5日与20日..........................................20表6:各模型全区间多头超额与多空超额收益风险特征指标—基本面因子..........................20表7:一层的全连接神经网络不同神经元数量下合成因子效果..................................................21表8:两层的全连接神经网络不同神经元数量下合成因子与Lasso因子的相关性...................21表9:两层的全连接神经网络不同神经元数量下合成因子的RankIC均值......