AI智能总结
涵盖价量与基本面因子的多模型结合神经网络 周金铭金融工程与金融产品分析师执业编号:S1500523050003联系电话:+86 18511558803邮箱:zhoujinming@cindasc.com 证券研究报告 金工研究 2024年10月30日 周金铭金融工程与金融产品分析师执业编号:S1500523050003联系电话:+8618511558803邮箱:zhoujinming@cindasc.com ➢以量价因子原始值建模预测中性化收益,在因子IC与组合收益上有损,但模型能学习到市值与行业的波动。在预测中性化收益的场景下,本文对比了不同的输入三种方式。(1)以原始值为特征,原始收益率为标签,中性化模型预测值。(2)以中性化值为特征,中性化收益率为标签,直接输出预测值。(3)以中性化值为特征,中性化收益率为标签,再中性化模型预测值。综合对比发现,第一种方法的预测值RankIC与多头组合超额收益略低于第二种方式;但第一种方式的超额收益波动率与最大回撤每年均值优于第二种方式;第二种方式的RankIC与第三种方式相差不大。 ➢基本面因子存在中性化预处理的必要。直接将基本面因子原始值输入神经网络模型,我们发现预测原始收益的RankIC相对较低,预测中性化收益的RankIC也显著低于输入端经过中性化预处理的基本面因子。因为不同行业的基本面因子存在中枢的差距,因此我们认为基本面因子在输入神经网络前需要进行中性化处理。 ➢基本面因子的中性化收益预测能力能补充量价因子的原始收益预测能力。在预测原始收益的场景下,本文对比了量价因子原始值与基本面因子原始值非线性结合,和量价因子原始值与基本面因子中性化值非线性结合,两种方式的预测效果。对比发现,因为基本面因子原始值预测原始收益率效果相对较弱,因此相对纯量价因子组合的增强效果不明显,而中性化后的基本面因子能增强原始量价因子的绝对收益预测效果。 ➢将时序神经网络用于单日量价因子,而全连接神经网络用于窗口期量价因子,是预测效果,算力消耗与显存占用间较均衡的选择。本文通过参数遍历的方式,将量价因子Alpha158全部输入MLP的预测效果,同将量价因子全部输入RNN或者GRU模型的预测效果进行了对比,发现这种时序神经网络应用方式无法稳定战胜MLP,且对参数较敏感。因此本文采用将Alpha158中的单日因子用时序神经网络拟合后,与窗口期因子拼接,再一起经过MLP模型训练,发现这种应用方式稳定优于纯MLP模型,且能够总结一些隐藏单元参数和特征步长参数的经验设置方式。 ➢时序神经网络也可拟合原始行情数据。本文也将时序神经网络用于拟合原始高开低收均价成交额成交量等原始行情数据,行情合成因子2014年以来RankIC均值在9%左右,与Alpha158单日因子合成值的相关性为0.6。在隐藏单元数设置上,相较于人为加工过的单日选股因子,拟合原始行情数据的时序神经网络隐藏单元设置的更多一些,方能取得较理想的预测效果。 ➢低频量价+高频量价+基本面因子+行情的多模型组合。基于以上研究结论,打造了输入端覆盖低频价量、高频价量、基本面因子与行情数据,包含全连接与GRU神经网络的多模型组合。通过研究该网络的预测区间与调仓频率的关系,发现网络预测效果主要集中在调仓后的初期阶段,因此我们合成了5日因子与20日因子得到了混频因子。通过该因子构建的行业轮动组合年化多头超额11.36%,中证1000指增组合年化超额16.21%。 信达证券股份有限公司CINDA SECURITIES CO.,LTD北京市西城区宣武门西大街甲127号金隅大厦B座邮编:100031 风险因素:结论基于历史数据,在市场环境转变时模型存在失效的风险。 目录 深度学习揭秘系列之二:涵盖价量与基本面因子的多模型结合神经网络....................................5一、因子集、预处理与组合构建方式...............................................................................................61.1、量价因子数据集................................................................................................................61.2、基本面因子数据集............................................................................................................81.3、数据预处理与网络参数设置...........................................................................................101.4、训练集、验证集与测试集的数据处理...........................................................................101.5、全A选股组合回测参数与方式......................................................................................111.6、路径依赖与路径合并.......................................................................................................11二、3种中性化收益率建模方式对比..............................................................................................122.1、量价因子:以原始值建模IC与收益有损,但组合风险端更佳.................................132.2、基本面因子:中性化处理的必要性...............................................................................152.3、再谈量价与基本面结合 ...................................................................................................17三、时序神经网络的应用与参数探秘.............................................................................................203.1、MLP Vs RNN Vs GRU——量价因子.........................................................................203.1、RNN与GRU——行情数据........................................................................................24四、低频量价+高频量价+基本面因子+行情的多模型组合...........................................................284.1、四分支多模型神经网络 ...................................................................................................284.2、预测区间与调仓频率的关系...........................................................................................314.3、深度学习行业轮动组合 ...................................................................................................354.4、中证1000指增组合.........................................................................................................36风险因素............................................................................................................................................38 表目录 表1:Alpha 158因子列表.................................................................................................................6表2:基本面因子列表.......................................................................................................................8表3:输入与输出处理方式及对应编号.........................................................................................12表4:不同输入与输出处理方式下,量价因子预测值RankIC均值与ICIR..............................13表5:不同输入与输出处理方式下,量价因子组合多头超额收益与风险..................................14表6:不同输入与输出处理方式下,基本面因子预测值RankIC均值与ICIR..........................16表7:不同输入与输出处理方式下,基本面因子组合多头超额收益与风险..............................16表8:叠加基本面因子组合与纯量价组合的IC统计...................................................................19表9:叠加基本面因子组合与纯量价组合的多头超额绩效指标..................................................19表10:MLP模型不同神经元数量下量价因子RankIC均值........................................................20表11:MLP模型不同神经元数量下量价因子多头超额收益......................................................20表12:RNN与GRU不同参数设置下量价因子RankIC均值.....................................................21表13:RNN与GRU不同参数设置下量价因子多头超额收益....................................................21表14:RNN与GRU不同参数设置下单日量价因子RankIC均值...