AI智能总结
报告发布日期 DFQ-FactorVAE-pro:加入特征选择与环境变量模块的FactorVAE模型 ——因子选股系列之一一一 杨怡玲yangyiling@orientsec.com.cn执业证书编号:S0860523040002刘静涵021-63325888*3211liujinghan@orientsec.com.cn执业证书编号:S0860520080003香港证监会牌照:BSX840 研究结论 DFQ-FactorVAE模型回顾 ⚫在前期报告中,我们给出了DFQ-FactorVAE模型。模型在传统的端到端神经网络基础上,融合了变分自编码器与概率动态因子模型的思想,创新性地提出了“先验-后验”学习方法,建立股票收益率预测模型,学习输入特征和标签之间的关系。 ⚫FactorVAE模型架构拓展潜力较大,模型所得选股因子的稳定性、在沪深300股票池中的多头表现十分突出。本次我们对原模型进行了多方面的升级优化。 DFQ-FactorVAE-pro模型说明 ABCM:基于神经网络的alpha因子和beta因子协同挖掘模型:——因子选股系列之一一〇2024-12-03相对定价类基本面因子挖掘:——因子选股系列之一〇九2024-10-11KD-Ensemble:基于知识蒸馏的alpha因子挖掘模型:——因子选股系列之一〇八2024-08-19DFQ-XGB:基于树模型的alpha预测方案:——因子选股系列之一〇七2024-08-15基于风险注意力的因子挖掘模型:——因子选股系列之一〇六2024-05-29非线性市值风控全攻略:——因子选股系列之一〇五2024-05-27融合基本面信息的ASTGNN因子挖掘模型:——因子选股系列之一〇四2024-05-27DFQ-FactorVAE:融合变分自编码器和概率动态因子模型的alpha预测方案:——因子选股系列之一〇三2024-05-14基本面因子的重构:——因子选股系列之一〇二2024-03-21自适应时空图网络周频alpha模型:——因子选股系列之一〇一2024-02-28DFQ-HIST:添加图信息的选股因子挖掘系统:——因子选股系列之一百2024-02-07 ⚫金融数据中普遍存在较高的噪声和冗余,因此,特征选择在模型开发中至关重要。特征选择的目的是减少无关或冗余的特征,提升模型的训练效率和预测准确性,同时避免过拟合。因此我们在FactorVAE模型中添加特征选择模块,引入特征选择器和特征重构器,由网络实现自动特征选择,同时保证筛选后特征信息的完整性。 ⚫端到端神经网络模型的输入一般是股票特征,通常忽略了市场整体信息的作用,但实际股票收益也会受到当时所处的市场环境的影响。因此我们重构了FactorVAE模型,在训练阶段加入日期环境变量特征来协同对股票收益定价,而在预测时摒弃环境变量的部分,以此提升模型的收益预测泛化能力。 ⚫DFQ-FactorVAE-pro模型,以DFQ-FactorVAE模型为基础,添加特征选择模块,添加日期环境变量,使用协同训练方式进行训练。并在特征提取器处理、样本外预测方式、输入标签数据处理方式上进行了多方面的改进。 DFQ-FactorVAE-pro模型效果 ⚫在中证全指股票池中,因子多头表现优异,多头超额收益夏普和最大回撤均为各模型中最优,分组单调性较好。测试集上IC达到12.09%,RANKIC达到15.08%,RANKICIR达到1.24。20分组多头年化超额收益达到29.77%,多头超额收益夏普比3.48,多头日度超额收益最大回撤5.35%。 ⚫在沪深300和中证500股票池中,因子表现十分优异,各项指标基本均为各模型中最优,分组单调性较好。 ⚫因子进行了行业和市值中性化后表现依然优异,模型受行业市值风格影响较小。原始因子20分组多头年化超额收益29.77%,中性化仅降低4%。 ⚫多头组偏向小市值、低波动、低流动性、低估值、强反转、低成长。与tra、hist等神经网络模型相比,在市值上的负暴露更小,在beta风格上基本无暴露,在低估值上的正暴露更大,在非线性市值上的负暴露更小。 指数增强组合表现 ⚫DFQ-FactorVAE-pro模型所得到的合成因子在大盘指增组合中表现十分突出。 ⚫沪深300指增:2020年以来信息比2.23,年化对冲收益12.32%,跟踪误差5.28%,2024年超额收益为5.15%。⚫中证500指增:2020年以来信息比1.98,年化对冲收益12.98%,跟踪误差6.27%,2024年超额收益为8.5%。⚫中证A500指增:2020年以来信息比1.98,年化对冲收益12.97%,跟踪误差6.28%,2024年超额收益为4.31%。 风险提示 1.量化模型失效风险。2.极端市场环境对模型的影响。 目录 一、DFQ-FactorVAE模型回顾.......................................................................7 1.1 FactorVAE模型架构.....................................................................................................71.1.1变分自编码器71.1.2概率动态因子模型71.1.3 “先验-后验”学习方法81.2 FactorVAE模型训练和预测过程...................................................................................91.2.1训练过程91.2.2预测过程91.3 DFQ-FactorVAE模型问题..........................................................................................10 二、特征选择...............................................................................................11 2.1特征选择方法.............................................................................................................112.2特征选择模块.............................................................................................................11 2.2.1特征选择器112.2.2特征重构器122.2.3重构损失12 2.3.1添加特征选择模块的效果132.3.2添加重构损失的效果132.3.3特征保留情况13 三、环境变量...............................................................................................14 3.1环境变量定义.............................................................................................................143.2环境变量引入方法......................................................................................................143.2.1直接作为特征加入143.2.2注意力机制融合143.2.3协同训练153.3协同训练细节分析......................................................................................................16 四、DFQ-FactorVAE-pro模型说明..............................................................18 4.1模型结构....................................................................................................................184.2数据说明....................................................................................................................194.3模型输入特征.............................................................................................................19 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 4.4模型预测标签.............................................................................................................214.5模型参数....................................................................................................................214.6对抗过拟合.................................................................................................................214.7随机种子的影响..........................................................................................................224.8滚动训练....................................................................................................................23 五、DFQ-FactorVAE-pro模型结果..............................................................24 5.1训练情况....................................................................................................................245.2因子整体绩效表现......................................................................................................245.3因子分年绩效表现..............................................................................