AI智能总结
量化专题报告 深度学习如何自适应市场状态以提升模型稳健性? 2025年01月27日 传统Transformer模型选股能力尚可,但对市场极端环境适应性差。将股 票日频量价数据及因子输入Transformer建立双周频股票收益预测模型,样本外输出的因子2019年以来RankIC8.6%,表现较为一般,在宽基指数内有所衰减。模型主要有2个问题,其一是依赖高度的风格暴露,这一问题可以通过加入风格暴露惩罚等方式解决;其二是因子表现通常与市场走势呈负相关,这是因为模型在不同市场环境下并未对编码器做修正,导致模型无法识别市场变 分析师叶尔乐 化,超额收益在市场突变时回撤明显。本报告利用3种方式从模型的输入与结 执业证书:S0100522110002 构等方面做出改进,稳定提升基础模型的选股表现: 1.通过MASTERTransformer纳入市场信息,对特征做自动选择。 邮箱:yeerle@mszq.com分析师韵天雨执业证书:S0100524120004 2.利用深度学习风险模型进一步刻画市场状态,输入市场偏好。 邮箱:yuntianyu@mszq.com 3.在模型的训练流程及损失函数等方面进行优化。 MASTER模型利用宽基指数量价代表市场状态,进行自动特征选择。 相关研究1.基金分析报告:基金季报2024Q4:聚焦 TongLi等人在2024年发表的论文中提出了一个名为MASTER(Market- 成长、AI先行-2025/01/23 GuidedStockTransformer)的新模型,旨在捕获瞬时和跨时间的股票相关 2.量化专题报告:资金流潮汐与“引力场” 性,并利用市场信息进行自动特征选择。我们对原论文的数据部分进行改进 因子构建-2025/01/21 后,对MASTER模型效果进行实证,保持其他设定不变的情况下,MASTER模型因子RankIC10.3%,年化多头超额收益26.0%,大幅打败基线Transformer模型。利用因子构建指数增强组合,在沪深300内年化超额收益15.9%,信息 3.量化周报:震仓特征加强支撑-2025/01/1 9 4.量化专题报告:威科夫技术分析的概率云 表达:从主观到量化-2025/01/14 比率1.1,中证500内年化超额收益16.5%,信息比率1.54,在中证1000内 5.量化周报:突破支撑线-2025/01/12 年化超额收益22.4%,信息比率1.62。 利用深度学习风险模型可进一步刻画市场状态。作为市场状态特征的大宽 基指数最近的量价本质上只刻画了市场最近的牛熊状态,然而市场每轮的牛熊背后驱动逻辑不同,市场偏好的风格也不同,所以我们需要理解市场最近的偏好以进一步刻画市场状态。而近年来,传统的Barra风格因子对于股票收益的解释度有所降低,已经不足以刻画市场风格,因此我们可以用深度学习风险模型输出更有解释力度的风险因子。深度风险因子相比barra风格因子对于市场收益的解释度在日度频率上可提升5%。利用近期上涨最好股票的深度学习隐风格来衡量近期的市场特征,可构建120个新特征代表市场状态。 在模型的训练流程及损失函数等方面继续改进,最终因子效果提升明显。 对于损失函数,我们利用加权MSE来放大多头端的误差以提高模型在多头端预测的准确率。在模型的训练流程上,我们可以利用在线的元增量学习对于模型进行定期更新。元增量学习旨在根据最近的数据分布对数据与模型进行适应,从而快速掌握近期市场规律,适应动态变化的市场。最终因子RankIC10.7%,年化ICIR6.0,年化多头超额收益34%,利用因子构建指数增强组合,在沪深300内年化超额收益21.1%,信息比率1.8,中证500内年化超额收益24.1%,信息比率2.0,在中证1000内年化超额收益29.3%,信息比率2.0,相比MASTER模型提升了稳定性与收益弹性,表现优异。 风险提示:量化模型基于历史数据,市场未来可能发生变化,策略模型有 失效可能。 目录 1传统深度学习模型的不足之处3 1.1从Transformer模型出发3 1.2Transformer模型的潜在问题6 2利用市场信息进行自动特征选择8 2.1MASTERTransformer8 2.2MASTER模型因子表现11 3模型的进一步改进14 3.1利用深度学习风险模型进一步刻画市场状态14 3.2损失函数与训练框架16 3.3最终模型因子表现18 4总结与思考22 5风险提示23 6附录24 插图目录25 表格目录25 1传统深度学习模型的不足之处 1.1从Transformer模型出发 以Transformer为主流的深度学习股票收益预测已经被广泛应用于因子构建中。通俗来说,如果把股票市场比作一本每天都在更新的“书”,这本书中包含了大量的股票量价及基本面信息,Transformer模型就像是一个优秀的读者,可以记住最近很长一段时间的信息,并且理解这些信息之间的复杂联系。比如一只股票的短期未来走势可能受到本身财务状况,最近的资金交易行为等因素影响,Transformer模型可以综合这些信息,帮助预测股票短期的未来收益。 Transformer模型的优势在于可以并行地处理股票最近所有时间步上的数据,并且选择性地关注某些重要信息,即注意力机制。Transformer的核心特点是全面依赖于注意力机制,并行学习序列的不同子空间,这种机制可以让模型从不同角度理解数据的同时,大大提高训练效率。除此之外,模型中还加入了位置编码,使模型能够利用序列的顺序;加入前馈网络有助于进一步转换注意力层的输出;加入残差连接帮助避免在深层网络中训练时的梯度消失问题。 图1:Transformer模型结构示意 资料来源:Vaswanietal.2017,民生证券研究院 利用量价数据输入Transformer模型,可进行股票收益排序的预测。数据 集为股票每日量价7个指标+民生金工因子库中的53个日频量价因子,因子定义及计算方式见附录。 开盘价(t-59)最高价(t-59)最低价(t-59)收盘价(t-成交量(t-59)均价(t-59)成交额(t-59)技术因子1(t-59)…技术因子53(t-59) 开盘价(t-58)最高价(t-58)最低价(t-58)收盘价(t-成交量(t-58)均价(t-58)成交额(t-58)技术因子1(t-58)…技术因子53(t-58) …… 开盘价(t-1)最高价(t-1)开盘价(t)最高价(t) … 最低价(t-1)最低价(t) … … 收盘价(t-成交量(t-1) 收盘价(t)成交量(t) …………… 均价(t-1)成交额(t-1)技术因子1(t-1)…技术因子53(t-1)均价(t)成交额(t)技术因子1(t)…技术因子53(t) 图2:Transformer预测股票收益排序 资料来源:民生证券研究院绘制 模型从2013年开始训练,2019年开始预测。即每次训练集+验证集为6年, 每年滚动训练一次。模型未对2019年以前的信号进行样本外预测,这主要是因 为在Transformer模型在2017年被提出,需要一定的普及时间,样本外从2019 年开始可以避免未来知识的影响。数据处理及训练设置细节如下: 特征X:过去40个交易日的高、开、低、收、成交额、成交量、VWAP+53个日频量价因子,维度为(n,40,60) 特征处理 特征处理:mad去极值后,对过去40日的量价指标除以最新一天的值,并对日频量价因子做标准化标签y:未来10个交易日vwap-to-vwap收益排序,T+1-T+11 模型结构 Transformer:input_size=60,hidden_size=64,nhead=16,num_layers=2Dropout:dropout概率为0.1Decoder:全连接层,输入维度64,输出维度1损失函数:-IC 训练参数 batch_size:daily_batch;epoch:100,早停:连续20轮验证集未产生最佳表现学习率:8e-5,优化器:Adam 图3:Transformer训练设置 资料来源:民生证券研究院绘制 基础Transformer模型训练得到的因子选股效果较为有限。自19年开始对样本外预测因子进行回测,按照每周最后一个交易日因子值在下周第一个交易日按照vwap价格调仓,因子周频平均RankIC为0.086,RankICIR0.73,年化后为5.24。分十组双周频回测下,年化多空收益56%,模型分组效果单调。从RankIC与多空收益的角度,相比于市面上的深度学习模型平均10%左右的RankIC,基础Transformer模型因子表现较为一般。 图4:Transformer因子RankIC表现图5:Transformer因子十分组表现 资料来源:wind,民生证券研究院资料来源:wind,民生证券研究院 Transformer基线模型选股效果有限的原因有三。第一,训练集+验证集6年的窗口可能不足以捕捉足量的历史规律,导致训练效果不够理想;第二,数据处理方面有进一步改善的空间,对输入数据做更精细的处理可以提升训练效果,这一点我们将在后文中做更细致的探讨。尽管基线模型有改进空间,但完全符合作为对照组的条件。后续实验中,我们将保留数据处理方式与训练数据长度等设定不变,以体现新模型的优势。 进一步回测因子在不同宽基指数中的表现,在沪深300中RankIC仅有4.4%,中证500中RankIC5.4%,中证1000中7.3%,在此3个宽基指数上的年化多空收益分别为15.9%,13.7%,43.7%。 图6:Transformer因子在宽基指数中的表现 资料来源:Wind,民生证券研究院绘制 1.2Transformer模型的潜在问题 Transformer等深度学习模型在选股中的潜在问题有二。第一,因子收益对于风格较为依赖。Transformer模型长期在市值和估值风格上暴露较高。这里我们取Transformer在全A上的多头组合做风格暴露分析,计算全A多头组持仓在风格因子上的均值相对全A风格均值的偏离。全局来看,Transformer模型对于风格暴露依赖程度较高,但在每一个风格上波动不大,除市值风格出现过2次明显切换外,深度学习偏好低流动性,低波动率,大盘及小盘等特点的股票,且在动量因子上波动较为明显。 图7:Transformer因子的风格偏好 资料来源:Wind,民生证券研究院绘制 对于深度学习过于依赖风格收益,以及风格暴露可能波动过大等问题,我们在之前的报告《深度学习如何控制策略风险?》中提出在损失函数中加入关于风格暴露的惩罚,一定程度上解决了此问题,在实际应用中,我们也可以控制因子的市值暴露以控制策略风险。 第二,因子收益走势与大盘本身的绝对收益呈负相关。考虑双边千三的费率,剔除新股,ST,涨停股票后,因子全A多头组合年化超额收益为16.4%,较为有限。我们对比因子多头超额收益曲线与市场(中证800)走势发现,二者相关性为-0.48,具有较强的负相关性。尤其是在市场强势上涨时,模型往往无法提供足够的超额收益跑赢市场,而在市场下跌时,模型往往比较抗跌。尽管有市值因素影响,但因子的两次最大回撤都发生在市场快速上涨时,已经可以说明问题。 图8:Transformer模型表现与中证800走势对比 资料来源:Wind,民生证券研究院绘制 导致这一现象的原因可以从2个角度进行分析。资金面上,市场有大量资金突然进场时,往往会违背机器学习学到的历史规律,导致模型无法快速适应市场。然而我们无法预测资金的行为,很难从指标检测上调整策略,预防回撤。从模型的角度上,传统的Transformer模型虽然可以利用多头注意力等机制考虑到股票间相关性的衡量,但在不同市场环境下并未对encoder做修正,导致模型无法识别市场变化,超额收益在市场突变时回撤明显。我们将在本篇报告中着重对于这一点进行改进。 2利用市场信息进行自动特征选择 2.1MASTERTransformer 由于传统T