您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [西南证券]:机器学习应用系列:T2RL:端到端深度强化学习因子挖掘与组合优化框架 - 发现报告

机器学习应用系列:T2RL:端到端深度强化学习因子挖掘与组合优化框架

文化传媒 2026-04-01 西南证券 苏吃吃
报告封面

摘要 西 南证券研究院 分析师:祝晨宇执业证号:S1250525100004邮箱:zhcy@swsc.com.cn 阶段一:深度学习因子挖掘。第一阶段构建了融合Transformer与Actor-Critic机制的因子挖掘模型TFAC。该模型利用Transformer的自注意力机制提取量价时序数据中的深度表征,并通过AC框架引入方向准确奖励函数,使模型同样注重收益符号的正确性。回测显示TFAC因子RankIC为0.1119,多头组合年化收益率33.61%,优于传统Transformer模型,且大多数年份跑赢基准。 相 关研究 1.从眼到手:OpenClaw如何改变投资研究模式(2026-03-22)2.基于BLACK-LITTERMAN模型融合资产择时与风格轮动的资产配置研究(2026-02-26)3.多重周期嵌套下关注多主线与风格轮动再平衡——2026年度资产与基金组合配置策略(2026-01-09)4.ESG投资现状及量化多因子策略跟踪(2025-12-31)5.强化学习驱动下的解耦时序对比选股模型(2025-12-25)6.DAFAT:基于Transformer模型的自适应解决方案(2025-08-29)7.加权影线频率与K线形态因子(2025-08-28)8.可转债K线看跌信号与交易增强策略——量化方法在债券研究中的应用四(2025-06-09)9.基于历史K线形态的因子选股研究(2025-05-26)10.科技成长产业变革趋势下基金产品投资策略评价与优选(2025-05-26) 阶段二:强化学习组合权重优化。第二阶段构建了基于Transformer的SoftActor-Critic组合优化模型TFSAC。该模型首先根据TFAC因子筛选出排名前N的股票构成候选池,将动作空间压缩至可控维度;随后在连续动作空间中学习权重分配策略,以对数收益与方差构建奖励函数,平衡收益与风险。回测显示,单日调仓下T2RL组合在全A范围内相对万得全A等权年化超额收益率50.36%,相对因子多头组合年化超额收益率31.06%;在2日及5日调仓频率下,组合年化收益率相对因子多头组合年化超额收益率分别为24.68%及6.03%。不同调仓频次下策略均能稳定跑赢基准和TFAC等权组合,且在因子短期失效的时期,T2RL仍可跑赢全A指数及多头等权组合。 沪深300指数成分股组合:在沪深300成分股内,TFAC因子的RankIC为6.35%,Top10%多头组合相对沪深300年化超额8.55%。T2RLHS300组合在单日调仓下年化收益率42.64%,相对沪深300年化超额收益率30.87%,相对因子多头等权组合超额20.43%;在2日及5日调仓频率下,组合相对沪深300超额收益分别为25.74%和11.91%,且同样可以跑赢因子多头等权组合。分年度看,T2RLHS300在大多数年份均能跑赢基准和等权组合。 中证1000指数成分股组合:在中证1000成分股内,TFAC因子的RankIC为9.17%,Top10%多头组合相对中证1000年化超额11.85%。T2RLZZ1000组合在单日调仓下相对中证1000年化超额收益率48.19%,相对因子多头组合年化超额收益率32.21%。在2日及5日调仓频率下相对中证1000年化超额收益率分别为42.88%和27.35%。相对因子多头等权组合年化超额收益率分别为27.47%以及13.62%。 风险提示:报告对应的相关结论完全基于公开的历史数据进行算法构建、统计以及计算,文中部分数据有一定滞后性,同时也存在第三方数据提供不准确或者缺失等风险;策略效果仅针对于回测区间得出,文中提到的策略默认以开盘价进行权重调整,实际组合构建过程可能会有交易冲击,回测结果并不预示其未来表现,也不能保证未来的可持续性,亦不构成投资收益的保证或投资建议。 目录 1组合构建新范式—深度学习与强化学习方法论融合.........................................................................................................................1 1.1 Transformer深度学习模型..................................................................................................................................................................21.2强化学习方法论概述............................................................................................................................................................................41.3常见强化学习模型简介.......................................................................................................................................................................7 2.1融合Transformer和Actor-Critic的模型构建...............................................................................................................................132.2融合Transformer和AC结构的因子挖掘模型回测....................................................................................................................15 3.1基于Transformer的SAC模型构建.................................................................................................................................................183.2基于Transformer的SAC强化学习组合优化策略回测..............................................................................................................21 4.1沪深300成分股组合测试.................................................................................................................................................................234.2中证1000成分股组合测试..............................................................................................................................................................26 图目录 图1:T2RL端到端深度强化学习因子挖掘与组合优化框架.................................................................................................................1图2:TransFormer网络结构..........................................................................................................................................................................2图3:self-attention机制.................................................................................................................................................................................3图4:Multi-Head Self-Attention结构...........................................................................................................................................................4图5:强化学习中的马尔可夫决策过程.....................................................................................................................................................6图6:策略函数与价值函数...........................................................................................................................................................................7图7:结合学习对象与环境模型的强化学习算法分类..........................................................................................................................8图8:DDQN结构示意图.................................................................................................................................................................................9图9:Actor-Critic示意图..............................................................................................................................................................................11图10:SAC结构示意图.......................................................................................