行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

机器学习应用系列：T2RL：端到端深度强化学习因子挖掘与组合优化框架

文化传媒 2026-04-01 西南证券苏吃吃

本文构建了一种名为T2RL的两阶段量化选股框架，旨在解决传统深度学习模型仅聚焦于收益率预测而难以实现组合全局优化的问题。T2RL框架将Transformer模型与强化学习算法有机结合，分为深度学习因子挖掘和强化学习组合权重优化两个阶段。

阶段一：深度学习因子挖掘

构建了融合Transformer与Actor-Critic机制的因子挖掘模型TFAC。
TFAC利用Transformer的自注意力机制提取量价时序数据中的深度表征，并通过AC框架引入方向准确奖励函数，使模型同样注重收益符号的正确性。
回测显示TFAC因子RankIC为0.1119，多头组合年化收益率33.61%，优于传统Transformer模型，且大多数年份跑赢基准。

阶段二：强化学习组合权重优化

构建了基于Transformer的Soft Actor-Critic组合优化模型TFSAC。
TFSAC首先根据TFAC因子筛选出排名前N的股票构成候选池，将动作空间压缩至可控维度；随后在连续动作空间中学习权重分配策略，以对数收益与方差构建奖励函数，平衡收益与风险。
回测显示，单日调仓下T2RL组合在全A范围内相对万得全A等权年化超额收益率50.36%，相对因子多头组合年化超额收益率31.06%；在2日及5日调仓频率下，组合年化收益率相对因子多头组合年化超额收益率分别为24.68%及6.03%。
不同调仓频次下策略均能稳定跑赢基准和TFAC等权组合，且在因子短期失效的时期，T2RL仍可跑赢全A指数及多头等权组合。

指数成分股组合测试

在沪深300成分股内，TFAC因子的RankIC为6.35%，Top10%多头组合相对沪深300年化超额8.55%。T2RLHS300组合在单日调仓下年化收益率42.64%，相对沪深300年化超额收益率30.87%，相对因子多头等权组合超额20.43%；在2日及5日调仓频率下，组合相对沪深300超额收益分别为25.74%和11.91%，且同样可以跑赢因子多头等权组合。
在中证1000成分股内，TFAC因子的RankIC为9.17%，Top10%多头组合相对中证1000年化超额11.85%。T2RLZZ1000组合在单日调仓下相对中证1000年化超额收益率48.19%，相对因子多头组合年化超额收益率32.21%。在2日及5日调仓频率下相对中证1000年化超额收益率分别为42.88%和27.35%。相对因子多头等权组合年化超额收益率分别为27.47%以及13.62%。

总结与展望

T2RL框架通过融合Transformer模型和强化学习算法，实现了从个股预测到投资组合构建的完整闭环，提升了策略的收益能力和风险控制水平。
未来可从探索更高效的状态表征学习方法、引入更复杂的逻辑关系、研究多时间尺度组合优化算法、将框架扩展至多市场、多资产类别配置场景等方向深入拓展。

摘要西南证券研究院分析师：祝晨宇执业证号：S1250525100004邮箱：zhcy@swsc.com.cn 阶段一：深度学习因子挖掘。第一阶段构建了融合Transformer与Actor-Critic机制的因子挖掘模型TFAC。该模型利用Transformer的自注意力机制提取量价时序数据中的深度表征，并通过AC框架引入方向准确奖励函数，使模型同样注重收益符号的正确性。回测显示TFAC因子RankIC为0.1119，多头组合年化收益率33.61%，优于传统Transformer模型，且大多数年份跑赢基准。相关研究 1.从眼到手：OpenClaw如何改变投资研究模式(2026-03-22)2.基于BLACK-LITTERMAN模型融合资产择时与风格轮动的资产配置研究(2026-02-26)3.多重周期嵌套下关注多主线与风格轮动再平衡——2026年度资产与基金组合配置策略(2026-01-09)4.ESG投资现状及量化多因子策略跟踪(2025-12-31)5.强化学习驱动下的解耦时序对比选股模型(2025-12-25)6.DAFAT：基于Transformer模型的自适应解决方案(2025-08-29)7.加权影线频率与K线形态因子(2025-08-28)8.可转债K线看跌信号与交易增强策略——量化方法在债券研究中的应用四(2025-06-09)9.基于历史K线形态的因子选股研究(2025-05-26)10.科技成长产业变革趋势下基金产品投资策略评价与优选(2025-05-26) 阶段二：强化学习组合权重优化。第二阶段构建了基于Transformer的SoftActor-Critic组合优化模型TFSAC。该模型首先根据TFAC因子筛选出排名前N的股票构成候选池，将动作空间压缩至可控维度；随后在连续动作空间中学习权重分配策略，以对数收益与方差构建奖励函数，平衡收益与风险。回测显示，单日调仓下T2RL组合在全A范围内相对万得全A等权年化超额收益率50.36%，相对因子多头组合年化超额收益率31.06%；在2日及5日调仓频率下，组合年化收益率相对因子多头组合年化超额收益率分别为24.68%及6.03%。不同调仓频次下策略均能稳定跑赢基准和TFAC等权组合，且在因子短期失效的时期，T2RL仍可跑赢全A指数及多头等权组合。 沪深300指数成分股组合：在沪深300成分股内，TFAC因子的RankIC为6.35%，Top10%多头组合相对沪深300年化超额8.55%。T2RLHS300组合在单日调仓下年化收益率42.64%，相对沪深300年化超额收益率30.87%，相对因子多头等权组合超额20.43%；在2日及5日调仓频率下，组合相对沪深300超额收益分别为25.74%和11.91%，且同样可以跑赢因子多头等权组合。分年度看，T2RLHS300在大多数年份均能跑赢基准和等权组合。 中证1000指数成分股组合：在中证1000成分股内，TFAC因子的RankIC为9.17%，Top10%多头组合相对中证1000年化超额11.85%。T2RLZZ1000组合在单日调仓下相对中证1000年化超额收益率48.19%，相对因子多头组合年化超额收益率32.21%。在2日及5日调仓频率下相对中证1000年化超额收益率分别为42.88%和27.35%。相对因子多头等权组合年化超额收益率分别为27.47%以及13.62%。 风险提示：报告对应的相关结论完全基于公开的历史数据进行算法构建、统计以及计算，文中部分数据有一定滞后性，同时也存在第三方数据提供不准确或者缺失等风险；策略效果仅针对于回测区间得出，文中提到的策略默认以开盘价进行权重调整，实际组合构建过程可能会有交易冲击，回测结果并不预示其未来表现，也不能保证未来的可持续性，亦不构成投资收益的保证或投资建议。目录 1组合构建新范式—深度学习与强化学习方法论融合.........................................................................................................................1 1.1 Transformer深度学习模型..................................................................................................................................................................21.2强化学习方法论概述............................................................................................................................................................................41.3常见强化学习模型简介.......................................................................................................................................................................7 2.1融合Transformer和Actor-Critic的模型构建...............................................................................................................................132.2融合Transformer和AC结构的因子挖掘模型回测....................................................................................................................15 3.1基于Transformer的SAC模型构建.................................................................................................................................................183.2基于Transformer的SAC强化学习组合优化策略回测..............................................................................................................21 4.1沪深300成分股组合测试.................................................................................................................................................................234.2中证1000成分股组合测试..............................................................................................................................................................26 图目录图1：T2RL端到端深度强化学习因子挖掘与组合优化框架.................................................................................................................1图2：TransFormer网络结构..........................................................................................................................................................................2图3：self-attention机制.................................................................................................................................................................................3图4：Multi-Head Self-Attention结构...........................................................................................................................................................4图5：强化学习中的马尔可夫决策过程.....................................................................................................................................................6图6：策略函数与价值函数...........................................................................................................................................................................7图7：结合学习对象与环境模型的强化学习算法分类..........................................................................................................................8图8：DDQN结构示意图.................................................................................................................................................................................9图9：Actor-Critic示意图..............................................................................................................................................................................11图10：SAC结构示意图.......................................................................................

点击免费查看完整报告

机器学习应用系列：T2RL：端到端深度强化学习因子挖掘与组合优化框架

你可能感兴趣

机器学习应用系列：量价时序特征挖掘模型在深度学习因子中的应用

因子选股系列之九十五：DFQ强化学习因子组合挖掘系统

市场微观结构系列（32）：深度学习赋能因子挖掘2.0：综合应用方案

组合优化赋能的机器学习：技术基础、应用场景与研究前沿

“学海拾珠”系列之二百二十六：风险规避型强化学习模型在投资组合优化中的应用

“学海拾珠”系列之一百四十九：基于强化学习和障碍函数的自适应风险管理在组合优化中的应用

金工专题报告 20260110：深度学习系列之一：AI重塑量化，基于大语言模型驱动的因子改进与情绪Alpha挖掘

Alpha掘金系列之十五：基于OpenFE框架的机器学习Level2高频特征挖掘方法

机器学习系列之一：挖掘资产定价中的隐式因子

FarmPredict机器学习框架：“财经新闻”挖掘与“股票策略”构建