
叶尔乐S0100522110002韵天雨S0100122120002 什么是强化学习? StockFormer强化学习交易策略 模型实证与分析 04 什么是强化学习?01. 什么是强化学习? 1.1强化学习 •强化学习是一种机器学习方法,通过与环境的交互来训练智能体,使其在不同状态下采取能够最大化累积奖励的行动。其目标是通过试错学习(trial-and-error)找到最优策略,使得在长时间内累积的奖励最大化。在强化学习中,智能体(Agent)通过与环境的互动不断学习,通过奖励和惩罚来调整其策略,以便在长期内获得最大回报。 •在强化学习中,数据是在智能体与环境交互的过程中得到的。如果智能体不采取某个决策动作,那么该动作对应的数据就永远无法被观测到,所以当前智能体的训练数据来自之前智能体的决策结果。因此,智能体的策略不同,与环境交互所产生的数据分布就不同。强化学习概念 什么是强化学习? 1.1强化学习 •强化学习有很多类别,主要分为依赖模型的强化学习(如AlphaGo)与无模型强化学习;多数强化学习模型并无依赖模型,即不尝试理解或预测环境的动态(如状态转移概率和奖励结构),而是直接从与环境的交互中学习如何行动。最常见的Q学习及其衍生算法都属于无模型的强化学习。PPO策略梯度TRPOA2C/A3C 什么是强化学习? 1.2强化学习在金融中的应用 •在金融领域中,已有许多尝试使用强化学习(RL)方法进行交易决策【Théate and Ernst, 2021;Weng et al., 2020;Liang etal., 2018;Benhamou et al., 2020】。这些模型的主要区别在于输入状态的定义【Zhong et al., 2020;Liu et al., 2021;Wenget al., 2020】、奖励函数的设计【Liang et al., 2018;Hu and Lin, 2019】以及强化学习算法的选择【Benhamou et al., 2020;Suri et al., 2021;Huotari et al., 2020】。强化学习在金融中的应用 Data-Driven Market-Making via Model-Free Learning•用订单薄作为数据输入刻画市场状态•Q-learning实现高频实时决策 •输入状态:当前市场环境,如过去一段时间的股票量价,风格,基本面等。 •算法:使用Q学习、深度Q网络(DQN)、策略梯度方法(Policy Gradient)、深度确定性策略梯度(DDPG)、软演员-评论家(SAC)等强化学习算法来训练智能体,使其学会在不同市场状态下采取最优的交易动作。•奖励函数:交易后的账户净值变化,或者是每日投资组合的回报率,低回撤等。 Practical Deep Hierarchical Reinforcement Learning forTrade Execution引入分层强化学习算法,提高交易胜率 什么是强化学习? 1.3 SAC算法 •本篇研究中用到了SAC强化学习算法,SAC(Soft Actor-Critic)算法是一种基于actor-critic框架的深度强化学习方法,它采用了最大熵强化学习理论进行策略的优化。这种算法的特点是在学习过程中不仅考虑了最大化累积奖励,同时还增加了熵项来鼓励探索,从而使得策略在探索和利用之间取得更好的平衡。 •最大熵强化学习(maximum entropy RL)的思想就是除了要最大化累积奖励,还要使得策略更加随机。如此,强化学习的目标中就加入了一项熵的正则项,熵正则化增加了强化学习算法的探索程度,有助于加速后续的策略学习,并减少策略陷入较差的局部最优的可能性。下图展示了最大熵强化学习中,动作价值函数Q与策略函数𝜋𝜋的分布区别示意。 什么是强化学习? 1.3 SAC算法 •SAC算法中的S即Soft策略迭代改变了目标函数Q为soft贝尔曼方程(soft Q函数),并用soft策略评估可以收敛到策略𝜋𝜋的soft Q函数。我们为两个动作价值函数Q和一个策略函数𝜋𝜋(Policy Network)建模。基于Double DQN的思想,SAC使用两个Q网络,但每次用网络时会挑选一个Q值小的网络,从而缓解Q值过高估计的问题。 •SAC通过结合策略梯度方法和Q学习,持续地更新Actor(策略模型)和Critic(价值模型即V网络)以寻找最优策略。策略不仅会被训练以最大化预期奖励,同时增加的熵项鼓励策略探索更多可能的交易策略,增强模型的泛化能力和适应性。 StockFormer强化学习交易策略02. StockFormer强化学习交易策略 2.1利用Transformer构造市场状态 •本篇研究我们参考了Siyu Gao等人在2023年发表的论文StockFormer: Learning Hybrid Trading Machines withPredictive Coding,论文中作者采用SAC强化学习作为基础框架,并采用类Transformer模型的输出作为强化学习的输入状态 •Transformer模型已经被广泛应用于股票收益预测并输出因子,最初由Vaswani等人在2017年的论文《Attention is All You Need》中提出,其核心特点是全面依赖于注意力机制,并行学习序列的不同子空间,这种机制可以让模型从不同角度理解数据的同时,大大提高训练效率。 •除此之外,模型中还加入了位置编码,使模型能够利用序列的顺序;加入前馈网络有助于进一步转换注意力层的输出;加入残差连接帮助避免在深层网络中训练时的梯度消失问题。 StockFormer强化学习交易策略 2.1利用Transformer构造市场状态 •论文中,作者用到了3个Transformer网络来构造市场状态的输入,分别学习股票短期收益预测、股票中期收益预测与股票间相关性的潜在表示,这些表示共同形成了下一个训练阶段用于学习投资策略的组合状态空间。 •首先,将原始Transformer中的多头注意力块用一组前馈网络(FFNs)替代单个FFN,每个FFN分别对应多头注意力层输出中的一个头。这样可以保持从多个同时市场资产序列中学到的时间模式的多样性,增强特征解耦能力,能够在不增加模型参数的情况下更好地处理多样化的时间序列模式,提高模型的表达能力和鲁棒性。 StockFormer强化学习交易策略 2.1利用Transformer构造市场状态 •随后,作者利用第二个Transformer网络对股票量价的协方差矩阵和技术指标输入Transformer的编码器(Encoder中),捕捉不同股票之间的动态相关性,输出相关状态(Relational State)。随后将股票技术面指标与编码器的输出输入解码器,输出对于股票收益的预测状态(predictive state),我们有L个编码器层和M个解码器层。 StockFormer强化学习交易策略 2.2 StockFormer模型结构 •StockFormer通过预测编码从时间序列数据中提取强化学习的潜在状态,然后在组合状态空间中优化交易决策。前文中,我们从三个Transformer分支中获得三种类型的潜在表示:关系状态(𝑆𝑆𝑡𝑡𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑡𝑡)、中期预测状态(𝑆𝑆𝑡𝑡𝑟𝑟𝑙𝑙𝑙𝑙𝑙𝑙,5天收益预测)和短期预测状态(𝑆𝑆𝑡𝑡𝑠𝑠𝑠𝑙𝑙𝑟𝑟𝑡𝑡,1天收益预测),随后通过多头注意力层将𝑆𝑆𝑡𝑡𝑟𝑟𝑙𝑙𝑙𝑙𝑙𝑙与𝑆𝑆𝑡𝑡𝑠𝑠𝑠𝑙𝑙𝑟𝑟𝑡𝑡整合为未来状态(𝑆𝑆𝑡𝑡𝑓𝑓𝑓𝑓𝑡𝑡𝑓𝑓𝑟𝑟𝑟𝑟),最后与𝑆𝑆𝑡𝑡𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑡𝑡合并为SAC的状态输入St,输入SAC强化学习。 StockFormer强化学习交易策略 2.2 StockFormer模型结构 •在后续的SAC强化学习中,SAC将输出策略函数𝜋𝜋,决定当期的买入/卖出金额。SAC方法包括一个演员网络(𝜋𝜋𝜃𝜃)和两个评论家网络(𝑄𝑄𝜙𝜙1和𝑄𝑄𝜙𝜙2),演员网络通过对高斯分布采样生成动作(𝑎𝑎𝑡𝑡),评论家网络通过最小化贝尔曼残差来预测动作值Q函数,SAC算法的目标是最大化策略的熵和期望累积奖励。具体目标函数为: •其中,E𝜋𝜋𝜋𝜋表示通过策略𝜋𝜋𝜃𝜃生成的动作的期望值。 •r𝑡𝑡表示在时间步𝑡𝑡采取动作𝑎𝑎𝑡𝑡后得到的即时奖励,及股票收益。 表示在状态𝑠𝑠𝑡𝑡采取动作𝑎𝑎𝑡𝑡后,转移到下一个状态𝑠𝑠𝑡𝑡+1的期望值 •α表示控制策略熵的权重。高熵策略意味着更高的探索性,而低熵策略意味着更高的确定性 模型实证与分析03. 模型实证与分析 数据输入 3.1模型效果实证 •首先,我们将Transformer模型作为本篇研究中的基模型,与后续的Transformer+SAC强化学习算法形成对照。在Transformer模型中,我们与论文中一样,采用日频行情即部分技术因子作为输入。数据输入与模型细节如下: 模型参数细节 特征处理模型结构训练参数特征X:过去60个交易日个股的高、开、低、收、成交量、VWAP,及民生金工因子库中20个技术面因子,维度为(n, 60, 26),时序z-score标准化半年度训练一次,训练集+验证集为6年,在其中随机取20%天数作为验证集标签y:个股未来5日收益排序分位数GRU:input_size=26, hidden_size=64, num_layers=2, n_heads=10Dropout:dropout概率为0.1MLP:全连接层,输入维度64,输出维度1,激活函数为Tanh损失函数:-ICbatch_size:每天的所有中证1000成分股,epoch:50,早停:20,学习率:0.001,优化器:Adam 模型实证与分析 3.1模型效果实证 •我们训练模型,将模型输出的收益排序作为选股因子Transformer,模型在训练时40轮左右的验证集IC最高,损失函数变化趋势如下图。Transformer因子的周度RankIC均值10.3%,ICIR1.02。因模型训练只在中证1000成分股内,可能影响模型预测表现。 模型实证与分析 3.1模型效果实证 •我们用StockFormer因子构建指数增强策略。约束主动风格暴露在[-0.5, 0.5]之间,并约束行业暴露在[-0.1, 0.1]之间,个股偏离[-80%, 500%]。回测时,采用每周最后一个交易日的因子即预测值,每周第一个交易日调仓,取每周一vwap价格作为执行价,交易费用取双边千分之三,回测窗口为2019年至2024年5月31日。模型在中证1000内年化收益17.2%,超额收益13.8%,信息比率2.36,表现稳定。 模型实证与分析 3.1模型效果实证 •我们将Transformer输出的隐藏层直接作为SAC强化学习的输入,构成StockFormer强化学习策略,直接输出每周的持仓,初始资金设为10亿元,训练集2014-2018,后每年滚动训练一次,作为下一年交易决策的依据。策略净值如下图所示,年化收益32.7%,超额收益29.1%,信息比率2.57,超额收益波动率较大,但主要为上行波动,模型总体好于Transformer的指数增强组合。StockFormer模型策略表现 模型实证与分析 3.2风格分析 •观察强化学习策略的风格偏离,尽管5年内的平均风格偏离并不显著,但是大多数风格偏离波动较大,体现了强化学习对于风格选择轮动快,持仓风格鲜明的特征。强化学习的风格偏离 总结与思考04. 总结与思考 •在本篇研究中,我们对强化