您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华安证券]:“学海拾珠”系列之二百二十六:风险规避型强化学习模型在投资组合优化中的应用 - 发现报告

“学海拾珠”系列之二百二十六:风险规避型强化学习模型在投资组合优化中的应用

2025-03-05吴正宇、严佳炜华安证券G***
AI智能总结
查看更多
“学海拾珠”系列之二百二十六:风险规避型强化学习模型在投资组合优化中的应用

——“学海拾珠”系列之二百二十六 主要观点: 分析师:严佳炜执业证书号:S0010520070001邮箱:yanjw@hazq.com ⚫融合了贝叶斯神经网络和Dirichlet分布策略的强化学习框架 本文提出了一种创新的强化学习框架,该框架融合了贝叶斯神经网络和Dirichlet分布策略,旨在解决最优投资组合分配问题。在模型构建上,评价网络采用贝叶斯神经网络结构,通过引入KL散度正则化项,衡量后验分布与近似器之间的差异。Dirichlet策略可以解决深度确定性策略梯度模型(DDPG)在受限行动空间上的一些问题。在模型训练上,该框架通过多个回合(episodes)的训练,智能体与环境进行交互,学习并优化投资策略。同时,引入VaR作为风险度量,通过惩罚机制调整策略网络,确保在不确定环境中做出稳健决策。 1.《贝塔异象的波动性之谜——“学海拾珠”系列之二百二十五》 ⚫风险厌恶型强化学习模型在大多数时候表现更佳 将本文的强化学习模型表现与其他强化学习算法进行了比较,如近端策略优化(PPO)、信任区策略优化(TRPO)以及启发式金融投资组合选择理论。在相同的1000步(天)测试期间,本文的算法大多数时候都优于其他模型。此外,作者的算法相较于其他算法盈利能力更强。 2.《ETF的资产配置与再平衡:样本协方差对比EWMA与GARCH模型——学海拾珠系列之二百二十四》 3.《市场对投资者情绪的反应——学海拾珠系列之二百二十三》 核心内容摘选自Bayaraa Enkhsaikhan , Ohyun Jo于2024年4月在《ICT Express》上发表的论文《Risk-averse Reinforcement Learningfor PortfolioOptimization》。 4.《基于语境的财务信息解读——学海拾珠系列之二百二十二》 5.《跟踪误差的构成成分、中期交易与基金业绩——学海拾珠系列之二百二十一》 ⚫风险提示 文献结论基于历史数据与海外文献进行总结;不构成任何投资建议。 6.《基于混合转移分布的投资组合优化方法——学海拾珠系列之二百二十》 7.《模糊性会引发处置效应吗?——学海拾珠系列之二百一十九》 正文目录 1引言......................................................................................................................................................................................................42文献综述..............................................................................................................................................................................................53理论背景..............................................................................................................................................................................................53.1组合优化......................................................................................................................................................................................53.2DIRICHLET分布策略....................................................................................................................................................................63.3贝叶斯神经网络.........................................................................................................................................................................63.4不确定性估计.............................................................................................................................................................................73.5风险评估方法.............................................................................................................................................................................74方法论..................................................................................................................................................................................................74.1马尔科夫决策过程和强化学习设定........................................................................................................................................74.2模型训练方法.............................................................................................................................................................................95实证结果............................................................................................................................................................................................106结论....................................................................................................................................................................................................13风险提示:.............................................................................................................................................................................................13 图表目录 图表1文章框架...........................................................................................................................................................................................................4图表2ACTOR-CRITIC网络设置..............................................................................................................................................................................8图表3强化学习在训练过程中的平均奖励(纵轴)和训练轮次数量(横轴)...............................................................................11图表4训练和测试数据集.....................................................................................................................................................................................11图表5强化学习算法在不同测试集上的比较................................................................................................................................................12图表6投资组合的不确定性风险估计..............................................................................................................................................................12 1引言 资料来源:华安证券研究所整理 根据资产定价理论,投资者需要风险投资来获取利润。现代投资组合理论在“有效前沿”上构建最优投资组合,使风险和收益正相关。投资者的风险偏好和风险承受能力会限制其选择。评估风险和回报需要动态地评估未来结果。在没有明确的“最优投资组合”决策数据的情况下,监督学习具有挑战性。连续交易会产生成本,而近期强化学习的发展为无监督强化学习提供了有前景的成果。 金融模型假设因子是固定的,因此需要灵活的深度学习方法。深度强化学习能够解决连续决策问题,适用于动态投资组合优化。模型过拟合问题通过不确定性解决方案来解决。基于风险规避的强化学习模型纳入了风险约束,能够顺序学习最优决策策略。两种类型的不确定性,即偶然不确定性和认知不确定性,可能会影响决策。偶然不确定性源于市场预期,可通过贝叶斯