行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

“学海拾珠”系列之二百三十：“知识”嵌入型深度强化学习在多元资产配置中的应用

2025-04-02 严佳炜,钱静闲华安证券肖峰

主要观点：本篇研报探讨了“知识”嵌入型深度强化学习在多元资产配置中的应用。研究提出了一种新颖的方法，旨在最大化长期风险调整后的投资回报，同时保持模型输出的可解释性。该方法采用成熟的基于规则的策略，通过模仿学习生成神经网络模拟模型，从而传递专家知识。这些“导师”模型随后通过结合执行-评估模型（Soft Actor-Critic, SAC）和深度确定性策略梯度（Deep Deterministic Policy Gradient, DDPG）的混合强化学习算法进行增强，目标是创建出表现优于其导师的“学生”模型。

关键数据：研究采用涵盖股票、债券、美国国债、大宗商品及其杠杆等价物等广泛的资产类别，在近40年的价格数据集上进行模拟。实证结果显示，新模型的测试集中，夏普比率提升了高达39.70%，索提诺比率提升了高达47.07%。

研究结论：将成熟策略与先进强化学习相结合，在资产管理领域具有巨大潜力。该方法显著提升了既有规则型模型的表现，特别是在复杂模型（如允许杠杆操作并采用Halloween策略的模型）中。研究结果表明，该方法在提供长期稳健风险调整后收益方面具有能力，并适用于多样化的金融工具。

风险提示：文献结论基于历史数据与海外文献进行总结；不构成任何投资建议。

主要观点：执业证书号：S0010520070001邮箱：yanjw@hazq.com 分析师：钱静闲执业证书号：S0010522090002邮箱：qianjx@hazq.com ⚫导师-学生模型 “导师”模型基于Keller和Keuning提出的动态资产配置模型，其核心思想倡导一种更稳健且潜在收益更高的投资方法：采取与资产动量方向相反的交易策略。具体而言，当作为诊断工具的指示性资产显示出动量减弱迹象时，该策略建议从高风险资产（主要是股票类ETF）中撤资，转而增持安全资产（以债券/国债类ETF为主）。 1.《分解动量：被遗忘的成分HTP——“学海拾珠”系列之二百二十九》 “学生”模型继承自上述基于规则（rule-based）的资产配置模型，同时引入深度强化学习（RL）算法进行精细化调优，在DDPG框架基础上引入SAC特性（如双评估减少偏差、灵活调整决策-评估模型更新频率），形成混合扩展模型。 2.《基于树模型的有效前沿扩展——“学海拾珠”系列之二百二十八》 3.《使用深度强化学习解决高维多期环境下的组合配置——“学海拾珠”系列之二百二十七》 ⚫实证结果在一个近40年的价格数据集上，对美国股票、债券、美国国债、大宗商品及其杠杆等价物等广泛的资产类别进行模拟，实证验证了这一策略的有效性。新模型的测试集中，夏普比率提升了高达39.70%，索提诺比率提升了高达47.07%。这表明，将成熟策略与先进强化学习相结合，在资产管理领域的潜力。 4.《风险规避型强化学习模型在投资组合优化中的应用——“学海拾珠”系列之二百二十六》 5.《贝塔异象的波动性之谜——“学海拾珠”系列之二百二十五》 6.《ETF的资产配置与再平衡：样本协方差对比EWMA与GARCH模型——“学海拾珠”系列之二百二十四》 ⚫风险提示文献结论基于历史数据与海外文献进行总结；不构成任何投资建议。 7.《市场对投资者情绪的反应——“学海拾珠”系列之二百二十三》正文目录 1引言..........................................................................................................................................................................................42背景..........................................................................................................................................................................................52.1采用基于规则的资产配置模型..................................................................................................................................................52.2成熟的强化学习算法..................................................................................................................................................................52.3.1 SAC算法.............................................................................................................................................................................62.3.2 DPG和DDPG算法........................................................................................................................................................73方法论......................................................................................................................................................................................83.1问题定义.......................................................................................................................................................................................83.2数据采集与预处理.......................................................................................................................................................................83.3模型设计.......................................................................................................................................................................................93.3.1基于规则的模型................................................................................................................................................................93.3.2模仿学习............................................................................................................................................................................123.3.3导师-学生模型.................................................................................................................................................................123.3.4 DDPG-SAC混合模型...................................................................................................................................................133.3.5动作调整模块..................................................................................................................................................................133.3.6引导噪声注入网络.........................................................................................................................................................134实证结果................................................................................................................................................................................145结论........................................................................................................................................................................................19风险提示：.............................................................................................................................................................................................20 图表目录图表1文章框架...........................................................................................................................................................................................................4图表2强化学习框架中基于规则模型扩展的选择与训练架构可视化....................................................................................................9图表3扩展版本1：扩展的BBA再平衡策略..............................................................................................................................................10图表4扩展版本2：HALLOWEEN策略支持的扩展BBA..........................................................................................................................11图表5基于规则的资产配置扩展策略的业绩比较.........................................

点击免费查看完整报告

“学海拾珠”系列之二百三十：“知识”嵌入型深度强化学习在多元资产配置中的应用

你可能感兴趣

“学海拾珠”系列之二百七十二：自适应市场状态的强化学习在资产配置中的应用

“学海拾珠”系列之二百二十六：风险规避型强化学习模型在投资组合优化中的应用

“学海拾珠”系列之一百四十九：基于强化学习和障碍函数的自适应风险管理在组合优化中的应用

“学海拾珠”系列之一百七十九：如何使用强化学习优化动态资产配置？

“学海拾珠”系列之二百二十七：使用深度强化学习解决高维多期环境下的组合配置

“学海拾珠”系列之一百八十二：基于网络和机器学习的因子、资产和混合配置

“学海拾珠”系列之一百八十四：深度投资组合管理中的对比学习和奖励平滑

“学海拾珠”系列之一百六十九：资产增长率在资产定价中的作用

“学海拾珠”系列之一百三十六：基于堆叠自编码器和长短期记忆网络的金融时间序列深度学习框架

“学海拾珠”系列之二百七十：解码共同基金业绩：基于深度学习的动态收益模式