行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

“学海拾珠”系列之一百八十四：深度投资组合管理中的对比学习和奖励平滑

2024-04-10 骆昱杉,严佳炜华安证券邓轶韬

主要观点：分析师：严佳炜执业证书号：S0010520070001邮箱：yanjw@hazq.com ⚫对比学习与资产配对对比学习是一种通过比较样本之间的相似性或差异性来增强其创建强表征能力的方法，这种方法对投资组合十分有用，因为投资决策依赖于从数据中提取的表征。在金融市场中，当两种资产在预测未来价格趋势时可以互相帮助时，它们就被认为是正资产对，否则被视为负资产对。 ⚫多任务学习为了使智能体学习有效的策略，使用多个目标（也称为多任务学习）对主要任务是有益的，目标包括：最终投资组合价值、平滑奖励目标和对比学习目标。总目标中将根据投资组合价值自适应调整权重，以能防止智能体过度依赖噪声奖励，具体来说，当智能体收益较低或为负时，平滑奖励权重较高，反之权重较低。 1.《基金业绩基准之外的共同持股意味着什么？——“学海拾珠”系列之一百八十三》 ⚫将深度强化学习应用于投资组合构建 2.《基于网络和机器学习的因子、资产和混合配置——“学海拾珠”系列之一百八十二》通过实证分析，本文展示了所提方法在美国股市与加密货币市场中的有效性。消融实验结果表明，对比学习与奖励平滑都产生了积极影响，且两者的组合表现最好。 3.《收益率、股息增长率和回报可预测性——“学海拾珠”系列之一百八十一》 ⚫文献来源核心内容摘选自Yun-Hsuan Lien, Yuan-Kui Li, Yu-Shuen Wang在会议IJCAI-2023上录用的文章《Contrastive learning and rewardsmoothing for deep portfolio management》 4.《基金投资者能否从波动率管理中获益？——“学海拾珠”系列之一百八十》 5.《如何使用强化学习优化动态资产配置？——“学海拾珠”系列之一百七十九》 ⚫风险提示文献结论基于历史数据与海外文献进行总结；不构成任何投资建议。 6.《高成交量回报溢价与经济基本面——“学海拾珠”系列之一百七十八》 7.《基金经理技能之卖出能力的重要性——“学海拾珠”系列之一百七十七》 8.《美元beta与股票回报——“学海拾珠”系列之一百七十六》正文目录 1探索利用对比学习提高DRL的泛化能力.......................................................................................................................................41.1引言................................................................................................................................................................................................51.2文献综述........................................................................................................................................................................................52模型介绍：对比学习、奖励平滑与策略梯度...............................................................................................................................62.1MDP背景下的投资组合管理过程............................................................................................................................................62.2对比学习的基本思想...................................................................................................................................................................72.2.1通过预测进行正对匹配............................................................................................................................................................................82.3奖励平滑........................................................................................................................................................................................92.4确定性策略梯度...........................................................................................................................................................................92.5模型的实现细节.........................................................................................................................................................................103模型有效性评估................................................................................................................................................................................113.1数据与实验设置.........................................................................................................................................................................113.2消融实验的结果.........................................................................................................................................................................123.3模型结果与局限性.....................................................................................................................................................................144总结.....................................................................................................................................................................................................14风险提示：.............................................................................................................................................................................................15 图表目录图表1文章框架...........................................................................................................................................................................................................4图表2对比学习的基本思想....................................................................................................................................................................................8图表3网络架构图....................................................................................................................................................................................................10图表4美国股市上不同策略的投资组合价值、夏普比率和最大回撤..................................................................................................12图表5加密货币市场上不同策略的投资组合价值、夏普比率和最大回撤.........................................................................................12图表6不同方法在美国股市(上)和加密货币市场(下)实现的平均投资组合价值..............................................................................13图表7投资组合价值和夏普比率的四分位数均值与95%置信区间......................................................................................................14图表8传统策略方法的投资组合价值、夏普比率和最大回撤的统计指标..................

点击免费查看完整报告

“学海拾珠”系列之一百八十四：深度投资组合管理中的对比学习和奖励平滑

你可能感兴趣

“学海拾珠”系列之一百四十九：基于强化学习和障碍函数的自适应风险管理在组合优化中的应用

“学海拾珠”系列之二百三十：“知识”嵌入型深度强化学习在多元资产配置中的应用

“学海拾珠”系列之二百二十六：风险规避型强化学习模型在投资组合优化中的应用

“学海拾珠”系列之一百三十六：基于堆叠自编码器和长短期记忆网络的金融时间序列深度学习框架

“学海拾珠”系列之二百二十七：使用深度强化学习解决高维多期环境下的组合配置

“学海拾珠”系列之二百七十：解码共同基金业绩：基于深度学习的动态收益模式

“学海拾珠”系列之二百七十二：自适应市场状态的强化学习在资产配置中的应用

学海拾珠系列之二百六十七：多因子视角下的波动率管理组合

“学海拾珠”系列之一百八十二：基于网络和机器学习的因子、资产和混合配置

“学海拾珠”系列之二百五十六：重审股票投资组合中的持股数量