行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

量化研究系列报告之二十六：强化学习视角下的仓位管理：框架构建与实证检验

2026-06-05 骆昱杉,严佳炜华安证券洪雁

核心观点

仓位管理的重要性：择时不仅在于预测市场涨跌，更在于根据当前市场环境决定仓位配置，即仓位管理。
传统方法的局限性：传统监督学习方法难以处理仓位管理的路径依赖和约束条件，无法有效评估长期风险收益表现。
强化学习的优势：强化学习通过“状态—动作—奖励—策略”的闭环过程，更贴近真实投资中的动态决策过程，适合解决仓位管理问题。
PPO框架的应用：本文采用PPO强化学习框架，将仓位管理问题建模为固定调仓周期下的动态决策过程，目标是学习一套适应市场状态变化的动态仓位管理策略。
端到端训练：通过端到端训练，特征学习直接服务于最终仓位决策目标，避免了传统方法中特征提取和策略学习目标不一致的问题。
多源特征刻画市场环境：模型通过基准指数特征、相关资产特征和指数成分股特征共同刻画市场环境，提升仓位决策对复杂市场环境的适应能力。
离散动作空间设计：模型输出离散的仓位变动动作（加仓、减仓或维持不变），更方便纳入交易约束，并更符合真实交易中的调仓逻辑。
综合型奖励函数：奖励函数综合考虑区间超额收益、区间风险、调仓方向改善以及仓位行为约束，引导模型在收益、风险和调仓有效性之间取得平衡。
“仓位延续”模式下的策略表现：策略费后年化收益达到13.7%，明显高于基准的4.1%，并在下跌市场中体现出较强风险控制能力。
“仓位重置”模式下的信号有效性：模型输出的原始“仓位变动”信号本身也具备较强的预测信息，只是在较强的仓位边界约束下，这部分信息会被部分压缩。

关键数据

调仓频率：周频调仓（每隔5个交易日进行一次决策）。
持有期：未来5个交易日。
调仓成本：千二。
策略费后年化收益： 13.7%。
基准年化收益： 4.1%。
最大回撤： -13.4%。
调仓信号胜率： 57%。
调仓信号时序IC： 17.5%。
未来5日大涨时加仓幅度： 10.4%。
未来5日大跌时减仓幅度：绝对仓位降至40.8%。

研究结论

PPO强化学习框架能够有效解决指数仓位管理问题，学习到一定的动态调仓规律。
模型输出的原始“仓位变动”信号本身也具备较强的预测信息，具有一定的参考价值。
“仓位延续”模式更贴近真实投资过程，策略表现更优。
“仓位重置”模式有助于更直接地检验模型原始调仓信号的有效性。

——量化研究系列报告之二十六主要观点：分析师：严佳炜执业证书号：S0010520070001邮箱：yanjw@hazq.com ⚫从“预测涨跌”到“管理仓位” 择时的核心并不只是判断市场下一阶段涨跌，而是决定在当前环境下应该配置多少仓位。传统监督学习更擅长做收益预测或涨跌分类，但真实投资中的仓位调整具有路径依赖，需要同时考虑多方面因素。因此，本文将仓位管理重新定义为一个固定调仓周期下的动态决策问题，目标是学习一套能够随市场状态变化而调整的仓位管理策略。 ⚫用PPO构建端到端仓位决策框架本文采用强化学习中的PPO框架，将仓位管理拆解为“状态—动作—奖励—策略”的闭环过程。模型每隔5个交易日观察市场状态，并基于当前仓位选择加仓、减仓或维持不变等离散动作；随后根据未来持有期的收益、风险和交易成本反馈更新策略。同时，模型通过成分股特征、指数特征和跨资产特征共同刻画市场环境，并采用端到端训练方式，使特征学习直接服务于最终仓位决策目标。 1.《高弹性Alpha的量化掘金：从盲区识别到策略构建——量化研究系列报告之二十五》2025-12-13 ⚫调仓信号有效，仓位路径同样重要 2.《因材施“策”：量化视角下的因子舒适区探寻与应用——量化研究系列报告之二十四》2025-09-17 以中证全指为例，模型在2020-2026.3.31日期间展现出较好的仓位择时能力。三次不同随机种子训练取均值后，原始仓位变动信号具有较高调仓胜率和时序IC，说明加减仓方向本身包含预测信息。在“仓位延续”模式下，策略费后年化收益达到13.7%，明显高于基准的4.1%，并在下跌市场中体现出较强风险控制能力。进一步的仓位重置测试也表明，模型输出的原始“仓位变动”信号本身确实包含了较强的预测信息，只是在较强的仓位边界约束下，这部分信息会被部分压缩。 3.《让情绪“有结构”：大模型如何挖掘研报新价值——量化研究系列报告之二十三》2025-08-12 4.《临界相变：探寻传统因子中的非线性基因——量化研究系列报告之二十二》2025-06-13 5.《ETF资金流透视：被动化浪潮下行业与个股的演进——量化研究系列报告之二十一》2024-12-25 ⚫风险提示量化模型基于历史数据，过去的回测业绩不代表未来；量化模型本身存在失效的风险。 6.《上市板块差异性视角下的选股策略优化与实战指南——量化研究系列报告之二十》2024-12-23 正文目录 1仓位管理问题的重新理解...........................................................................42强化学习视角下的仓位管理框架.....................................................................42.1序列决策视角下的仓位管理.....................................................................42.2为什么选PPO算法？...........................................................................52.3端到端：让特征学习为决策服务.................................................................73模型实现：从多源特征到仓位决策...................................................................73.1从三类信息刻画市场环境：状态空间设计.........................................................83.1.1基准指数特征：刻画市场整体状态.........................................................83.1.2相关资产特征：补充外部市场环境.........................................................83.1.3风险状态特征的补充说明：CDAP及跨资产确认..............................................93.1.4指数成分股特征：观察指数内部结构......................................................113.2状态表征过程：从多源特征到统一状态向量......................................................113.3离散仓位决策建模：动作空间设计..............................................................133.4什么算“好决策”：奖励函数设计...............................................................133.5训练流程：从数据拆分到策略更新..............................................................153.5.1时间序列切分..........................................................................153.5.2初始仓位设定：兼顾随机训练与仓位连续性................................................153.5.3PPO训练算法过程......................................................................163.5.4参数设置与训练控制....................................................................174调仓信号与策略表现验证..........................................................................184.1模型是否真的学到了规律......................................................................184.2调仓信号：加仓和减仓是否指向未来行情？......................................................194.3“仓位延续”模式下的策略表现................................................................214.4重置仓位：不同初始仓位下的适用性............................................................224.4.1在[𝟎,𝟏]约束下：原始信号有效，但重置会削弱策略表现....................................234.4.2在[−𝟏,𝟏]约束下：原始调仓信号的有效性得到更充分体现...................................234.4.3小结：仓位延续更优，但原始调仓信号本身也具备信息量....................................245总结............................................................................................246附录............................................................................................256.1PPO模型涉及的主要定义与公式................................................................256.2模型参数与基本设置..........................................................................27风险提示：........................................................................................28 图表目录图表1固定调仓周期下的仓位管理流程图......................................................................................................................5图表2强化学习在本文中的对应关系..............................................................................................................................5图表3PPO整体架构.......................................................................................................................................................6图表4端到端训练架构示意图.........................................................................................................................................7图表5基准指数特征列表及释义.....................................................................................................................................8图表6相关资产特征列表及释义.....................................................................................................................................9图表7CDAP风险识别框架.............................................................................................................................................9图表8CDAP风险响应框架...........................................................................................................................................10图表9中证全指应用CDAP回撤框架后的减仓信号............................................................................................

点击免费查看完整报告

量化研究系列报告之二十六：强化学习视角下的仓位管理：框架构建与实证检验

核心观点

关键数据

研究结论

你可能感兴趣

深度学习系列之二：绝对收益视角下的技术形态专家模型——选股择时与多资产轮动的统一框架

量化研究系列报告之二十四：因材施“策”：量化视角下的因子舒适区探寻与应用

“学海拾珠”系列之二百二十六：风险规避型强化学习模型在投资组合优化中的应用

因子与指数投资揭秘系列十六：铁矿石基本面量化及数据分析的研究框架

量化专题报告：“机器学习”选股模型系列研究（一）-量价指纹模型的构建与应用初探

量化分析报告：基本面量化系列研究之二十六-重点关注医药板块的困境反转机会

量化研究系列报告之二十一：ETF资金流透视：被动化浪潮下行业与个股的演进

量化研究系列报告之二十：上市板块差异性视角下的选股策略优化与实战指南

投资银行业与经纪业行业非银财富管理专题系列报告之五：P/AUMG视角下的资管估值研究

风格轮动量化研究系列之二：量化视角多维度构建月度和周度价值成长风格轮动策略