——量化研究系列报告之二十六 主要观点: 分析师:严佳炜执业证书号:S0010520070001邮箱:yanjw@hazq.com ⚫从“预测涨跌”到“管理仓位” 择时的核心并不只是判断市场下一阶段涨跌,而是决定在当前环境下应该配置多少仓位。传统监督学习更擅长做收益预测或涨跌分类,但真实投资中的仓位调整具有路径依赖,需要同时考虑多方面因素。因此,本文将仓位管理重新定义为一个固定调仓周期下的动态决策问题,目标是学习一套能够随市场状态变化而调整的仓位管理策略。 ⚫用PPO构建端到端仓位决策框架 本文采用强化学习中的PPO框架,将仓位管理拆解为“状态—动作—奖励—策略”的闭环过程。模型每隔5个交易日观察市场状态,并基于当前仓位选择加仓、减仓或维持不变等离散动作;随后根据未来持有期的收益、风险和交易成本反馈更新策略。同时,模型通过成分股特征、指数特征和跨资产特征共同刻画市场环境,并采用端到端训练方式,使特征学习直接服务于最终仓位决策目标。 1.《高弹性Alpha的量化掘金:从盲区识别到策略构建——量化研究系列报告之二十五》2025-12-13 ⚫调仓信号有效,仓位路径同样重要 2.《因材施“策”:量化视角下的因子舒适区探寻与应用——量化研究系列报告之二十四》2025-09-17 以中证全指为例,模型在2020-2026.3.31日期间展现出较好的仓位择时能力。三次不同随机种子训练取均值后,原始仓位变动信号具有较高调仓胜率和时序IC,说明加减仓方向本身包含预测信息。在“仓位延续”模式下,策略费后年化收益达到13.7%,明显高于基准的4.1%,并在下跌市场中体现出较强风险控制能力。进一步的仓位重置测试也表明,模型输出的原始“仓位变动”信号本身确实包含了较强的预测信息,只是在较强的仓位边界约束下,这部分信息会被部分压缩。 3.《让情绪“有结构”:大模型如何挖掘研报新价值——量化研究系列报告之二十三》2025-08-12 4.《临界相变:探寻传统因子中的非线性基因——量化研究系列报告之二十二》2025-06-13 5.《ETF资金流透视:被动化浪潮下行业与个股的演进——量化研究系列报告之二十一》2024-12-25 ⚫风险提示 量化模型基于历史数据,过去的回测业绩不代表未来;量化模型本身存在失效的风险。 6.《上市板块差异性视角下的选股策略优化与实战指南——量化研究系列报告之二十》2024-12-23 正文目录 1仓位管理问题的重新理解...........................................................................42强化学习视角下的仓位管理框架.....................................................................42.1序列决策视角下的仓位管理.....................................................................42.2为什么选PPO算法?...........................................................................52.3端到端:让特征学习为决策服务.................................................................73模型实现:从多源特征到仓位决策...................................................................73.1从三类信息刻画市场环境:状态空间设计.........................................................83.1.1基准指数特征:刻画市场整体状态.........................................................83.1.2相关资产特征:补充外部市场环境.........................................................83.1.3风险状态特征的补充说明:CDAP及跨资产确认..............................................93.1.4指数成分股特征:观察指数内部结构......................................................113.2状态表征过程:从多源特征到统一状态向量......................................................113.3离散仓位决策建模:动作空间设计..............................................................133.4什么算“好决策”:奖励函数设计...............................................................133.5训练流程:从数据拆分到策略更新..............................................................153.5.1时间序列切分..........................................................................153.5.2初始仓位设定:兼顾随机训练与仓位连续性................................................153.5.3PPO训练算法过程......................................................................163.5.4参数设置与训练控制....................................................................174调仓信号与策略表现验证..........................................................................184.1模型是否真的学到了规律......................................................................184.2调仓信号:加仓和减仓是否指向未来行情?......................................................194.3“仓位延续”模式下的策略表现................................................................214.4重置仓位:不同初始仓位下的适用性............................................................224.4.1在[𝟎,𝟏]约束下:原始信号有效,但重置会削弱策略表现....................................234.4.2在[−𝟏,𝟏]约束下:原始调仓信号的有效性得到更充分体现...................................234.4.3小结:仓位延续更优,但原始调仓信号本身也具备信息量....................................245总结............................................................................................246附录............................................................................................256.1PPO模型涉及的主要定义与公式................................................................256.2模型参数与基本设置..........................................................................27风险提示:........................................................................................28 图表目录 图表1固定调仓周期下的仓位管理流程图......................................................................................................................5图表2强化学习在本文中的对应关系..............................................................................................................................5图表3PPO整体架构.......................................................................................................................................................6图表4端到端训练架构示意图.........................................................................................................................................7图表5基准指数特征列表及释义.....................................................................................................................................8图表6相关资产特征列表及释义.....................................................................................................................................9图表7CDAP风险识别框架.............................................................................................................................................9图表8CDAP风险响应框架...........................................................................................................................................10图表9中证全指应用CDAP回撤框架后的减仓信号............................................................................................