行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

Alpha掘金系列之二十二：基于GFlowNet的低相关性量价因子挖掘策略

2026-04-10 高智威国金证券李辰

GFlowNet 是一种新型的生成模型，用于自动化因子挖掘，其核心是将对象生成过程建模为有向无环图中的“水流”过程，训练目标满足流量守恒定律，最终实现生成对象的概率与其奖励成正比。与遗传规划和强化学习等自动化因子挖掘方法相比，GFlowNet 以“生成一群优秀的多元化公式”为核心目标，通过结构化学习实现“有策略的高效探索”，展现出优良的性质。

基于日频量价数据，构建 GFlowNet 因子挖掘系统，训练采用更稳定的 Trajectory Balance(TB) 目标，通过采样轨迹、计算奖励与 TB 损失并反向传播更新模型参数完成训练。状态表示包含动作历史序列的 Transformer 编码及 3 个手工状态特征，动作空间涵盖算子、窗口、特征三类操作，表达式以 ExprNode 树结构组织并进行简化以降低重复。

实验结果表明，GFlowNet 生成的因子相关性低、复杂度可控，具备良好可解释性与应用价值。基于原始 OHLCV 挖掘的单因子 IC 均值中位数为 4.54%，基于相对特征处理后的因子 IC 均值中位数达 6.17%，多头超额表现尚可。进一步将分钟数据降维为 40 个日内特征后，挖掘出的因子 IC 均值中位数达 5.83%，多头超额收益中位数达 7.43%，较日频因子显著改善。

将挖掘出的因子按照因子方向等权合成，基于相对特征挖掘出的因子收益情况比较一般，基于分钟频数据构造特征挖掘的因子 IC 和多空收益较好。风险暴露方面，单因子为对市值进行中性化后的因子值，合成之后，小市值和低波风格暴露依旧比较明显，基于相对特征挖掘的因子小市值暴露较低。多头暴露方面，中小市值的多头暴露比较明显，同时等权合成因子具有明显的价值风格暴露。

在前期工作《基于 Mamba2 模型的端到端选股框架》中，引入了新的 Mamba 模型进行深度学习建模，本报告在 GRU 和 Mamba 的基础上，添加 GFlowNet 挖掘出的 150 个因子，可以发现几乎所有指标都有一定的提升。

Alpha掘金系列之二十二证券研究报告金融工程组分析师：高智威（执业S1130522110003）gaozhiw＠gjzq.com.cn 基于GFlowNet的低相关性量价因子挖掘策略 GFlowNet（生成流网络）原理介绍因子挖掘一般指从行情、财务、另类数据里构造能解释或预测收益的特征（因子），再经检验、组合与风控后用于选股或择时；自动化因子挖掘则是在人工提出假设与写公式之外，用程序在大规模搜索空间里系统生成、变异、筛选因子，并与回测、稳健性检验流水线结合，减轻“拍脑袋”与重复劳动。 GFlowNet是由Yoshua Bengio团队于2023年提出的新型生成模型，其核心是将对象生成过程建模为有向无环图中的“水流”过程，训练目标满足流量守恒定律，最终实现生成对象的概率与其奖励成正比。不同于遗传规划、强化学习等自动化因子挖掘的代表方法，它以“生成一群优秀的多元化公式”为核心目标，通过结构化学习实现“有策略的高效探索”，展现出优良的性质。基于日频数据的因子挖掘与RL比较我们基于日频量价数据，构建GFlowNet因子挖掘系统，训练采用更稳定的TrajectoryBalance(TB)目标，通过采样轨迹、计算奖励与TB损失并反向传播更新模型参数完成训练。状态表示包含动作历史序列的Transformer编码及3个手工状态特征，动作空间涵盖算子、窗口、特征三类操作，表达式以ExprNode树结构组织并进行简化以降低重复。针对日频量价数据，我们给GFlowNet输入两套特征，第一套是原始OHLCV（后复权）数据，第二套是对原始OHLCV进行无量纲相对特征处理后的数据，奖励设定为市值中性化后的abs(IC)。将其与基于TransformerActor-Critic结构、PPO算法的强化学习（RL）系统对比，发现RL虽训练初期batch平均奖励上升更快，但存在明显模式崩溃，batch内因子相关性中位数升至1，而GFlowNet batch内相关性中位数不到0.04，多样性优势显著。以2018-2025年为因子检验区间，观察基于原始OHLCV挖掘单因子表现，其整体表现良好，IC均值的中位数达到4.54%，最大值达到8.56%，多头超额表现尚可，中位数为3.47%；基于相对特征挖掘的因子表现更优，IC均值中位数达6.17%，最大值也达到了9.40%，两类因子相关性均较低、复杂度可控，具备良好可解释性与应用价值。基于分钟频数据的因子挖掘对于分钟数据挖掘因子，我们采取简易处理方法：首先主要基于价格动量、波动、价位关系等40个指标，将日内分钟数据降为日频特征；后续复用日频挖掘框架，基于该40个特征进行搜索。基于分钟频构造特征挖掘的单因子表现优异，IC均值中位数达5.83%，最大值9.46%，多头超额收益中位数为7.43%，较日频挖掘因子显著提升，因子相关性与复杂度均维持在较低水平。将挖掘出的因子按照因子方向等权合成，基于相对特征挖掘出的因子收益情况比较一般，基于分钟频数据构造特征挖掘的因子IC和多空收益较好。风险暴露方面，单因子为对市值进行中性化后的因子值，合成之后，小市值和低波风格暴露依旧比较明显，基于相对特征挖掘的因子小市值暴露较低。多头暴露方面，中小市值的多头暴露比较明显，同时等权合成因子具有明显的价值风格暴露。对现有AI模型的提升与指增策略在前期工作《基于Mamba2模型的端到端选股框架》中，我们引入了新的Mamba模型进行深度学习建模，本报告在GRU和Mamba的基础上，添加GFlowNet挖掘出的150个因子，可以发现几乎所有指标都有一定的提升。风险提示 1、以上结果通过历史数据统计、建模和测算完成，在政策、市场环境发生变化时模型存在时效的风险； 2、策略通过一定的假设通过历史数据回测得到，当交易成本提高或其他条件改变时，可能导致策略收益下降甚至出现亏损。内容目录一、GFlowNet（生成流网络）原理介绍.............................................................41.1为什么需要GFlowNet？..................................................................41.2AlphaSAGE：GFlowNet结合RGCN与多维度奖励用于因子挖掘.................................41.3什么是GFlowNet（Generative Flow Networks，生成流网络）？..............................5二、基于日频数据的因子挖掘与RL比较............................................................72.1训练目标与过程.........................................................................72.2状态表示、表达式与算子设计.............................................................72.3特征、奖励设计与其它设定...............................................................82.4与PPO强化学习的对比：低相关性优势显著.................................................82.5日频数据GFlowNet因子挖掘效果.........................................................10三、基于分钟频数据的因子挖掘..................................................................123.1分钟频数据GFlowNet因子挖掘效果.......................................................123.2GFlowNet挖掘因子等权合成效果.........................................................14四、对现有AI模型的提升与指增策略.............................................................17总结..........................................................................................20风险提示......................................................................................20 图表目录图表1：GFlowNet vs强化学习(Reinforcement Learning, RL).....................................4图表2：GFlowNet vs遗传规划(Genetic Programming, GP)........................................4图表3：AlphaSAGE模型结构图...................................................................5图表4：GFlowNet基于DAG生成最终对象..........................................................5图表5：GFlowNet迭代构建对象的过程............................................................6图表6：因子挖掘算子设计体系..................................................................8图表7：原始OHLCV无量纲相对特征列表..........................................................8图表8：强化学习损失函数与batch平均reward....................................................9图表9：GFlowNet损失函数与batch平均reward...................................................9图表10：强化学习batch内相关性水平...........................................................9图表11：GFlowNet batch内相关性水平...........................................................9图表12：基于原始OHLCV挖掘因子IC均值等统计指标.............................................10图表13：基于原始OHLCV挖掘因子IC分布.......................................................10图表14：基于原始OHLCV挖掘因子ICIR分布.....................................................10图表15：基于原始OHLCV挖掘因子截面时序相关性统计指标........................................10 图表16：基于原始OHLCV挖掘因子截面相关性....................................................11图表17：基于原始OHLCV挖掘因子时序相关性....................................................11图表18：基于原始OHLCV挖掘因子举例..........................................................11图表19：基于原始OHLCV挖掘因子复杂度分布统计数据............................................11图表20：基于原始OHLCV挖掘因子长度分布......................................................12图表21：基于相对特征挖掘因子IC均值等统计指标...............................................12图表22：基于相对特征挖掘因子IC分布.........................................................12图表23：基于相对特征挖掘因子ICIR分布.......................................................12图表24：基于分钟量价数据构造的日频特征列表..................................................13图表25：基于分钟频构造特征挖掘因子IC均值等统计指标.........................................14图表26：基于分钟频构造特征挖掘因子IC分布...................................................14图表27：基于分钟

点击免费查看完整报告

Alpha掘金系列之二十二：基于GFlowNet的低相关性量价因子挖掘策略

你可能感兴趣

Alpha 掘金系列之二十一：基于LLM 的全天候财务逻辑因子挖掘框架

Alpha掘金系列之十五：基于OpenFE框架的机器学习Level2高频特征挖掘方法

因子选股系列之一一〇：ABCM：基于神经网络的alpha因子和beta因子协同挖掘模型

金工专题报告 20260110：深度学习系列之一：AI重塑量化，基于大语言模型驱动的因子改进与情绪Alpha挖掘

因子选股系列之一〇八：dd-Ensemble：基于知识蒸馏的alpha因子挖掘模型

Alpha掘金系列之四：基于逐笔成交数据的遗憾规避因子

Alpha掘金系列之六：弹性与投资者耐心——基于高频订单簿的斜率凸性因子

量化专题报告：多因子系列之二：Alpha因子高维度与非线性问题——基于Lasso的收益预测模型

Alpha 掘金系列之十八：基于 TimeMixer 改进的选股因子到 ETF 轮动策略

量化研究系列报告之二十五：高弹性Alpha的量化掘金：从盲区识别到策略构建