GFlowNet 是一种新型的生成模型,用于自动化因子挖掘,其核心是将对象生成过程建模为有向无环图中的“水流”过程,训练目标满足流量守恒定律,最终实现生成对象的概率与其奖励成正比。与遗传规划和强化学习等自动化因子挖掘方法相比,GFlowNet 以“生成一群优秀的多元化公式”为核心目标,通过结构化学习实现“有策略的高效探索”,展现出优良的性质。
基于日频量价数据,构建 GFlowNet 因子挖掘系统,训练采用更稳定的 Trajectory Balance(TB) 目标,通过采样轨迹、计算奖励与 TB 损失并反向传播更新模型参数完成训练。状态表示包含动作历史序列的 Transformer 编码及 3 个手工状态特征,动作空间涵盖算子、窗口、特征三类操作,表达式以 ExprNode 树结构组织并进行简化以降低重复。
实验结果表明,GFlowNet 生成的因子相关性低、复杂度可控,具备良好可解释性与应用价值。基于原始 OHLCV 挖掘的单因子 IC 均值中位数为 4.54%,基于相对特征处理后的因子 IC 均值中位数达 6.17%,多头超额表现尚可。进一步将分钟数据降维为 40 个日内特征后,挖掘出的因子 IC 均值中位数达 5.83%,多头超额收益中位数达 7.43%,较日频因子显著改善。
将挖掘出的因子按照因子方向等权合成,基于相对特征挖掘出的因子收益情况比较一般,基于分钟频数据构造特征挖掘的因子 IC 和多空收益较好。风险暴露方面,单因子为对市值进行中性化后的因子值,合成之后,小市值和低波风格暴露依旧比较明显,基于相对特征挖掘的因子小市值暴露较低。多头暴露方面,中小市值的多头暴露比较明显,同时等权合成因子具有明显的价值风格暴露。
在前期工作《基于 Mamba2 模型的端到端选股框架》中,引入了新的 Mamba 模型进行深度学习建模,本报告在 GRU 和 Mamba 的基础上,添加 GFlowNet 挖掘出的 150 个因子,可以发现几乎所有指标都有一定的提升。