您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [国金证券]:基于GFlowNet的低相关性量价因子挖掘策略 - 发现报告

基于GFlowNet的低相关性量价因子挖掘策略

2026-04-16 国金证券 阿丁
报告封面

金融工程组分析师:高智威(执业S1130522110003)gaozhiw@gjzq.com.cn 基于GFlowNet的低相关性量价因子挖掘策略 GFlowNet(生成流网络)原理介绍 因子挖掘一般指从行情、财务、另类数据里构造能解释或预测收益的特征(因子),再经检验、组合与风控后用于选股或择时;自动化因子挖掘则是在人工提出假设与写公式之外,用程序在大规模搜索空间里系统生成、变异、筛选因子,并与回测、稳健性检验流水线结合,减轻“拍脑袋”与重复劳动。 GFlowNet是由Yoshua Bengio团队于2023年提出的新型生成模型,其核心是将对象生成过程建模为有向无环图中的“水流”过程,训练目标满足流量守恒定律,最终实现生成对象的概率与其奖励成正比。不同于遗传规划、强化学习等自动化因子挖掘的代表方法,它以“生成一群优秀的多元化公式”为核心目标,通过结构化学习实现“有策略的高效探索”,展现出优良的性质。 基于日频数据的因子挖掘与RL比较 我们基于日频量价数据,构建GFlowNet因子挖掘系统,训练采用更稳定的TrajectoryBalance(TB)目标,通过采样轨迹、计算奖励与TB损失并反向传播更新模型参数完成训练。状态表示包含动作历史序列的Transformer编码及3个手工状态特征,动作空间涵盖算子、窗口、特征三类操作,表达式以ExprNode树结构组织并进行简化以降低重复。针对日频量价数据,我们给GFlowNet输入两套特征,第一套是原始OHLCV(后复权)数据,第二套是对原始OHLCV进行无量纲相对特征处理后的数据,奖励设定为市值中性化后的abs(IC)。 将其与基于TransformerActor-Critic结构、PPO算法的强化学习(RL)系统对比,发现RL虽训练初期batch平均奖励上升更快,但存在明显模式崩溃,batch内因子相关性中位数升至1,而GFlowNet batch内相关性中位数不到0.04,多样性优势显著。 以2018-2025年为因子检验区间,观察基于原始OHLCV挖掘单因子表现,其整体表现良好,IC均值的中位数达到4.54%,最大值达到8.56%,多头超额表现尚可,中位数为3.47%;基于相对特征挖掘的因子表现更优,IC均值中位数达6.17%,最大值也达到了9.40%,两类因子相关性均较低、复杂度可控,具备良好可解释性与应用价值。 基于分钟频数据的因子挖掘 对于分钟数据挖掘因子,我们采取简易处理方法:首先主要基于价格动量、波动、价位关系等40个指标,将日内分钟数据降为日频特征;后续复用日频挖掘框架,基于该40个特征进行搜索。 基于分钟频构造特征挖掘的单因子表现优异,IC均值中位数达5.83%,最大值9.46%,多头超额收益中位数为7.43%,较日频挖掘因子显著提升,因子相关性与复杂度均维持在较低水平。 将挖掘出的因子按照因子方向等权合成,基于相对特征挖掘出的因子收益情况比较一般,基于分钟频数据构造特征挖掘的因子IC和多空收益较好。风险暴露方面,单因子为对市值进行中性化后的因子值,合成之后,小市值和低波风格暴露依旧比较明显,基于相对特征挖掘的因子小市值暴露较低。多头暴露方面,中小市值的多头暴露比较明显,同时等权合成因子具有明显的价值风格暴露。 对现有AI模型的提升与指增策略 在前期工作《基于Mamba2模型的端到端选股框架》中,我们引入了新的Mamba模型进行深度学习建模,本报告在GRU和Mamba的基础上,添加GFlowNet挖掘出的150个因子,可以发现几乎所有指标都有一定的提升。 风险提示 1、以上结果通过历史数据统计、建模和测算完成,在政策、市场环境发生变化时模型存在时效的风险; 2、策略通过一定的假设通过历史数据回测得到,当交易成本提高或其他条件改变时,可能导致策略收益下降甚至出现亏损。 内容目录 一、GFlowNet(生成流网络)原理介绍.............................................................41.1为什么需要GFlowNet?..................................................................41.2AlphaSAGE:GFlowNet结合RGCN与多维度奖励用于因子挖掘.................................41.3什么是GFlowNet(Generative Flow Networks,生成流网络)?..............................5二、基于日频数据的因子挖掘与RL比较............................................................72.1训练目标与过程.........................................................................72.2状态表示、表达式与算子设计.............................................................72.3特征、奖励设计与其它设定...............................................................82.4与PPO强化学习的对比:低相关性优势显著.................................................82.5日频数据GFlowNet因子挖掘效果.........................................................10三、基于分钟频数据的因子挖掘..................................................................123.1分钟频数据GFlowNet因子挖掘效果.......................................................123.2GFlowNet挖掘因子等权合成效果.........................................................14四、对现有AI模型的提升与指增策略.............................................................17总结..........................................................................................20风险提示......................................................................................20 图表目录 图表1:GFlowNet vs强化学习(Reinforcement Learning, RL).....................................4图表2:GFlowNet vs遗传规划(Genetic Programming, GP)........................................4图表3:AlphaSAGE模型结构图...................................................................5图表4:GFlowNet基于DAG生成最终对象..........................................................5图表5:GFlowNet迭代构建对象的过程............................................................6图表6:因子挖掘算子设计体系..................................................................8图表7:原始OHLCV无量纲相对特征列表..........................................................8图表8:强化学习损失函数与batch平均reward....................................................9图表9:GFlowNet损失函数与batch平均reward...................................................9图表10:强化学习batch内相关性水平...........................................................9图表11:GFlowNet batch内相关性水平...........................................................9图表12:基于原始OHLCV挖掘因子IC均值等统计指标.............................................10图表13:基于原始OHLCV挖掘因子IC分布.......................................................10图表14:基于原始OHLCV挖掘因子ICIR分布.....................................................10图表15:基于原始OHLCV挖掘因子截面时序相关性统计指标........................................10 图表16:基于原始OHLCV挖掘因子截面相关性....................................................11图表17:基于原始OHLCV挖掘因子时序相关性....................................................11图表18:基于原始OHLCV挖掘因子举例..........................................................11图表19:基于原始OHLCV挖掘因子复杂度分布统计数据............................................11图表20:基于原始OHLCV挖掘因子长度分布......................................................12图表21:基于相对特征挖掘因子IC均值等统计指标...............................................12图表22:基于相对特征挖掘因子IC分布.........................................................12图表23:基于相对特征挖掘因子ICIR分布.......................................................12图表24:基于分钟量价数据构造的日频特征列表..................................................13图表25:基于分钟频构造特征挖掘因子IC均值等统计指标.........................................14图表26:基于分钟频构造特征挖掘因子IC分布...................................................14图表27:基于分钟频构造特征挖掘因子ICIR分布........