您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国金证券]:Alpha 掘金系列之二十一:基于LLM 的全天候财务逻辑因子挖掘框架 - 发现报告

Alpha 掘金系列之二十一:基于LLM 的全天候财务逻辑因子挖掘框架

2025-12-27高智威国金证券王***
Alpha 掘金系列之二十一:基于LLM 的全天候财务逻辑因子挖掘框架

LLM因子挖掘框架设计与改进 本报告构建了一个7×24小时自动化运行的具备相关性控制、融合成熟因子启发、配备自适应反馈机制的即插即用模块化LLM因子挖掘框架。在先前研究基础上,框架进行了系统性优化:通过改进的MMR筛选机制自适应控制因子间的相关性,不仅关注截面相关性,还引入时序相关性评估,同时将Barra风险因子纳入相关性计算体系,从早期挖掘阶段就有效规避系统性风险暴露。借助成熟因子库的RAG启发方式,在因子生成过程中兼顾实用性与创造性。通过改进过程中的idea提取,在提示设计中引入显式反馈机制,使因子迭代路径更加清晰可控。此外,严格限定因子挖掘仅基于2010年至2019年共10年的历史数据进行分析与筛选,仅在因子入库阶段对2020年至2025年4月的样本外数据进行验证,有效避免信息泄露。同时在Prompt设计中新增量纲一致性约束机制,确保输出结果不仅数学形式正确,更具备合理的金融逻辑与可解释性。 日频量价与基本面因子具体设计 在新的7×24小时LLM因子挖掘框架设计中,引入了双层循环机制以优化因子挖掘流程。内层循环专注于对少量候选因子进行并行化挖掘与初步筛选,从中提取在训练期内表现相对优异的因子。外层循环则在此基础上,进一步对这些初选因子进行收益能力评估与相关性控制,确保其与已有因子库在风险暴露和收益来源上保持互补。考虑到基本面数据在频率、结构和经济含义上的特殊性,专门设计了一套适配该领域特性的运算符库,并对Prompt模板进行了针对性扩充与重构。基本面因子算子体系主要包含四个核心类别:一元算子、二元算子、截面滚动算子和价值因子算子。为确保因子表达式的正确性和可执行性,特别设计了专用的表达式修正器。修正器通过语法树解析与类型推断机制,能够自动识别并校正因子表达式中函数误用及数据结构不匹配等问题。其核心处理逻辑包括对一元、二元、截面滚动与价值因子四类运算符进行分类调度与参数校验,根据输入因子的类别自动注入相应截止日期字段以对齐时序,并通过模糊匹配技术提升因子名与运算符的容错识别能力,从而大幅提升因子生成的成功率和质量。LLM挖掘因子效果实践 从统计数据来看,LLM挖掘的因子表现优异。三个量价因子的IC均值分别达到-0.09、0.06和-0.11,风险调整后的IC分别为-1.04、0.73和-0.77,多头年化超额收益率分别为22.60%、23.91%和33.60%。多空净值曲线走势平稳上升,分组表现呈现明显的分层趋势,验证了因子的有效性。在基本面因子方面,同样筛选出表现优异的因子因子的多头年化超额收益率分别达到18.82%和4.36%,多空净值曲线表现良好。在改进机制验证方面,通过具体案例充分说明了RAG启发改进和反思改进机制的有效性。在RAG改进案例中,借鉴了成熟因子的构型,通过引入指标对比结构改进了原有因子,没有像遗传规划那样粗暴替换从而破坏原有因子的可解释性,而是融合了启发思想,体现了LLM的先进性。在反思改进案例中,原因子借助匹配的idea进行提升,改进后的因子IC均值从-0.63%提升到4.17%,多头年化超额收益率从4.24%提升到10.09%,效果显著。最终,对LLM挖掘的量价因子和基本面因子分别进行合成,量价因子合成后IC均值达到0.13,多头年化超额收益率17.40%;基本面因子合成后IC均值0.02,多头年化超额收益率8.96%。风险提示 1、以上结果通过历史数据统计、建模和测算完成,在政策、市场环境发生变化时模型存在时效的风险。 2、策略通过一定的假设通过历史数据回测得到,当交易成本提高或其他条件改变时,可能导致策略收益下降甚至出现亏损。 内容目录 一、LLM因子挖掘框架设计与改进.................................................................41.1LLM因子挖掘背景与框架设计..............................................................41.2LLM因子挖掘框架的改进..................................................................5二、日频量价与基本面因子具体设计...............................................................6三、LLM挖掘因子效果实践......................................................................11总结..........................................................................................16风险提示......................................................................................16 图表目录 图表1:LLM因子挖掘的必要性...................................................................4图表2:即插即用LLM因子挖掘初级框架图........................................................5图表3:7x24h LLM因子挖掘新框架...............................................................6图表4:基本面因子初始化Prompt................................................................7图表5:量价因子改进Prompt....................................................................7图表6:量价因子Idea提取Prompt...............................................................8图表7:基本面因子初始化Prompt................................................................8图表8:截面标准化算子示例....................................................................9图表9:基本面因子算子设计....................................................................9图表10:基本面因子表达式修正器..............................................................10图表11:多槽位生成框架......................................................................10图表12:LLM自动化挖掘量价因子举例...........................................................11图表13:LLM自动化挖掘量价因子统计数据.......................................................11图表14:LLM自动化挖掘量价因子多空净值曲线...................................................11图表15:LLM自动化挖掘量价因子分组超额收益率.................................................12图表16:LLM自动化挖掘基本面因子举例.........................................................12图表17:LLM自动化挖掘基本面因子统计数据.....................................................12图表18:LLM自动化挖掘基本面因子多空净值曲线.................................................13图表19:LLM自动化挖掘基本面因子分组超额收益率...............................................13图表20:LLM因子挖掘相对遗传规划的先进性.....................................................14图表21:LLM因子挖掘相对遗传规划的先进性.....................................................14图表22:因子改进表现统计数据................................................................14图表23:LLM挖掘量价因子合成统计数据.........................................................15 图表24:LLM挖掘量价因子合成多头超额净值曲线.................................................15图表25:LLM挖掘量价因子合成风格暴露.........................................................15图表26:LLM挖掘基本面因子合成统计数据.......................................................15图表27:LLM挖掘基本面因子合成多头超额净值曲线...............................................16图表28:LLM挖掘基本面因子合成风格暴露.......................................................16 一、LLM因子挖掘框架设计与改进 1.1LLM因子挖掘背景与框架设计 因子挖掘是量化投资策略的核心环节之一。传统的人工构造因子方法主要依赖金融专家凭借丰富的经验和专业知识来构建基础因子库,例如市盈率、动量指标等。这些因子因其与市场逻辑和基本面分析的紧密联系,具有很强的业务可解释性,能够为投资者提供直观且易于理解的决策依据。然而,这种方法也存在明显的局限性。首先,开发效率较低,因为依赖专家经验意味着需要大量的时间和精力来设计和验证每个因子。其次,因子空间的覆盖范围有限,专家的经验和知识往往局限于特定的领域或市场环境,难以全面探索所有可能的因子组合。因此,随着市场复杂性的增加和数据量的爆发式增长,传统的人工方法逐渐难以满足现代投资策略的需求,引入自动化因子挖掘方法成为必然选择。 当前,主流的自动化因子挖掘方法以遗传规划(Genetic Programming)为代表。遗传规划是一种基于演化算法的技术,通过模拟自然选择的过程,探索数学表达式的组合,以生成潜在的因子。这种方法突破了传统人工设计的边界,能够在更广阔的搜索空间中发现新的因子组合。此外也有一些更新的机器学习因子挖掘框架如《Alpha掘金系列之十五:基于OpenFE框架的机器学习Level2高频特征挖掘方法》中提到的OpenFE方法,采用了一种创新的“先扩张后缩减”流程,批量生成高频因子。在扩张阶段,OpenFE利用多种算子(如Mask、聚合函数等)生成大量基础特征组合。在缩减阶段,通过连续二分法和特征重要性归因筛选有效特征,在