2026年01月22日14:44 关键词 大模型因子挖掘自动化解释力度统计意义创造性相关性成熟因子反馈机制优化逻辑量纲要求全天候回测经济学假设语法树因子量价基本面挖掘计算 全文摘要 国金证券研究员介绍了他们运用大模型自动化挖掘财务因子的创新方法。该流程融合了大模型的高效与解释性优势,弥补了传统人工和机器学习方法的局限。大模型因子挖掘框架通过MMR模块控制因子相关性,随机初始化增强模型创新性,并借助IDEA提取阶段进行因子对比分析,有效解决了以往方法中因子相关性高、缺乏创造性及反馈机制不足的问题。 基于LLM的财务逻辑因子全天候挖掘框架-20260121_导读 2026年01月22日14:44 关键词 大模型因子挖掘自动化解释力度统计意义创造性相关性成熟因子反馈机制优化逻辑量纲要求全天候回测经济学假设语法树因子量价基本面挖掘计算 全文摘要 国金证券研究员介绍了他们运用大模型自动化挖掘财务因子的创新方法。该流程融合了大模型的高效与解释性优势,弥补了传统人工和机器学习方法的局限。大模型因子挖掘框架通过MMR模块控制因子相关性,随机初始化增强模型创新性,并借助IDEA提取阶段进行因子对比分析,有效解决了以往方法中因子相关性高、缺乏创造性及反馈机制不足的问题。展示了量价和基本面因子的例子,突出了新方法在提高因子可解释性方面的显著成效。此外,阐明了推荐算法和大模型在因子挖掘与回测中的应用,指出大模型生成因子公式,而实际计算与回测则由本地系统负责。此方法不仅提升了因子挖掘的效率和质量,也为金融分析带来了新的视角和可能性。 章节速览 00:00大模型全天候财务因子自动化挖掘框架 分享了大模型用于全天候财务因子自动化挖掘的框架设计,包括遇到的问题及改进思路,详细介绍了框架内部构造如prompt和算子设计,以及模型挖掘效果,最后进行了整体总结。 01:10大模型在因子挖掘中的创新应用 讨论了大模型在因子挖掘领域的应用优势,包括批量化生成因子计算公式及解释生成因子的能力。提出了一个包含模型初始化、因子改进和idea提取三个阶段的框架,解决了因子相关性高、创造性不足和缺乏反馈机制的问题。通过MMR模块限制因子相关性,采用随机初始化提升创造性,并通过idea提取阶段提供反馈,优化因子挖掘逻辑。 03:54因子挖掘与优化策略:从初始化到入库的全流程 讨论了因子从初始化、计算、回测到优化的全过程,强调利用IG机制和成熟因子进行匹配与优化,以及采用全天候自动化挖掘框架提升效率。特别指出在因子有效性评估中综合考量相关性、持续性和风格因子的影响,同时提出量纲匹配的算式约束,确保因子在样本外的良好表现。最终,通过内外层循环机制筛选优质因子入库,提升整体挖掘效率。 07:29量价与基本面因子挖掘及改进策略 对话围绕量价和基本面因子的挖掘与改进展开,详细介绍了因子初始化、表达式生成、分析要求及输出格式,强调了因子回测后的改进策略,包括利用rank算子优化和规避回撤,以及基于报表发布日期的滚动计算。通过对比改进前后的因子表现,总结了优化效果,展示了从量价到基本面因子挖掘的完整流程。 11:38大模型在基本面因子计算与修正中的应用 对话讨论了大模型在基本面因子计算中的复杂性,涉及80多个字段与四十多个算子,需修正表达式中的错写漏写问题。通过构建语法树进行表达式修正,处理数据类型转换,确保加减乘除运算的准确性。已构建一套完整的大 模型挖掘系统,涵盖因子计算、回撤表现、数据库存储及因子回测,集成所有关键参数与表现于统一框架。 13:55大模型在量价与基本面因子挖掘中的应用 报告介绍了使用大模型挖掘量价和基本面因子的方法,展示了因子设计的逻辑及其在市场中的表现。通过对比原始因子与改进因子,证明了大模型在因子改进方面的灵活性和有效性。量价因子表现出色,年化超额收益率达17.4%,而基本面因子虽波动较大,但风险暴露较小。整体上,大模型的因子挖掘效果良好,特别是在结合量价和基本面信息时,展现了其在量化投资领域的潜力。 18:14算法推荐与LLM在因子挖掘中的应用讨论 讨论了推荐算法的类型,包括一元和二元算子,以及高级算子的引入。探讨了LLM在因子生成中的作用,指出其不擅长数据计算,而因子计算与回测由本地化系统完成。最后,介绍了自动化框架的整合,实现因子公式的生成、计算与回测的一体化流程。 发言总结 发言人2 他,国金金工的研究员陶阳,介绍了他们团队利用大模型进行全天候财务因子自动化挖掘的框架与流程。该框架包含三个主要部分:大模型因子挖掘框架的设计与改进思路、内部细节构造(包括prompt和算子设计),以及模型挖掘效果的展示。陶阳指出,传统因子挖掘方法存在效率低和解释力不足的问题,而大模型能够兼顾这两点,通过API批量调用生成因子计算公式并解释其生成逻辑。为了解决因子相关性高、模型创造性利用不足和缺乏反馈机制的问题,他们设计了MMR模块以限制因子相关性,随机初始化模型,并在改进阶段使用IG机制。此外,他们还详细阐述了对量价和基本面因子的挖掘过程,包括因子初始化、表达式要求、分析要求和输出格式等细节。最终,通过展示大模型挖掘的因子在回测中的良好表现,证明了其有效性和可靠性。 发言人1 他强调,会议内容专为机构或受邀客户准备,仅限于专家个人观点分享,且其内容不应被视为投资建议。未经国金证券书面同意,任何个人不得擅自传播会议内容,违规者将面临法律追责。此外,他还指导参会者如何通过电话或网络渠道提出问题。 问答回顾 发言人2问:大模型因子挖掘框架的设计思路是什么?全天候自动化挖掘框架的整体构造如何? 发言人2答:大模型因子挖掘框架主要分为三个阶段:模型初始化阶段、因子改进阶段以及idea提取阶段。在因子改进过程中,为解决因子相关性过高影响合成效果的问题,我们会调用MMR模块限制因子的相关性;为提升模型创造性与实用性,采用随机初始化方式,避免基于成熟因子的改进限制模型创新性;同时,增加显示反馈机制,通过对比改进前后因子,在优化逻辑不明晰的情况下获取优化经验和未来分析依据。全天候自动化挖掘框架分为内层循环和外层循环。内层循环负责并行挖掘少量因子并筛选出内部表现良好的因子,外层循环则对内层挖掘出的因子进行收益控制和已有因子相关性测试。内层循环每轮可挖掘二十多个因子,挑选2-3个优秀因子入库,整个流程一般耗时2-3小时,整体挖掘效率较高。 发言人2问:为什么我们要去做这个大模型的因子挖掘? 发言人2答:我们目前使用的传统因子挖掘方法存在两种局限性。一种是依赖人工构造和思考,虽解释力度高但开发效率低;另一种是通过积极学习(如遗传规划和强化学习)快速生成大量有效因子,但因暴力组合导致解释力度不足。大模型因子挖掘旨在兼顾两者优点,通过批量化调用API生成因子计算公式,并能对话解释生成的因子。 发言人2问:在因子挖掘过程中具体是如何运用IG机制的? 发言人2答:在因子改进阶段,IG机制用于结合随机改进、经验改进和成熟因子改进等多种方式。在处理海量数据匹配时,利用成熟因子与数据量做向量化和向量匹配。匹配到相关信息后,将其作为增强信息添加到prompt中,增强prompt文本,再与大模型对话生成新因子。此外,还会使用MMR指标综合考虑因子与常见风格因子、风险因子的相关性以及持续相关性。 发言人2问:因子入库的标准是如何设定的? 发言人2答:我们根据全样本内挖掘出的因子具有可解释性这一原则,选取2010至2019年十年的数据进行因子挖掘和筛选,并在2020至2025年期间进行检验,依据IC值和多头超额收益阈值选择入库。同时,对不符合量纲要求的算式进行约束,要求模型生成量纲匹配的公式。 发言人2问:在因子初始化阶段,模型对话的主要目标是什么? 发言人2答:因子初始化阶段,模型对话的主要目标是让模型从股票字段中挖掘信息,为量化投资或研究提供支持。在这个过程中,会设定模型的身份(如量化投资总监或量化研究员),并指导它如何使用可用字段和算子进行信息提取。 发言人2问:因子表达式的要求是什么? 发言人2答:因子表达式要求模型生成多样化的公式,并确保其具有良好的解释能力,避免过于复杂以至于失去可解释性。 发言人2问:分析要求在因子输出时应如何实现? 发言人2答:在因子输出时,需要进行结构化的分析,考虑经济学假设、市场无调性行为偏见收益传导路径等因素,并从这些角度对生成的因子进行深入思考,最终形成易于理解的因子构造逻辑说明。 发言人2问:输出格式的要求有哪些重要性? 发言人2答:输出格式要求严格遵循,因为后续公式提取、计算回测以及表达式的解释等环节均依赖于正确的输出格式。输出格式需符合正则表达式规则以便于处理,并且需要进行嵌入式操作以匹配后续语义需求。 发言人2问:因子计算与回测后的改进过程如何进行?图表七和图表八分别展示了什么内容? 发言人2答:改进过程首先基于因子的回测指标判断因子表现好坏,然后针对表现不佳的因子,通过解释其因子表达式、分析回撤和其他风险性指标,指导模型优化因子表达式,并对新生成的因子进行进一步分析和输出。图表七展示了改进前后因子的对比,包括表达式的差异及回撤表现;而图表八则介绍了基本面因子,详细阐述了截面字段与基本面字段的不同处理方式及时间窗口设定。 发言人2问:量价因子与基本面因子在设计算子和处理逻辑上有哪些区别? 发言人2答:量价因子数据规整且算子较少,而基本面因子涉及发布日期和报表滚动,其时间窗口和算子选择有所不同。此外,在因子表达式设计上,基本面因子需根据具体含义进行分析判断,但整体输入格式和输出要求与量价因子相似。 发言人2问:对于可能出现的表达式错误,如何进行修正? 发言人2答:当因子表达式出现错误时,首先构建语法树解析表达式,修正可能存在的错写漏写(如加减乘除运算符记错),同时处理数据类型对齐等问题,确保表达式的正确性。 发言人2问:大模型挖掘因子的整体效果如何评估? 发言人2答:已经构建了一套包含因子计算、回撤表现、数据库存储以及最终因子值和因子回测表现的大模型挖掘系统,可以整合各类超参数并形成完整框架来评估因子的整体效果。 发言人2问:举了哪些量价因子的例子,它们的特点是什么? 发言人2答:图表12列举了三个量价因子例子。第一个因子结合了价格爬坡速度、量价联动强度和成交量增速,捕捉股价快速上涨伴随成交量放大的股票,通常这类股票反转趋势可能性较高。第二个因子通过股价突破5日高点幅度占价格波动范围的比例,结合成交量放大程度识别关键阻力位附近资金共识度高的股票,这类股票常给出强烈的买入信号。 发言人2问:因子三的设计依据是什么,其多空走势如何?基本面因子举例中,因子一和因子二分别代表什么含义? 发言人2答:因子三是基于量价相关性、动量和振幅进行设计,是一个非常强的反转因子。在回撤区间内,因子三的多空走势表现优秀,因子一和因子二也显示了较为平稳的趋势,每个因子的分层趋势都很稳健。因子一通过计算企业每单位美元市值产生的经营现金流,并结合销售现金与采购支出比例的两年平均趋势来衡量。因子二则衡量企业净利润与流动负债比率相较于去年同期的增长率,如果持续高于短期债务增速,则说明公司财务监管状况良好。这两个因子均为正向因子,并具有不错的多头年化超额收益率。 发言人2问:对于基本面因子,是否存在波动性较大或难以适应市场变化的问题? 发言人2答:基本面因子普遍存在数据变化不太多、无法完全跟得住市场的波动性较大问题。但其多空分组依然表现较好。 发言人2问:在因子挖掘过程中,如何改进原始因子并保持因子语义连贯性? 发言人2答:在挖掘过程中,通过使用大模型结合常见的因子,对原始因子进行改进,而不是简单组合,以保持因子的语义不变。这种方法相比遗传规划更加灵活和先进。 发言人2问:大模型因子挖掘与异常规划相比的优势体现在何处? 发言人2答:大模型因子挖掘可以根据一系列想法对原始因子进行改进,具有更强的灵活性和先进性。例如,可以将量价因子和基本面因子进行等权合成,挖掘出的因子表