您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [东吴证券]:金工专题报告:深度学习系列之四:从人工写因子到AI写因子:LLM-MCTS驱动的可解释因子迭代框架 - 发现报告

金工专题报告:深度学习系列之四:从人工写因子到AI写因子:LLM-MCTS驱动的可解释因子迭代框架

2026-06-23 于明明 东吴证券 大王雪
报告封面

深度学习系列之四:从人工写因子到AI写因子:LLM-MCTS驱动的可解释因子迭代框架 2026年06月23日 证券分析师于明明执业证书:S0600525120002yumm@dwzq.com.cn 相关研究 《VIX上行未过热,衍生品指向偏强震荡》2026-06-19 《深度学习系列之三:AI因子挖掘的双路径实践与Skill沉淀——从表达式搜索到Agent化研究流程》2026-06-15 ◼在日频Seed定向改造中,我们以29个低频价量原始因子为起点,对每个Seed保留迭代过程、候选池和样本内外表现。结果显示,候选池层面25/29个Seed至少搜索到过样本外优于原始Seed的候选,说明LLM-MCTS并非只是在原因子附近做机械组合,而是能够围绕波动、反转、成交确认、区间状态等逻辑提出增量结构。样本内正式候选以优于原始Seed为准,样本外仅用于验证,从而避免用样本外倒推选因子。 ◼在低频Seed池批量挖掘中,我们进一步放松“必须贴近单个Seed”的约束,以12个根节点机制作为起点进行批量搜索。样本内生成的173个因子优于对应原始Seed,143个同时实现样本内和样本外优于原始Seed,占样本内有效候选的82.7%。双优候选去重后包含123个公式,并沉淀58个可复用经验或工具。稳定性和差异性方面,双优候选之间的全局绝对相关性整体偏低,均值0.2604、中位数0.2148、90%分位数0.5529,绝对相关性大于0.8的比例仅1.88%、大于0.9的比例仅0.71%,说明搜索结果没有坍缩为少数同质信号。 ◼该框架亦可以用在高频分钟因子挖掘,给定原始的经验因子作为Seed,经验函数作为LLM生成新因子的思路参考,利用LLM-MCTS搜索框架,可以得到更高质量的高频因子。其中“高量脉冲次数”因子表现最突出,样本内/样本外RankIC为0.0839/0.0744,样本内/样本外ICIR为1.140/0.770,RankIC保留率0.89;成交量高脉冲收益波动、成交额加权实现波动、尾盘相对开盘振幅等代表因子样本外RankIC亦达到0.0627至0.0647,验证框架可从日频公式扩展到分钟级交易行为机制。 ◼风险提示: 1)模型失效风险。本研究基于历史数据和统计规律构建因子,历史表现不代表未来收益。当市场结构、投资者行为、流动性环境或监管政策发生变化时,量价因子可能衰减甚至失效,导致组合表现不及预期。 2)过拟合风险。本文采用自动化方法进行因子挖掘,未来市场变化可能导致因子泛化能力下降。3)数据质量风险。因子研究依赖行情、成交量、估值及收益标签等数据。数据缺失、异常、复权处理差异以及不同评测口径、股票池和样本区间设置,均可能影响研究结论。4)大语言模型生成风险。大语言模型生成的因子逻辑、代码及工具函数可能存在理解偏差或实现错误。实际应用前,仍需对代码实现、数据处理及评测流程进行独立验证。5)交易成本与流动性风险。回测结果未必能够完全反映实盘环境。冲击成本、滑点、税费、涨跌停及成交不足等因素可能侵蚀策略收益,实际表现可能低于历史测算结果。 内容目录 1.大语言模型时代的因子研究范式变革..............................................................................................51.1.传统因子研究面临效率与结果的双重瓶颈.............................................................................51.2.LLM写因子的能力与瓶颈........................................................................................................51.3.兼顾可解释性和持续迭代能力的LLM-MCTS模型..............................................................62.LLM驱动的MCTS:符合逻辑的因子迭代.....................................................................................72.1.MCTS模型可以提高搜索效率..................................................................................................72.2.MCTS模型具体流程..................................................................................................................82.3.LLM-MCTS模型运作逻辑......................................................................................................113.日频价量因子的迭代挖掘................................................................................................................133.1.原始因子与算子介绍...............................................................................................................153.2.LLM-MCTS搜索案例..............................................................................................................183.3.因子优化整体效果...................................................................................................................243.4.优秀案例:从表达式到金融逻辑...........................................................................................253.4.1.std20:从收盘价波动率到成交确认的真实波幅.........................................................253.4.2.cntn20:从下跌天数到成交量加权负乖离...................................................................273.4.3.rank20:从价格时序排名到放量反转确认..................................................................294.批量低频因子挖掘:不再拘泥于Seed的金融逻辑......................................................................314.1.从Seed改造到Seed池挖掘...................................................................................................314.2.模型参数与前文实验的区别...................................................................................................324.3.最终效果...................................................................................................................................325.高频因子的迭代挖掘........................................................................................................................345.1.高频因子挖掘的LLM-MCTS流程设计................................................................................345.2.因子挖掘结果与代表性候选...................................................................................................355.3.高量脉冲次数机制的经验解释...............................................................................................376.风险提示............................................................................................................................................38 图表目录 图1:MCTS闭环搜索流程...................................................................................................................8图2:LLM-MCTS策略运作链条.......................................................................................................11图3:vstd20案例中的LLM-MCTS职责分工与反馈闭环..............................................................18图4:第一层搜索树,root扩展出5个候选.....................................................................................19图5:第一层候选reward与下一轮UCT对比.................................................................................20图6:第二层搜索树,从vstd2mean继续扩展.................................................................................21图7:第二层候选的absIR、多样性与reward对比.........................................................................22图8:第二轮结束后,UCT推动搜索转向vol_price_