您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [东吴证券]:金工专题报告:深度学习系列之三:AI因子挖掘的双路径实践与Skill沉淀——从表达式搜索到Agent化研究流程 - 发现报告

金工专题报告:深度学习系列之三:AI因子挖掘的双路径实践与Skill沉淀——从表达式搜索到Agent化研究流程

2026-06-15 于明明,周金铭 东吴证券 four_king
报告封面

深度学习系列之三:AI因子挖掘的双路径实践与Skill沉淀——从表达式搜索到Agent化研究流程 2026年06月15日 证券分析师于明明执业证书:S0600525120002yumm@dwzq.com.cn证券分析师周金铭 执业证书:S0600526020002zhoujm@dwzq.com.cn 相关研究 《深度学习系列之一:AI重塑量化,基于大语言模型驱动的因子改进与情绪Alpha挖掘》2026-01-10 《深度学习系列之二:绝对收益视角下的技术形态专家模型——选股择时与多资产轮动的统一框架》2026-03-24 ◼LLM增强遗传编程路线实现了大语言模型金融逻辑与遗传算法搜索能力的结合,在表达式空间中生成了87个候选量价因子。传统遗传编程可以在大规模表达式空间中快速搜索,但容易生成缺乏金融解释、结构复杂且过拟合风险较高的因子;LLM直接写因子具备较强逻辑性,但难以低成本完成大规模批量探索。本文通过LLM提取子表达式基因、构建表达式树搜索空间、分岛进化、周期性LLM注入和低相关筛选等机制,将两者优势结合起来。实证结果显示,87个候选表达式因子全区间|RankIC|均值约为6.98%,全区间|ICIR|均值约为0.79,测试集|RankIC|均值约为6.93%,表现较为稳定。相关性层面,约81.6%的因子对内部相关性低于0.70,约91.2%的因子对低于0.75;与20日反转、20日波动率和20日平均换手率等传统量价因子相比,也保留了较明显差异。进一步相对Alpha158MLP进行双残差增量IC检验,87个因子的平均增量IC约为2.53%,说明其在常见量价综合信息之外仍能提供边际解释力。LOWPOS_SHARPE_COV、CANDLE_SHADOW_P3和RETCHG_MINUS_GAP等代表因子表明,该路线能够在保持表达式可复现性的同时,挖掘出具有较清晰金融逻辑的量价结构。 ◼函数式因子挖掘路线进一步打开了因子表达空间,使AI能够以完整Python函数形式刻画更细颗粒度的交易行为机制。与固定表达式树不同,函数式路线允许LLM分步骤描述金融假设:先拆分隔夜与日内收益,再识别量能体制;先判断近期高低点是否形成,再区分极值背后的成交质量;先观察隔夜跳空方向,再判断盘中资金是否确认。基于该路线,本文最终得到80个函数式因子,RankIC均值约为4.90%,中位数约为4.98%;ICIR均值约为0.66,中位数约为0.68。因子内部相关性均值约为0.32,中位数约为0.30,约85.5%的因子对相关性低于0.50,整体未坍缩为少数同质化信号。与传统低频量价因子相比,80个函数式因子的相关性均值约为0.32,中位数约为0.28;相对Alpha158MLP的平均增量IC约为1.67%,说明函数式因子并非传统价量变量的简单重写,而是在基础数据之上加入路径、状态和条件判断。报告中详细展示了刻画隔夜情绪被日内资金修正的因子,刻画极值形成过程中的放量追高与恐慌出清的因子,以及刻画同一隔夜跳空在不同量能体制下的持续性差异的因子,体现了函数式路线对复杂交易行为的表达优势。 ◼本文最后将因子挖掘流程进一步封装为【东吴金工】选股因子迭代Skill,使AI因子研究从单次结果生成走向可复盘、可继承、可共享的研究能力沉淀。该Skill并不局限于本文使用的低频量价数据,而是以用户提供的数据、字段语义、预测目标和评测口径为核心输入:只要数据能够接入为DataFrame,并明确收益目标与IC评测方式,Skill即可围绕相 应数据生成可执行、可评测、可迭代的选股因子,未来可扩展至基本面、分析师预期、事件文本、高频交易行为或多源融合数据。其工作流覆盖工作区启动或断点恢复、数据接入、评测目标确认、参考因子接入、候选因子生成、自动执行评测、历史反馈记录和工具函数沉淀。每轮迭代后,系统会输出分年度和全区间IC/ICIR、IC走势图、因子历史Excel摘要,并将有效逻辑、失败经验和可复用工具函数持续沉淀到研究工作区中。由此,AI不只是生成某个高IC因子,而是在逐步形成一个能够记忆历史、复用工具、吸收反馈并持续改进的因子研究系统。这也是本文最重要的实践意义:将“AI写因子”推进为“AI挖因子”,并进一步沉淀为团队可共享的AI量化研究工作流。 ◼风险提示: 1)模型失效风险。本研究基于历史行情数据、因子回测结果和历史样本中的统计规律进行分析,历史表现不代表未来收益。当市场微观结构、投资者行为模式、行业风格、流动性环境或监管政策发生显著变化时,历史有效的量价因子可能出现衰减甚至失效,导致因子组合表现不及预期。2)过拟合风险。本文使用大语言模型、遗传编程和函数式因子生成框架进行因子挖掘,尽管在研究中关注了样本外表现、因子相关性和增量IC等稳健性指标,但自动化生成方法仍可能在较大搜索空间中挖掘到偶然有效的历史模式。若未来市场环境与训练或回测样本差异较大,因子泛化能力可能下降。3)极端行情风险。在流动性危机、政策突发冲击、系统性风险爆发、市场交易机制调整等极端环境下,常规量价关系可能短期失效,因子信号可能无法及时识别风险,甚至给出与市场真实状态相反的信号,从而导致组合出现较大回撤。4)数据质量与评测口径风险。因子研究依赖底层行情、成交量、估值、复权价格、未来收益标签等数据输入。若原始数据存在缺失、异常、复权处理差异、停牌处理不一致或收益标签构造偏差,可能影响因子计算与评测结果。不同IC口径、调仓频率、股票池和样本区间设定也可能导致结论存在差异。5)大语言模型生成风险。大语言模型生成的因子逻辑、代码和工具函数可能存在理解偏差、实现错误、冗余计算或隐含假设。虽然本文通过自动执行、评测反馈、工具函数沉淀和人工复核降低相关风险,但在实际研究和投产前,仍需对因子代码、数据处理逻辑、收益对齐方式和异常值处理进行独立检查。6)交易成本与流动性风险。本文因子评价主要基于历史信号有效性和组合表现,实际交易中可能面临冲击成本、滑点、交易税费、涨跌停限制、停牌、成交不足等问题。对于换手率较高或偏小市值股票的策略,交易成本和流动性约束可能显著侵蚀回测收益,实盘表现可能低于历史测算结果。 内容目录 1.1. LLM写因子的能力与瓶颈........................................................................................................61.2.两条路线:表达式空间与代码空间.........................................................................................61.3.研究目标:构建可迭代的AI因子研究流程..........................................................................6 2.表达式空间:LLM增强遗传编程框架............................................................................................7 2.1.用金融逻辑约束进化搜索.........................................................................................................72.2.从子表达式基因到分岛进化.....................................................................................................72.3.实验设置与评价口径.................................................................................................................82.4.子表达式基因:把金融逻辑注入搜索空间.............................................................................9 3.候选因子表现:有效性、相关性与增量信息................................................................................10 3.1.整体有效性:统一方向后的IC表现.....................................................................................103.2.样本外表现:训练到测试的衰减...........................................................................................103.3.内部相关性:局部成簇与整体差异化...................................................................................113.4.传统因子相关性:继承与增量...............................................................................................123.5.增量IC:Alpha158MLP之外的信息.....................................................................................13 4.代表因子:从表达式到金融逻辑....................................................................................................14 4.1. LOWPOS_SHARPE_COV:平滑趋势中的质量动量...........................................................144.2. CANDLE_SHADOW_P3:上冲情绪后的短期反转..............................................................164.3. RETCHG_MINUS_GAP:剔除跳空后的量价拥挤...............................................................174.4. LLM赋能遗传算法:表达式空间的价值与边界..................................................................19 5.代码空间:从预制函数到自生长工具库........................................................................................20 5.1.方法升级:从AI写代码到AI沉淀方法..............................................................................205.2.框架核心:生成因子,也生成研究组件...............................................................................205.3.研究闭环:经验输入、因子生成与工具沉淀.....................