报告发布日期 QuantaAlpha:用大模型做量化因子挖掘 ——量化研究参考系列之一 刘静涵执业证书编号:S0860520080003香港证监会牌照:BSX840liujinghan@orientsec.com.cn021-63326320 研究结论 ⚫文献信息:本次分享的论文由上海财经大学、QuantaAlpha团队、斯坦福大学、北京大学、中山大学、东南大学联合撰写,于2026年2月发表于arXiv预印本平台(编号:arXiv:2602.07085),标题为《QuantaAlpha: An EvolutionaryFramework for LLM-Driven Alpha Mining》大语言模型驱动的进化式Alpha因子挖掘框架。 ⚫推荐理由:论文提出了一套将大语言模型(LLM)与进化算法深度融合的Alpha因子挖掘新框架——QuantaAlpha。通过多智能体协作模拟专业量化研究员的工作流程,将因子挖掘的完整研究过程纳入进化体系,覆盖假设生成、因子构建、代码实现、回测检验、迭代优化全环节,实现因子挖掘过程的白盒化、可溯源、高效率。 ⚫核心框架:QuantaAlpha以大语言模型为核心,完整模拟量化研究员研究流程,构建“提出假设→构建因子→回测检验→迭代优化→因子池维护”一体化自动因子挖掘体系,可生成收益稳健、风险可控且逻辑可解释的Alpha因子。1)初始假设:LLM生成10个独立互补的假设,多方向并行挖掘,避免局部最优与因子拥挤。2)因子实现:三类智能体协同,将假设转为结构化因子,经符号化与AST转化并施加三重约束,完成回测与轨迹记录。3)迭代优化:LLM主导定向进化,精准修正失效环节、交叉复用优质逻辑,高效提升因子质量。4)因子筛选:设置Rank IC、低冗余、容量三重门槛,择优纳入因子库。 ⚫亮点分析:对比QuantaAlpha与自研DFQ遗传规划系统,共有五大核心升级:1)初始种群:从随机生成转为LLM结合金融逻辑驱动,初始因子质量更高、无效探索更少;2)进化方式:从盲目随机试错,转为基于完整研究轨迹的定向逻辑修复与有效重组;3)进化对象:从单纯优化因子公式,升级为优化整套研究过程并实现研究经验复用;4)冗余管控:从单一数值约束,升级为结构化去重、复杂度限制与语义校验的多维管控;5)可解释性:从先出公式再补逻辑,变为先有金融逻辑再生成因子,显著提升可靠性与投研实用性。 ⚫实证结果:论文实验以沪深300为核心标的,采用GPT-5.2进行回测,结果显示其在年化收益、ICIR及回撤控制上均大幅超越Alpha158等基准;将因子直接应用于中证500与标普500,四年累计超额收益达130%–160%,跨市场表现极强。团队复现方面,我们修正了原始数据划分可能存在的泄露问题,使用通义千问基于13个价量方向挖掘出21个因子,在严格样本外验证中,因子虽具备一定选股能力,但ICIR偏低、组合波动较大,信号尚显稚嫩。对比论文挖掘350个因子的规模,当前挖掘量与迭代轮次存在显著差距,这也是目前超额收益与稳定性不足的核心原因,后续需扩大挖掘规模以进一步提纯因子。 ⚫优化方向:结合A股市场特性与团队DFQ系统实践,提出以下优化方向:1)特征维度:从仅用6类基础日频价量数据,升级为融合日内高频、基本面数据,对接DFQ成熟70维日频特征体系,充分挖掘微观市场信息;2)算子体系:从6大类通用量化算子,升级为补充多参数截面交互、非线性激活、动态条件筛选类算子,精准适配A股交易规则与非线性波动特征;3)评估标准:从单一IC/RankIC、收益指标,升级为新增行业/市值中性化IC筛选指标,剥离系统性风格暴露,过滤伪Alpha信号提纯真超额收益;4)股票池范围:从仅沪深300窄池挖掘,升级为扩展至全市场并分板块定制挖掘,大幅提升因子跨池泛化能力与实盘适配性。 风险提示 1.量化模型基于历史数据分析,未来存在失效风险,建议投资者紧密跟踪模型表现。2.极端市场环境可能对模型效果造成剧烈冲击,导致收益亏损。 目录 1、文献信息:多校联合研发QuantaAlpha,2026年2月arXiv重磅发布....4 2、推荐理由:LLM +进化算法融合,破解量化因子挖掘行业痛点................4 3、核心框架:全流程自动化体系,实现因子挖掘可解释、高效率................5 3.1初始假设:多样化逻辑假设拓宽研究广度....................................................................53.2因子实现:多智能体协同完成从想法到落地.................................................................53.3迭代优化:定向进化替代随机试错...............................................................................63.4因子筛选:多层门槛把控因子库质量............................................................................6 4、亮点分析:对比DFQ遗传规划,实现全维度技术升级............................7 4.1初始种群:从随机生成到LLM结合金融逻辑生成........................................................74.2进化方式:从随机排列到轨迹级逻辑定向修复.............................................................74.3进化对象:从进化公式到进化完整研究过程.................................................................84.4冗余管控:从单一数值约束到多维管控........................................................................84.5可解释性:从先公式后逻辑到先逻辑后公式.................................................................8 5、实证结果:沪深300表现远超基准,复现仍有优化空间..........................9 5.1论文实验设计与核心结论.............................................................................................95.2复现情况与结果说明...................................................................................................10 6、优化方向:贴合A股特性,三方面升级实现实盘能力提升.....................11 6.1拓宽特征维度.............................................................................................................116.2扩充算子库.................................................................................................................116.3补充中性化评估维度...................................................................................................12 7、风险提示...............................................................................................12 图表目录 图1:QuantaAlpha对比传统方法/同类LLM方法:全流程进化体系实现三重融合,破解行业核心痛点..........................................................................................................................................5图2:QuantaAlpha全流程解析:LLM驱动多环节闭环,实现因子挖掘白盒化、可溯源.............7图3:QuantaAlpha论文实验核心参数配置:GPT-5.2 +沪深300标的,多基准对比保障结果有效性..............................................................................................................................................9图4:QuantaAlpha沪深300核心回测指标:IC达0.1501,年化超额27.75%,大幅超越同类基准.................................................................................................................................................9图5:QuantaAlpha跨市场表现:中证500 /标普500四年累计超额130%-160%,泛化能力极强...............................................................................................................................................10图6:QuantaAlpha复现数据集优化:修正数据划分偏差,严格规避泄露保障泛化能力评估严谨性...............................................................................................................................................10图7:QuantaAlpha复现样本外回测:因子具备选股能力,挖掘规模不足致收益与稳定性待提升...................................................................................................................................................11 量化投资行业前沿理论与技术迭代提速,海外顶尖量化研究成果中蕴藏着诸多可借鉴的新思路、新框架,为A股量化因子挖掘与策略研发提供重要参考。为此,我们推出量化研究参考系列报告,聚焦海外顶刊、预印本平台发布的量化领域前沿文献,通过深度拆解核心逻辑、实证结果与创新价值,结合A股市场特性及本土投研实践开展适配性分析,提炼可落地的优化方向与应用思路,为投资者提供专业、前沿的研究参考。本期为系列首篇,重点解析大语言模型驱动的进化式Alpha因子挖掘框架QuantaAlpha,探索AI与量化因子挖掘融合的新路径。 1、文献信息:多校联合