因子挖掘框架 基于算子网格搜索、Numba加速的多维度评价体系 2026年4月30日 主题报告 投资要点: 因子挖掘框架 基于算子与变量的网格搜索,采用分层递进策略逐级生成复杂因子,并通过Numba实现30倍以上加速,在控制组合爆炸的同时兼顾挖掘深度与计算效率,最终形成候选因子池 山证金工团队 分析师: 黎鹏执业登记编码:S0760523020001邮箱:lipeng@sxzq.com 因子初筛体系 从数据质量、信号稳定性、冗余控制、预测能力四个维度构建多指标评价体系,对候选因子进行严格过滤,剔除数据缺失、信号反转、高度冗余及预测能力不足的因子,确保留存因子具备扎实的统计基础 研究助理: 崔豪轩邮箱:cuihaoxuan@sxzq.com 因子分类与分级应用 将筛选后的因子划分为排序型、结构型、状态性三类:排序型因子可直接构建多空组合;结构型因子适合加权或筛选融入模型;状态性因子用于个股择时。通过上述方法体系,我们有效实现了从海量候选因子到有效信号集的压缩与提炼。该方法在保证因子挖掘效率的同时,显著提升了留存因子的稳定性与可解释性,为后续多因子组合构建与风险归因提供了系统性的基础支撑 风险提示:报告内容根据公开数据整理得出,结论基于历史价格信息和统计规律,但二级市场受各种即时性政策以及宏观经济影响易出现统计规律之外的走势,所以相关结论无法代表市场未来走势;模型存在失效风险,由于模型构建、参数估计、假设条件等方面存在的不确定性或错误,可能导致模型预测结果与实际情况产生显著偏离;报告阅读者需审慎参考报告结论。 目录 一、因子挖掘框架的构成..................................................................................................................................................3 2.1框架简述.................................................................................................................................................................32.2Numba加速.............................................................................................................................................................4 二、因子筛选......................................................................................................................................................................5 2.1因子初筛指标与评价维度.....................................................................................................................................52.2因子分级与入池标准.............................................................................................................................................6 三、未来研究方向............................................................................................................................................................11 图表目录 图1:因子挖掘框架示意图...............................................................................................................................................3图2:排序型因子分组单位净值图...................................................................................................................................7图3:排序型因子分组年化收益热力图...........................................................................................................................8图4:排序型因子分组市值分布图...................................................................................................................................9图5:结构型因子分组单位净值图.................................................................................................................................10图6:状态性因子分组单位净值图.................................................................................................................................11 表1:Numba和Panda加速对比表.................................................................................................................................4 一、因子挖掘框架的构成 在量化研究的实践中,因子的有效性是策略表现的基石。随着市场有效性逐步提升,传统单一风格因子或人工挖掘的Alpha已逐渐拥挤,依靠主观逻辑构建因子的范式面临边际收益递减的困境。为此,本报告采用了一种基于“算子+变量”组合的搜索框架,旨在高维空间中系统性地挖掘未被定价的Alpha信号。 本研究使用的基础金融数据来源于同花顺,涵盖2015年至2026年的日频数据,包含价格、成交量、估值等基础变量。股票池范围为全部A股(剔除上市不满90个交易日的股票)。在数据预处理方面,我们初步仅对缺失值进行了识别与标记。 1.1框架简述 研究方法上,我们构建了一个包含基础金融数据(价、量、估值等)的变量池,并引入包括横截面排序、时序变化、数学变换及逻辑运算符在内的多种算子。通过将变量与算子进行高维组合,我们生成了海量的因子表达式,实现了从线性到非线性、从时序到截面的广泛探索。为提升挖掘效率,整个计算过程依托Numba加速,显著缩短了回测周期,使得大规模搜索成为可能。 资料来源:山西证券研究所 本框架的核心思想在于通过基础算子(如ts_mean、rank等)与原始变量的组合,生成复杂度逐级递增的因子表达式。为避免组合爆炸,我们采用分层递进的搜索策略:每一层均基于前一层筛选出的优质因子(或基础变量)进行新一轮组合,生成更高阶的候选因子,并依据IC、ICIR等指标择优进入下一层。这种“层层递进、优胜劣汰”的机制,既保证了因子空间的广泛覆盖,又有效控制了计算复杂度,使得我们能够在有限资源下系统性地挖掘出具有统计显著性的Alpha信号。 1.2Numba加速 在高维时序矩阵的因子挖掘中,计算效率是决定搜索可行性的关键瓶颈。以全市场5000只股票、2000个交易日为例,任意一个涉及滚动窗口的算子(如ts_mean、rank)都需要对每只股票独立执行时序计算。若直接使用Pandas,其底层依赖Python级别的循环,每次窗口滑动都会触发一次函数调用,导致巨大的解释开销。实测表明,即便是一个简单的滚动20日均值,用Pandas遍历5000只股票×2000天也需要约3~5秒;而当因子表达式复杂化——例如先计算变量的平方,再计算该变量的三角函数值并且将两者求和,计算量将呈指数级增长。 为了在不升级硬件的前提下提升因子计算效率,我们引入了Numba对挖掘框架进行加速。Numba通过即时编译技术,将Python数值循环转化为高效的机器码,并直接操作NumPy数组,避免了中间对象的频繁创建。实测显示,对于复杂因子的计算,加速比可达30倍以上,使得原本因计算量过大而难以实施的大规模搜索变得实时可行。 从上图可以看出,当运行相对简单的操作时,Numba虽然比pandas运行速度快,但是Pandas的运行速度也处于可以接受的范围内,两者的差距并不明显,但是当运行相对比较复杂的操作时,Pandas的性能急 剧下降,而Numba凭借编译执行的优势,仍能保持稳定高效。因此,使用Numba可以很大程度上提高程序的运行速度。 二、因子筛选 在因子挖掘完成后,我们对其进行了严格的筛选。由于框架采用网格搜索方式遍历算子与变量的组合,生成的候选因子数量庞大且质量参差不齐。为此,我们并未盲目追求其历史表现,而是构建了涵盖数据质量、信号稳定性、冗余控制与预测能力四个维度的多指标评价体系,对因子进行初步过滤。在此基础上,我们进一步以“结构稳定性+风险可解释性”为核心,对初筛因子进行人工复核,以剔除统计陷阱,确保最终因子的鲁棒性与可解释性。 2.1因子初筛指标与评价维度 在完成因子挖掘后,我们首先对所有候选因子进行初步筛选,以剔除无效或不可靠的信号。这一筛选过程并非简单依赖单一指标,而是从数据质量、信号稳定性、冗余控制、预测能力四个维度构建了多维评价体系,确保每个通过初筛的因子都具备扎实的基础与良好的统计性质。 维度一:数据质量 因子计算依赖于基础数据的完整性与纯净度,若原始因子存在大量缺失或异常,后续分析将失去意义。因此,我们首先要求因子每年缺失率低于设定阈值,确保因子在时间序列上具备连续性;同时,每年有效股票数量需满足最低要求,避免因子因样本过少而失去代表性。此外,我们对因子值进行标准化处理(如中位数去极值与MAD标准化),排除极端异常值对后续统计的干扰。这一维度旨在从源头上保证因子的可用性,为后续分析打下坚实基础。 维度二:信号稳定性 一个有效的因子不仅要有预测能力,其信号本身也应具备稳定性,避免频繁反转或剧烈波动带来的交易成本与不可执行性。我们重点考察以下几点:首先,避免因子信号频繁反转,例如因子值今日提示买入、明日即转为卖出,此类信号易导致高换手与滑点损失且并不稳定;其次,每日横截面排名的数量不发生剧烈塌缩,即因子能有效区分股票,而非集中锁定于少数标的,防止因子沦为个别股票的特征因子,而失去整体选股能力;接着,相邻交易日因子值分布直方图的相似度需达标,确保因子分布形态平稳;除此之外, 每日横截面标准差应处于合理区间,避免因子值过度发散或收敛。 维度三:冗余控制 在因子挖