行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

基于算子网格搜索、Numba加速的多维度评价体系

2026-04-30 黎鹏,崔豪轩山西证券郭小欧

因子挖掘框架

核心观点与框架构成

采用基于“算子+变量”组合的网格搜索框架，通过基础金融数据（价、量、估值等）与算子（横截面排序、时序变化、数学变换及逻辑运算符）组合，生成海量因子表达式，实现从线性到非线性、从时序到截面的广泛探索。
采用分层递进策略逐级生成复杂因子，每一层基于前一层筛选出的优质因子进行新一轮组合，生成更高阶的候选因子，并依据IC、ICIR等指标择优进入下一层，有效控制计算复杂度。
引入Numba进行加速，将Python数值循环转化为高效的机器码，实现30倍以上加速，使得大规模搜索成为可能。

因子筛选体系

构建涵盖数据质量、信号稳定性、冗余控制、预测能力四个维度的多指标评价体系，对候选因子进行严格过滤。
数据质量：要求因子每年缺失率低于阈值，每年有效股票数量满足最低要求，并进行标准化处理。
信号稳定性：避免因子信号频繁反转，每日横截面排名数量不发生剧烈塌缩，相邻交易日因子值分布相似度达标，每日横截面标准差处于合理区间。
冗余控制：根据因子类型设定差异化的相关性阈值，控制冗余的同时维持因子库的多样性。
预测能力：通过信息比率衡量预测能力，考察IC序列在不同周期的衰减速度和方向一致性。

因子分级与分级应用

将筛选后的因子划分为三类：
- 排序型因子：横截面上具备清晰单调性且IC稳定，可直接用于构建多空组合。示例因子在分组回测中显示收益差异显著，且并非完全属于小市值因子。
- 结构型因子：存在显著结构性差异但信号本身可能不具备直接预测方向，适合加权或筛选融入模型。示例因子在识别“差股票”方面具备一定区分能力。
- 状态性因子：时序因子，取值具有离散特性，适合用于个股择时。示例因子在截面上具备良好的排序能力，能有效区分未来高收益与低收益股票。

未来研究方向

持续扩充因子库，增加挖掘层数、引入更多基本面指标。
探索因子组合构建，尝试多因子加权、行业中性化处理及风险模型优化。
引入大语言模型（LLM）进行挖掘升级，辅助生成新因子表达式、优化算子组合逻辑，并提升挖掘效率与可解释性。

风险提示

报告内容基于历史价格信息和统计规律，结论无法代表市场未来走势。
模型存在失效风险，可能导致预测结果与实际情况产生显著偏离。
报告阅读者需审慎参考报告结论。

因子挖掘框架基于算子网格搜索、Numba加速的多维度评价体系 2026年4月30日主题报告投资要点：因子挖掘框架 基于算子与变量的网格搜索，采用分层递进策略逐级生成复杂因子，并通过Numba实现30倍以上加速，在控制组合爆炸的同时兼顾挖掘深度与计算效率，最终形成候选因子池山证金工团队分析师：黎鹏执业登记编码：S0760523020001邮箱：lipeng@sxzq.com 因子初筛体系 从数据质量、信号稳定性、冗余控制、预测能力四个维度构建多指标评价体系，对候选因子进行严格过滤，剔除数据缺失、信号反转、高度冗余及预测能力不足的因子，确保留存因子具备扎实的统计基础研究助理：崔豪轩邮箱：cuihaoxuan@sxzq.com 因子分类与分级应用 将筛选后的因子划分为排序型、结构型、状态性三类：排序型因子可直接构建多空组合；结构型因子适合加权或筛选融入模型；状态性因子用于个股择时。通过上述方法体系，我们有效实现了从海量候选因子到有效信号集的压缩与提炼。该方法在保证因子挖掘效率的同时，显著提升了留存因子的稳定性与可解释性，为后续多因子组合构建与风险归因提供了系统性的基础支撑风险提示：报告内容根据公开数据整理得出，结论基于历史价格信息和统计规律，但二级市场受各种即时性政策以及宏观经济影响易出现统计规律之外的走势，所以相关结论无法代表市场未来走势;模型存在失效风险，由于模型构建、参数估计、假设条件等方面存在的不确定性或错误，可能导致模型预测结果与实际情况产生显著偏离;报告阅读者需审慎参考报告结论。目录一、因子挖掘框架的构成..................................................................................................................................................3 2.1框架简述.................................................................................................................................................................32.2Numba加速.............................................................................................................................................................4 二、因子筛选......................................................................................................................................................................5 2.1因子初筛指标与评价维度.....................................................................................................................................52.2因子分级与入池标准.............................................................................................................................................6 三、未来研究方向............................................................................................................................................................11 图表目录图1：因子挖掘框架示意图...............................................................................................................................................3图2：排序型因子分组单位净值图...................................................................................................................................7图3：排序型因子分组年化收益热力图...........................................................................................................................8图4：排序型因子分组市值分布图...................................................................................................................................9图5：结构型因子分组单位净值图.................................................................................................................................10图6：状态性因子分组单位净值图.................................................................................................................................11 表1：Numba和Panda加速对比表.................................................................................................................................4 一、因子挖掘框架的构成在量化研究的实践中，因子的有效性是策略表现的基石。随着市场有效性逐步提升，传统单一风格因子或人工挖掘的Alpha已逐渐拥挤，依靠主观逻辑构建因子的范式面临边际收益递减的困境。为此，本报告采用了一种基于“算子+变量”组合的搜索框架，旨在高维空间中系统性地挖掘未被定价的Alpha信号。本研究使用的基础金融数据来源于同花顺，涵盖2015年至2026年的日频数据，包含价格、成交量、估值等基础变量。股票池范围为全部A股（剔除上市不满90个交易日的股票）。在数据预处理方面，我们初步仅对缺失值进行了识别与标记。 1.1框架简述研究方法上，我们构建了一个包含基础金融数据（价、量、估值等）的变量池，并引入包括横截面排序、时序变化、数学变换及逻辑运算符在内的多种算子。通过将变量与算子进行高维组合，我们生成了海量的因子表达式，实现了从线性到非线性、从时序到截面的广泛探索。为提升挖掘效率，整个计算过程依托Numba加速，显著缩短了回测周期，使得大规模搜索成为可能。资料来源：山西证券研究所本框架的核心思想在于通过基础算子（如ts_mean、rank等）与原始变量的组合，生成复杂度逐级递增的因子表达式。为避免组合爆炸，我们采用分层递进的搜索策略：每一层均基于前一层筛选出的优质因子（或基础变量）进行新一轮组合，生成更高阶的候选因子，并依据IC、ICIR等指标择优进入下一层。这种“层层递进、优胜劣汰”的机制，既保证了因子空间的广泛覆盖，又有效控制了计算复杂度，使得我们能够在有限资源下系统性地挖掘出具有统计显著性的Alpha信号。 1.2Numba加速在高维时序矩阵的因子挖掘中，计算效率是决定搜索可行性的关键瓶颈。以全市场5000只股票、2000个交易日为例，任意一个涉及滚动窗口的算子（如ts_mean、rank）都需要对每只股票独立执行时序计算。若直接使用Pandas，其底层依赖Python级别的循环，每次窗口滑动都会触发一次函数调用，导致巨大的解释开销。实测表明，即便是一个简单的滚动20日均值，用Pandas遍历5000只股票×2000天也需要约3～5秒；而当因子表达式复杂化——例如先计算变量的平方，再计算该变量的三角函数值并且将两者求和，计算量将呈指数级增长。为了在不升级硬件的前提下提升因子计算效率，我们引入了Numba对挖掘框架进行加速。Numba通过即时编译技术，将Python数值循环转化为高效的机器码，并直接操作NumPy数组，避免了中间对象的频繁创建。实测显示，对于复杂因子的计算，加速比可达30倍以上，使得原本因计算量过大而难以实施的大规模搜索变得实时可行。从上图可以看出，当运行相对简单的操作时，Numba虽然比pandas运行速度快，但是Pandas的运行速度也处于可以接受的范围内，两者的差距并不明显，但是当运行相对比较复杂的操作时，Pandas的性能急剧下降，而Numba凭借编译执行的优势，仍能保持稳定高效。因此，使用Numba可以很大程度上提高程序的运行速度。二、因子筛选在因子挖掘完成后，我们对其进行了严格的筛选。由于框架采用网格搜索方式遍历算子与变量的组合，生成的候选因子数量庞大且质量参差不齐。为此，我们并未盲目追求其历史表现，而是构建了涵盖数据质量、信号稳定性、冗余控制与预测能力四个维度的多指标评价体系，对因子进行初步过滤。在此基础上，我们进一步以“结构稳定性+风险可解释性”为核心，对初筛因子进行人工复核，以剔除统计陷阱，确保最终因子的鲁棒性与可解释性。 2.1因子初筛指标与评价维度在完成因子挖掘后，我们首先对所有候选因子进行初步筛选，以剔除无效或不可靠的信号。这一筛选过程并非简单依赖单一指标，而是从数据质量、信号稳定性、冗余控制、预测能力四个维度构建了多维评价体系，确保每个通过初筛的因子都具备扎实的基础与良好的统计性质。维度一：数据质量因子计算依赖于基础数据的完整性与纯净度，若原始因子存在大量缺失或异常，后续分析将失去意义。因此，我们首先要求因子每年缺失率低于设定阈值，确保因子在时间序列上具备连续性；同时，每年有效股票数量需满足最低要求，避免因子因样本过少而失去代表性。此外，我们对因子值进行标准化处理（如中位数去极值与MAD标准化），排除极端异常值对后续统计的干扰。这一维度旨在从源头上保证因子的可用性，为后续分析打下坚实基础。维度二：信号稳定性一个有效的因子不仅要有预测能力，其信号本身也应具备稳定性，避免频繁反转或剧烈波动带来的交易成本与不可执行性。我们重点考察以下几点：首先，避免因子信号频繁反转，例如因子值今日提示买入、明日即转为卖出，此类信号易导致高换手与滑点损失且并不稳定；其次，每日横截面排名的数量不发生剧烈塌缩，即因子能有效区分股票，而非集中锁定于少数标的，防止因子沦为个别股票的特征因子，而失去整体选股能力；接着，相邻交易日因子值分布直方图的相似度需达标，确保因子分布形态平稳；除此之外，每日横截面标准差应处于合理区间，避免因子值过度发散或收敛。维度三：冗余控制在因子挖

点击免费查看完整报告

基于算子网格搜索、Numba加速的多维度评价体系

因子挖掘框架

核心观点与框架构成

因子筛选体系

因子分级与分级应用

未来研究方向

风险提示

你可能感兴趣

公募固收类策略与产品研究系列一：多维度构建“固收+”基金风格评价体系

2022年债券市场将增强稳经济作用基于信用分层的风险评价体系逐渐形成

证券投资基金:新推基于基础资产分类的国信债基评价体系

国家电网：基于能源数据的典型行业碳资信评价体系及应用场景研究报告

第十二届电工技术前沿问题学术论坛：基于算子学习的等离子体数值模拟及应用

基金经理多维度能力评价因子的优化

传媒行业深度报告：广电体系全梳理：多维度论述广电网络整合的必然性

资产配置系列之三：基于多维度行业景气度与估值动量的行业轮动策略

私募基金专题报告：基于因子维度，构建量化CTA策略评价模型

私募基金专题报告：如何基于因子维度，构建股票市场中性策略评价模型

基于算子网格搜索、Numba加速的多维度评价体系

你可能感兴趣

公募固收类策略与产品研究系列一：多维度构建“固收+”基金风格评价体系

2022年债券市场将增强稳经济作用 基于信用分层的风险评价体系逐渐形成

证券投资基金:新推基于基础资产分类的国信债基评价体系

国家电网：基于能源数据的典型行业碳资信评价体系及应用场景研究报告

第十二届电工技术前沿问题学术论坛：基于算子学习的等离子体数值模拟及应用

基金经理多维度能力评价因子的优化

传媒行业深度报告：广电体系全梳理：多维度论述广电网络整合的必然性

资产配置系列之三：基于多维度行业景气度与估值动量的行业轮动策略

私募基金专题报告：基于因子维度，构建量化CTA策略评价模型

私募基金专题报告：如何基于因子维度，构建股票市场中性策略评价模型

2022年债券市场将增强稳经济作用基于信用分层的风险评价体系逐渐形成