AI智能总结
中证500内选用因子介绍。用于中证500内选股的因子主要有11个类别,分别为北上资金、超预期(传统)、成长、分析师、超预期(分析师)、总量、估值、超预期衍生(估值)、盈利、超预期衍生(盈利)、价量因子。对这些因子在中证500指数成分股内的选股表现进行详细测算和展示,筛选出投资逻辑强、效果较好的近百个因子。 多因子加权。除了北上资金和总量因子权重为5%,其他大类因子权重为10%,大类因子内部权重也使用等权加权方式。其中,四类超预期因子的总权重达到40%。我们也初步尝试了根据因子表现加权、LightGBM模型加权,年化超额没有明显提升。 中证500指数增强策略表现。在中证500股票池构建指数增强策略,组合年化超额收益17.86%,超额收益最大回撤-6.63%,信息比率3.65,周度双边换手率16.15%。样本外2022年以来超额收益8.87%,超额收益最大回撤-1.11%。 风险提示:量化模型基于历史数据构建,而历史规律存在失效风险。 我们国泰君安量化配置团队在《权益因子观察周报》中对公募指数增强基金业绩、常用选股因子表现以及指数增强策略组合进行了跟踪展示。 本报告主要介绍使用基本面因子在中证500股票池中构建指数增强策略的具体过程。首先介绍常用的多因子模型框架。然后,对各类因子进行单因子测试,详细展示近百个单因子在中证500指数成分股中的选股效果。最后,每类筛选出效果较好的因子,以类内等权、大类等权的方式计算因子总得分;在控制市值、行业中性和个股权重约束下,求解得分最大化股票权重构建指数增强组合;展示中证500指数增强策略的历史表现,供投资者参考。 1.多因子模型介绍 多因子模型(Multiple-Factor Model, MFM)属于国内外主流量化选股模型之一。使用多个因子预测股票未来收益,筛选预期收益较好的股票,以期战胜基准指数。学术研究上,这类模型属于资产定价理论,最早起源于CAPM资产定价理论,1970年罗斯提出APT多因素模型,该模型认为股票未来的收益可以用若干因素来解释。但是并没有指出哪些具体的因素。实证研究方面,1992年Fama和French提出三因素模型,使用市场、市值、估值三个因子作为自变量解释股票未来收益,效果不错。 2015年Fama和French从股利贴现模型出发,推导出与股票收益相关的因素,加入盈利和投资因子,提出五因子模型: 𝑅− 𝑅= 𝛼 + 𝛽(𝑅− 𝑅) + 𝛽𝑆𝑀𝐵 + 𝛽𝐻𝑀𝐿 + 𝛽𝑅𝑀𝑊 + 𝛽𝐶𝑀𝐴 + 𝜀 𝑖 𝑓 𝑚 𝑓 𝑖 其中,SMB为市值因子收益率,HML为估值因子收益率,RMW为盈利因子收益率、CMA为投资因子收益率。Fama和French使用五因子模型分析了多种常见的市场异象,也研究了五因子模型在国际其他股票市场的效果。 在目前实际投资研究过程中,多因子模型使用估值、盈利、成长、公司治理、价量(反转、流动性、波动性等)、分析师预测、超预期等几大类因子进行选股,构建一篮子股票的投资组合。多因子选股模型的体系广义上讲,一般由有三部分组成:收益预测模型、风险模型、交易成本模型。目前国内研究主要集中在前两类模型,其中收益预测模型主要是通过多因子打分选股、量化模型预测收益率选股,一般直接称为多因子选股模型。多因子模型选股基础性工作是各类单因子和大类因子选股效果的测试和跟踪。多因子选股模型体系见下图。 图1 下面介绍本报告用到单因子测试、多因子加权、指数增强组合构建等内容。 1.1.单因子测试 对各类因子进行单个因子选股效果测试是多因子选股的基础工作。下面介绍因子的数据处理方法、单因子选股测试的一般步骤。 1.1.1.股票池与比较基准 为了测试单个因子的选股效果,首先需要确定比较基准和股票池。不同股票池中,股票的风格分布特征会有所不同,因子的选股效果会略有区别。比如,沪深300以大盘蓝筹为主,行业也多是分布在金融、周期性行业,选股逻辑与小盘股的投资逻辑明显不同,使用的因子也会不一样。 为了构建对应不同基准的选股策略,会对不同股票池进行单因子选股效果的测算,找出在特定股票池中选股效果较好的因子。 初始股票池:选股日中证500指数成分股。为了使测试结果更符合实际投资过程,对无法交易的股票进行剔除:(1)剔除选股当日的ST股票; (2)剔除上市不满半年的股票;(3)剔除选股日由于涨停、停牌等原因而无法买入的股票。 1.1.2.数据处理 在确定股票池之后,按照因子公式计算每只股票在因子f上的取值,一般称为因子暴露(Factor Exposure)。对于因子原始值,一般需要进行去极值、标准化、缺失值填充、市值行业中性化等数据处理操作。 (1)去极值 个别股票可能存在因子数据错误、因子值过大过小等极端情况,为了保证数据质量,需要进行去极值操作。我们主要使用中位数去极值法,是针对3倍标准差法的改进,原因在于国内大部分股票因子值的分布并不服从正态分布,因此国内大多数研究采用此方法处理极值。 (2)标准化 由于不同因子在量纲上存在差别,因此在因子加权、多元回归中需要对单个因子在横截面上进行标准化,从而让不同因子的暴露度之间具有可比性。一般的标准化方法,将当期去极值后的因子值序列减去全部股票的均值、再除以其标准差,得到一个新的近似服从N(0,1)分布的序列。 (3)缺失值处理 对于个别股票的因子值缺失的情况,需要使用数据替代算法处理。由于不同因子可能在不同个股上存在缺失,如果不做处理则每个因子选股的股票池并不完全相同,不同因子之间选股效果的可比性会受到影响。处理方法具体有全市场均值替代、行业均值替代、回归方程估计多种方式。 我们在本报告使用行业中值替代,当某只股票某个因子缺失时,考虑使用该行业的均值或中值替代。 (4)市值行业中性化处理 对于选股而言,股票市值、行业差异较大,原始因子的选股效果受到市值、行业因素的影响。例如,不同行业、不同市值股票之际估值差别很大;以市盈率因子为例,按照分组法,低市盈率的一组主要是大市值的股票,行业多属于银行、周期性行业,市值、行业因素的直接影响低PE分组的股票组合收益。目前使用最多的做法是对因子进行市值行业中性化处理。具体做法是:将每个股票标准化后的因子作为因变量,对对数市值和中信一级行业虚拟变量进行横截面回归,将回归后的残差作为每个股票因子值。一般认为,在全市场股票池中经过中性化处理后的因子,排除了市值和行业的影响,更好地反映因子的投资逻辑和选股效果。 1.1.3.因子测试方法 我们通过因子IC测试、分组回测、单因子组合优化等多种方式来考察因子收益预测的有效性与稳定性。 (1)因子IC测试 因子的IC值是指第T期的因子值(因子中性化处理后残差)x⃗与T+1期的股票收益r的相关系数——Pearson相关系数。此外,可以计算秩相关系数——Spearman相关系数,使用两个变量的位次计算,是与因子分布无关。 t t+1 (2)因子分组测试 因子分组测试是根据因子值打分排序分多组测试各组组合累计净值表现。本报告我们采用分10组,周度定期调仓的方法进行测试。因子多空测试是分组测试中第一组与第十组多空强弱表现,多空测试与分组测试可以一并进行。主要考察以下绩效指标:a)分组测试的累计收益率、最大回撤等;b)多头、空头组合的年化收益率、年化波动率、夏普比率、最大回撤等;c)多头、空头组合相对市场基准的超额年化收益率、超额年化波动率、信息比率、超额最大回撤等。分组测试操作方便,结果直观,是使用最广的一种单因子测试方法,可以分析因子分组后各组收益的单调性。 (3)单因子组合优化 除了常用的IC、分组测试以外,还可以使用组合优化的方式构建跟踪基准指数的组合,考察因子的超额收益表现。我们使用组合优化方式,添加多种约束条件,构建单因子的最大化股票得分组合,考察单因子的选股效果。具体每期的组合构建上,严格控制市值行业中性,并对个股权重进行约束,使用组合优化求解个股权重构建组合。组合优化参数设置上,对于中证500股票池,控制市值行业严格中性,设置个股权重偏离上限1%和个股权重上限1%。根据每周组合优化计算得到的股票名单和权重,对单因子选股组合进行历史业绩测算。计算组合的相对比较基准超额收益、最大回撤、超额收益信息比率等绩效指标。 1.2.多因子加权 基于单因子测试结果,我们筛选每类因子中单因子表现较好的因子作为备选因子。每类因子都有多个候选因子进行单因子选股测试后,可能有多个因子效果较好,此时需要考虑同一类中多个因子值或因子得分如何加权合成大类因子值或大类因子得分,对于第k类因子,由于同一类中因子的经济学含义,投资逻辑比较趋同,相关性也较高,我们建议做等权合并处理。事实上每类内部也可以按照IC加权、IC_IR加权等方式进行加权。除了每类选多个因子加权,也有每类只选效果最强的因子作为大类因子。为了选股效果的长期稳定,建议使用多个子因子加权合成大类因子。 1.2.1.相关性处理 合成大类因子以后,大类因子之间会有一定相关性。在加权时,因子共线性使得组合在某些因子上有重复的暴露,导致选股组合的表现受到影响。在多因子回归,因子共线性会导致回归模型基本假设不满足,将使回归模型评估失真或者不准确。所以需要对相关性进行处理。常用分析相关性方式有计算相关系数矩阵、方差膨胀因子等。处理相关性的方法有:逐步回归方式筛选因子、正交化方法使因子向量正交等。常用的正交化方法有施密特正交化、对称正交、正则正交等。 1.2.2.多因子加权 在得到各大类复合因子,进行正交化处理后,也需要考虑大类因子如何加权选股。经常使用的加权方式有:因子等权加权,即每个因子分配相同的权重。这种加权方式较为简单,但是没有考虑因子有效性的差异。基本思想是平等看待每类因子代表的投资逻辑,不做有偏好和预测的主观判断。避免了数据过度拟合,忽略了因子预测能力的差别。IC均值加权,是直接用各因子过去T期的因子IC的均值作为权重。这种方式考虑了因子过去一段时间的有效性。IC_IR加权,是以因子过去T期的因子IC的均值除以其标准差作为当期因子K的权重。这种方式同时考虑了因子过去一段时间的有效性和稳定性。最优化复合IR加权。Qian(2006)提出以最大化复合因子IC_IR为目标函数,对因子权重进行组合优化计算因子权重方法。这种方法的优点是综合考虑了过去一段时间的有效性、稳定性和相关性。 加权后得到的复合因子测试方法与单因子测试相同,可以通过因子IC测试、分组测试、组合优化考察复合因子收益预测的有效性与稳定性。 1.2.3.提升树等机器学习模型 对于因子加权,以往的常规做法是每类因子内部先加权,然后大类因子之间再做加权,加权方式的选择因人而异。近几年的机器学习模型广泛的应用于股票收益预测。实战中应用较多、比较知名的是Xgboost、LightGBM、CatBoost等提升树模型。使用机器学习模型,可以将因子库中大量的因子作为特征输入,预测股票下期超额收益。其中提升树模型与分组打分、线性加权相比,可以学习因子和下期收益之间的非线性关系,预测效果更好。Xgboost和LightGBM都是梯度提升决策树GBDT的实现框架。GBDT (Gradient Boosting Decision Tree)的主要思想是利用一系列决策树作为弱分类器,迭代训练得到最优模型。GBDT模型具有训练效果好、不易过拟合等优点。下面简要介绍Xgboost和LightGBM。 XGBoost(eXtreme Gradient Boosting)是华盛顿大学陈天奇开发是目前使用最多的大规模并行开源Boosting tree工具包。在数据科学方面,有大量的Kaggle选手选用XGBoost进行数据挖掘比赛,是各大数据科学比赛的必杀武器;在工业界大规模数据方面,XGBoost的分布式版本有广泛的可移植性,支持在Hadoop、Dask等各个分布式环境上运行,使得它可以很好地解决工业界大规模数据的问题。 LightGB