我们挑选了10家量化私募,其指增产品超额收益自2021年起相关性中位数高达0.6,远高于公募量化指增超额相关性中位数,后者仅为0.4,说明量化私募模型存在高度同质化的可能。 我们采用机器学习的方法,分别使用三组完全不同的机器挖掘特征组,预测不同尺度下的股票收益,并针对不同股票池构建多空组合。 发现各组合在样本外的表现呈现高度相似性,扣费后的回撤期与量化指增产品的超额回撤期类似,这进一步增加了量价模型存在高度同质化的可能性。 最后我们对量价模型的样本外组合进行分析,发现其在中信一级行业是未获取显著超额收益,在风格上的暴露也大都呈现周期性。除此之外,我们发现有两点值得注意:1.量价模型长期在流动性因子上保持负向敞口,且在2021年8月达到极值,随后呈现周期性走势,恰恰对应了量价模型扣费后的回撤期。2.市值因子和动量因子的暴露情况十分接近,且均维持较大的正向暴露。 经过分析我们认为市值敞口与流动性敞口的差值若处于高位,此时量价模型倾向于持有流动性差的大市值股票,存在微观交易结构恶化的可能性,模型也将会迎来超额回撤阶段。 风险提示:本结论基于历史统计与量化模型,存在历史规律与量化模型失效的风险。 1.引言 回顾近两年的市场,头部私募量化指增产品历经2021年9月开始的超额回撤,直至2022年2月底企稳反弹,平均回撤将近10%。这不禁让我们联想到2021年初的蓝筹白马抱团瓦解,2022年初的新能源股崩溃,两者的原因均为赛道股过于拥挤导致筹码结构恶化,最终只能通过大幅回撤消化前期的过热行情。 众所周知,头部私募量化指增产品多为多因子模型,其中量价因子占主导比例,既然蓝筹白马、新能源股能成为一种市场风格,那么通过大量量价因子构建的交易曲线又何尝不能成为一种市场风格呢? 本文的主要工作分为三点: 1.量价模型是否存在同质化问题? 2.如何构建一个量价模型? 3.量价模型的收益来源及风险点。 通过以上工作,不仅可能帮助我们增强收益,也能更好地理解市场风险,及量价模型的适用环境。 2.量价模型是否存在同质化问题? 谈到风格,大部分投资者脑中的概念无非是成长或者价值,或者说某些赛道板块。更进一步,在量化选股领域里特指,有长期收益,但波动较大的因子,如动量、盈利、波动、流动性或市值等。但归根结底,我们认为风格实际上指投资者倾向于趋同交易所参考的特征。简单来说,如果投资者总喜欢按照某一个概念或指标对一篮子股票进行交易,那么这个概念或指标可被称为风格。 我们在2020年9月对当时的蓝筹白马行情进行了风格分析,惊人的发现,当时的基金超额收益与所谓的价值,盈利,质量等因子收益并不呈现高相关性,而是与长期动量因子收益呈现极高的相关性。长期时序相关性为0.42,2017年至2021年相关性高达0.7,事后证明这的确是由资金主导的趋同交易导致的市场现象。 图1普通股票型基金指数超额收益与动量因子收益相关性较高 同样的,如果量价因子主导的量化私募存在趋同交易,其必定在净值上存在较高的相关性。我们在下图中列举了10家量化私募的中证500指增产品相对于中证500指数的超额收益相关性矩阵图,统计时间范围为2021年1月至2022年7月,其中相关性中位数为0.60。 图2私募量化指增超额相关性高企 下图为其超额累计收益情况,可以发现走势的确高度趋同。 图3私募量化指增超额走势趋同 为了作对比,我们也统计了公募量化指增超额相关性的情况。我们选取了10家规模靠前的公募中证500指增产品进行统计,其超额收益时序相关性图如下图所示,其相关性中位数仅为0.4。 图4公募量化指增超额相关性不高 再逐一对照公募对私募指增超额的相关性,发现平均呈现0.3左右的情况,说明公募指增整体模型并不趋同且与私募相关性较低。 图5公募量化指增超额与私募指增超额相关性较低 容易得知的是,公募量化由于交易及换手率的限制,必然不能大规模采用量价因子构建组合,而是倾向于采用更多的基本面因子,所以其超额相关性与私募量化较低。而私募整体相关性较高,说明其必然采用类似的选股架构,所以会导致一定程度上的趋同交易,在超额收益上体现为较大的波动性和周期性,历经半年的回撤期后,10家私募中仅有3家的超额收益创出新高。 可以预见的是,随着私募量化指增的规模趋稳回升,大部分量价因子主导的选股模型必然呈现类风格的表现,而非稳定alpha,即量价风格开始存在,且会长期存在,投资者应放低预期,将其当作风格指数进行配置。 3.如何构建一个量价模型? 通过公开信息以及我们自身的研究经验,我们可以将现存量化选股模型总结如下。分别为使用线性加权的传统模型,使用非线性模型进行收益预测的机器学习模型,以及直接端到端的深度神经网络模型。这三个框架大体上都是遵循DataMining,FeatureSelection,Prediction的技术路线,区别还是在于使用的技术不同。 图6量化选股模型框架异同 限于硬件水平和技术实力,本文不适用端到端的预测模型。为了避免任何可能的未来数据导致的前视偏差,亦不使用任何人工因子,只使用样本内的数据进行机器挖掘生成量价类因子。 3.1.Data Mining 本节主要介绍使用遗传规划算法生成量价类因子,由于我们之前已经写过类似报告,故重复内容不再赘述,这里主要介绍部分细节及相关优化算法。 遗传规划算法的本质是更为高效的暴力符号搜索,所以一切算法的优化都需注重于提升挖掘速度,目的是在尽可能短的时间内找到合适数量的特征去充分表达样本空间。这里我们一共使用三个优化算法去加速特征挖掘的速度。 3.1.1.Beam Search 我们通过观察发现,高适应度因子的父代往往也是高适应度因子,初始种群质量对后续进化影响较大。因子挖掘场景下,我们找的往往是单个随机种子下的局部最优解,所以为了加快收敛,可以在轮盘赌的基础上采取𝐵𝑒𝑎𝑚𝑆𝑒𝑎𝑟𝑐ℎ算法提升初代种群质量,进一步加速。 𝐵𝑒𝑎𝑚𝑆𝑒𝑎𝑟𝑐ℎ算法本质是一种贪心算法,具体做法为: 计初始种群数量为𝑛,首次产生𝑛 ∗ 𝑘个个体,再挑选适应度前𝑛的个体作为初始种群 图7Beam Search算法示意图 3.1.2.PCA-Similarity 对于预测问题来说,产生多个低相关的因子不仅能提升预测能力,还能减少过拟合风险。对于遗传规划来说,即我们需要保持种群多样性,防止算法进入局部最优。在实际挖掘过程中,我们会挖掘到大量形式类似的高适应度因子,然而这不仅对提升整体预测能力作用有限,还浪费大量算力,所以有必要对这种现象进行限制。 常见的做法是更改适应度函数,加入相应惩罚项进行约束。然而这种方式对惩罚系数较为敏感,过小的惩罚系数导致约束力度不足,过大的惩罚系数会导致适应度函数偏离原有的初衷,挖掘不到有效因子,且复杂的适应度函数会大幅提升计算成本,拖累挖掘进度。 我们对于高于相关性阈值的因子,进行适应度最小化处理,防止出现过多同类因子。然而伴随即存因子数量的增加,相关性计算开销大幅提高。 传统因子截面为𝑛∗𝑇的面板数据,其中𝑛为标的数量,𝑇为时间序列长度。 若我们共有𝑝个因子,则计算所有因子两两之间相关系数的计算复杂度为𝑂(𝑛𝑝𝑇)。而𝑃𝐶𝐴算法的计算复杂度仅为𝑂(𝑛𝑇 + 𝑛),所以可以先对原 因子进行𝑃𝐶𝐴降维,再计算相关性,可将整体的计算复杂度降到𝑂(𝑝𝑇),提高挖掘速度。 图8PCA-Similarity算法示意图 PCA-Similarity算法的核心思想还是对原始因子矩阵进行降维,通过牺牲一定的计算精度,提升整体挖掘速度。 3.1.3.F amily Competition 在上一节中我们采用的方法为直接在挖掘过程中通过约束条件进行硬性限制,现在我们不光要求特征在统计上呈现低相关,且在形式上也呈现低相关,本节使用通过Family Competition算法维系种群基因多样性。 图9F amily Competition算法示意图 在因子挖掘过程中,我们发现部分低相关因子的父代相同,长期计算后,可能导致某个根部基因占据整个种群。从而使得其余基因丧失繁衍机会。 Family Competition算法原理较为简单,即在种群竞争的基础上添加家庭内部竞争,每次交叉繁衍后,若两个子代的适应度最大值高于父代中适应度最大值,则将父代剔除,使得该根部基因的数量得到控制。 3.2.FeatureSelection 在上一节中,我们使用2019年初至2020年底,共计两年的股票交易数据进行特征挖掘。为了避免路径依赖的随即种子的问题,共挖掘3组因子,数量分别为125,125,128,分别对未来1天,3天,5天的平均收益进行预测。 我们在特征挖掘的过程中使用了Filter技术,除此之外,为了避免前视误差,不进行任何人工筛选,只使用集成模型进行自动筛选。 图10T1特征相关性分布 图11T3特征相关性分布 图12T5特征相关性分布 上图分别为3个特征组各自的全时序相关性分布情况,由于挖掘时设置的相关性阈值较宽,因子数量较少,并未呈现稳定的分布状态,但这可为后续预测环节的鲁棒性提供对比验证。 3.3.Prediction 我们在上一节中通过2019年初至2020年底的股票交易数据挖掘得到三个特征组,本节将采用机器学习的方法对以上特征组进行合成并最终实现收益预测。 传统线性框架中对多因子的合成往往采用线性加权,如等权,因子收益加权,ICIR加权等,优势为一定的可解释性,可以清晰的将股票收益进行分解。随着技术发展,不少对冲基金均采用机器学习的方法对因子进行合成,通过对历史数据的训练,希望能挖掘到更多的因子潜力。 图13机器学习下的因子合成框架 本节采用Kaggle比赛常用的集成模型对三个特征组合分别进行合成,并预测不同周期下的股票收益,基模型为随机森林,GBDT以及神经网络。 具体合成结构如下图所示,采用多个基模型的好处是和而不同,减小样本外的过拟合风险,从而变相增强样本外的预测能力。 3.3.1.样本外预测表现 下图展示的是不同预测尺度下,不同股票池及不同预测方法下的样本外多空收益,此处以全天vwap价格计价,暂未考虑手续费,仅考察预测能力。 1.中证800+中证1000+集成模型2.沪深300+集成模型 3.中证800+中证1000+等权模型 图14T+1样本外预测能力(对数轴) 图15T+3样本外预测能力(对数轴) 图16T+5样本外费后结果(对数轴) 可以发现,在不考虑交易费用的前提下,使用集成模型获得的预测结果远优于等权模型。且在不同特征集,不同预测尺度下均获得了稳定结果,在沪深300股票池中也有不错表现,说明这一技术路线是足够鲁棒的。 3.3.2.样本外费后结果 众所周知,量价因子在拥有稳定alpha预测能力的同时也存在高换手率的弊病,本节结果展示了扣费后的多空收益。由于我们以全天vwap价格交易,所以暂时不考虑滑点,双边手续费以1.2‰计。 图17ZZ800+ZZ1000样本外预测能力(对数轴) 可以发现在ZZ800+ZZ1000的股票池中,样本外预测在扣费后依然有不错的绩效,且T+1高频换手的绩效优于T+3及T+5,这符合我们对量价模型的认知。 然而沪深300的股票池中,样本外预测在扣费后甚至产生了明显的负向收益,与上一节中扣费前的表现截然相反,说明此模型在样本外的预测能力无法覆盖高度换手带来的手续费损耗。与此同时,我们也发现,在沪深300成分股中,更长周期的预测尺度是优于短周期尺度的,这一点无论在费前还是费后都是如此,说明沪深300股票池中有更强的动量效应,这一点和我们之前的研究成果也是契合的。 图18HS300样本外费后结果(对数轴) 3.3.3.策略改进 考虑到手续费带来的损耗,本节尝试仅交易预测值超过截面95%分为个股。可以发现,沪深300股票池中样本外表现得到明显改善,说明模型对两端个股有更强的预测能力。 图19H