您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华西证券]:使用更简单指标更有效地识别行业拥挤 - 发现报告

使用更简单指标更有效地识别行业拥挤

2022-04-18张立宁、杨国平华西证券杨***
使用更简单指标更有效地识别行业拥挤

行业拥挤是一种交易现象 了行业拥挤。行业拥挤度过高后,会带来收益的下降,因此投资者应避开高度拥挤的行业。 行业拥挤是一种交易现象,与行业基本面没有直接关联,因此可以使用量价交易数据来衡量拥挤度。 基础的交易数据包括价格、成交额、换手率,从基本数据出发还可以计算各类衍生技术指标,但这将增加工作量,也会增加过拟合的机会。 使用简单指标也可以有效识别行业拥挤 我们基于最简单的价格和成交金额,使用马氏距离计算行业拥挤度,过程简单,同时有效性和稳健性也十分显著。 我们统计拥挤度信号触发后未来60日的行业表现,全部行业的平均绝对胜率和相对胜率分别为69.90%和69.20%;对31个行业中26个行业的绝对和相对胜率达到了50%以上。 改变未来时间窗口和阈值后,识别效果仍然稳健。 行业拥挤度最新提示 过去60日内触发拥挤度的行业包括:房地产、煤炭、交通运输、社会服务、计算机、通信、银行。 风险提示 量化报告的结论基于历史统计规律,当历史规律发生改变时,报告中的模型和结论可能失效。 行业拥挤是一种交易现象 当投资者情绪过于高涨,资金集中进入某个行业时,就形成了行业拥挤。行业拥挤度过高后,会带来绝对收益或者相对收益的下降,因此投资者应该避开高度拥挤的行业。 虽然行业的长期走势是由基本面决定的,但行业拥挤是一种交易现象,更多的是投资者短期情绪化的结果,与行业基本面没有直接关联,因此可以使用量价交易数据来衡量拥挤度。 价格、成交额、换手率三种基础数据包含了交易的全部信息,可以直接使用,当然也可以从基础数据出发计算各类衍生技术指标。衍生技术指标种类繁多,通过对指标的不断尝试,确实可以取得较好的拥挤度识别效果,但是计算量也会非常巨大,这将增加工作量;而且技术指标都会涉及到参数,指标越多参数也会越多,这会大大增加过拟合的机会。 本篇报告中我们基于最基础的交易数据,使用马氏距离计算行业拥挤度,目的是使用更简单的指标更有效的识别行业拥挤。 基础交易数据的有效性识别 本文中的基础交易数据是指价格、成交额、换手率。一般认为当资产价格上涨过多、成交金额增加过多时,伴随有较多的资金流入,当流入超过一定阈值后就形成了行业拥挤;换手率的增加也是这样,当换手率大幅提升时,意味着市场情绪高涨,超过一定阈值后就可能形成行业拥挤,行业未来收益可能会降低。 我们准备从这3类数据入手,识别价格涨幅过高、成交金额增加过多、换手率提升过多的市场状态,将其看做行业拥挤阶段。但在此之前,有必要先实证检验一下这3类数据是否确实与行业拥挤相关。 以价格数据为例,如果它能够有效识别拥挤,那么随着价格历史涨幅的增加,由于行业发生了拥挤,未来收益会出现下降。 我们依此原则进行检验:对每个行业指数的每个历史时点,分别计算过去60日涨幅和未来60日涨幅,得到历史涨幅和未来涨幅两个数据序列。然后根据历史涨幅数值大小对数据分组,例如可以分别得到历史涨幅>10%、历史涨幅>20%的数据组,并计算各分组后数据的相关系数。 如果更高的历史涨幅会增加行业拥挤概率,那么相关系数会小于0,并且随着分组数据中历史涨幅的提高,负相关性会更高。 对价格数据的计算结果显示,这一规律确实成立,随着历史涨幅的提高,与未来涨幅的负相关性增加,也就是越可能发生交易拥挤。 成交额同样遵循这一规律,成交额增加幅度越多,与未来涨幅的负相关性也越强。 换手率则没有同样的规律,随着换手率变动幅度的增加,与未来收益的负相关性先增强再减弱,并没有单调性。 根据前面的分析,价格涨幅和成交金额涨幅对于预示行业拥挤的作用较为明显,但换手率是无效指标,因此我们只基于价格、成交金额两类数据构造拥挤度指标。 同时可以发现当价格下跌、成交金额下降时,与未来涨幅的相关系数没有明显变化规律。因此虽然价格和成交金额的上升可以提示行业拥挤后的下行风险,但两者下降却无法提示行业的上行机会。 使用马氏距离度量行业拥挤 马氏距离(Mahalanobis Distance)与欧式距离相似,是一种常用的距离度量指标。 它的优点是消除了不同维度量纲差异的影响,同时也考虑了不同维度之间的相关性。 以图5为例,X轴和Y轴分别是股票和债券涨幅,两者正相关,但量纲不同,股票的波动幅度明显高于债券,我们希望识别A、B资产组合中哪个出现了异常波动。 在欧式距离中,0.1%的涨跌幅对于股票和债券来说是等价的,因此A点距离原点的欧式距离更近。但0.1%的涨跌幅对于股票和债券的实际影响是明显不同的,应该消除量纲的影响,这时可以使用马氏距离,会发现B点距离原点更近,即组合A属于异常波动。 𝑇 𝑇 如果有𝑛维向量𝑥=( 𝑥1 , 𝑥2 ,∙∙∙∙∙∙,𝑥),其样本均值向量为𝑢=(𝑢,𝑢,∙∙∙∙∙∙,𝑢),样本协方差矩阵为Σ,那么𝑥与样本均值之间的马氏距离(这里直接使用平方项)为 𝑛 𝑛 也可以将𝑢改为任意样本点𝑦,计算𝑥与𝑦两个样本点之间的马氏距离。 我们基于价格、成交金额两类数据,将N日前价格与成交金额的组合作为原点,计算当前值与原点的马氏距离,构造拥挤度指标。距离越大,说明过去一段时间价格和成交金额出现了更明显的上涨,出现行业拥挤的概率越高。 对于行业指数,使用以上方法计算行业内每只成分股的拥挤度,并对全部股票拥挤度取均值或中位数或加权求和,得到行业指数的拥挤度。 这一分析过程只涉及2个参数:交易数据的前后时间间隔、判断拥挤的阈值。 拥挤度识别指标有良好表现 我们取前后时间间隔为60日,计算全部申万一级行业的拥挤度。 为了合理的确定拥挤度阈值,需要观察每个行业拥挤度的走势范围,由于行业数量较多,无法将拥挤度走势全部展示。因此这里对各行业历史拥挤度的均值、中位数、最大值、最小值进行统计,以展示分布规律。 从表1可以看到,不同行业拥挤度的均值、中位数、最小值较为接近,但最大值差异较大。在设置阈值时,既可以设置固定阈值,也可以根据拥挤度最大值的一定比例设置相对阈值,两者的结果非常接近。这里对全部行业设置统一的固定阈值。 在图5中可以看到,当前数据点距离原点较远时,在第1象限和第3象限有完全相反的含义。因为要判断的是行业拥挤,所以只有当数据点位于第1象限,且拥挤度超过阈值的时候,才认为是触发了拥挤信号。 拥挤度识别有高胜率: 我们以2016年为起点,将拥挤度信号触发后未来60日的行业涨幅与基准指数涨幅进行对比。如果行业涨幅<0,认为是绝对正确;如果行业跑输基准指数,认为是相对正确,并据此计算绝对胜率和相对胜率。 当拥挤度阈值为0.02时,全部行业的平均绝对胜率和相对胜率分别为69.90%和69.20%;对31个行业中26个行业的绝对胜率和相对胜率达到了50%以上。 表2中各列的含义如下: 平均绝对涨幅:未来60日行业指数涨幅,按信号次数平均; 平均基准涨幅:未来60日基准指数涨幅,按信号次数平均; 平均相对涨幅:未来60日行业指数涨幅-基准指数涨幅,按信号次数平均; 绝对胜率:未来60日行业指数涨幅<0的次数/信号次数; 相对胜率:未来60日行业指数涨幅<基准指数涨幅的次数/信号次数; 绝对最大跌幅:全部信号记录中行业指数跌幅最大的一次; 相对最大跌幅:全部信号记录中行业指数跑输基准指数幅度最大的一次; 绝对最大涨幅:全部信号记录中行业指数涨幅最大的一次(表示判断错误); 相对最大涨幅:全部信号记录中行业指数跑赢基准指数幅度最大的一次(表示判断错误); 信号次数:拥挤度>0.02且当前数据点位于第1象限的次数。 改变时间窗口胜率依然稳定: 我们改变未来时间窗口的长度,观察从未来10日到未来90日,拥挤度指标的胜率变化。 结果显示胜率非常稳定,时间窗口在30日-90日之间时,绝对胜率和相对胜率都在60%以上。 改变阈值大小胜率依然稳定: 我们固定未来时间窗口为60日,观察改变阈值大小时的拥挤度识别效果。结果显示随着阈值提高,胜率小幅提高,平均信号次数明显减少。 以电子行业为例: 以电子行业为例,我们展示拥挤度识别的效果。2016年至今,电子行业共触发59次拥挤信号,绝对胜率和相对胜率均为93.22%。 信号触发后未来60日电子行业指数平均跌幅为-11.28%,对基准指数的平均超额收益为-7.47%。行业指数单次最大跌幅为-26.12%,单次最大跑输基准为-22.57%。 二是即使在高胜率的情况下,高拥挤度也只是行业下跌的充分条件,而非必要条件。 以图8中的电子行业为例,在触发拥挤度信号后,行业几乎必然下跌;但行业下跌并不一定需要触发拥挤,也可能是其他原因引起下跌,例如2022年以来的行业走势表现。 过去60日内触发拥挤的最新提示: 风险提示 量化报告的结论基于历史统计规律,当历史规律发生改变时,报告中的模型和结论可能失效。