您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[爱建证券]:高频选股因子梳理与新因子探索 - 发现报告
当前位置:首页/其他报告/报告详情/

高频选股因子梳理与新因子探索

2016-10-10侯佳林爱建证券绝***
高频选股因子梳理与新因子探索

高频选股因子梳理与新因子探索1爱建证券有限责任公司研究所金融工程证券研究报告金融工程专题报告发布日期2016年10月10日星期一高频选股因子梳理与新因子探索分析师:侯佳林执业编号:S0820511030002TEL:021-32229888-25508E-mail:houjialin@ajzq.com联系人:方时执业编号:S0820116070040TEL:021-32229888-32185E-mail:fangshi@ajzq.com报告摘要:部分高频因子梳理我们选取5个近期较为热门的因子,这5个因子分别从股价的高频走势,股价的量价变化,股票的高频收益;个股与大盘的关系,以及连续成交情况等5个方面来解析个股,试图从中寻找到具有超额收益的因子。异动型股票的类型与筛选本篇报告将根据不同条件选出三类异常型股票,1时间占比异动类,即分钟异动时间异于以往;2成交量占比异动类,即异动时刻成交量累计量异于往常;3价格波动累计占比异动类,即每日由异动时间造成的价格累计涨跌量异于往常。异动型走势股票筛选方案:(1)取股票s在交易日T的日内分钟交易数据的收益率序列,计算其与上证指数收益率的比值情况。(2)计算股票在T日前40个交易日的剔除极端值后的比值的均值与方差,选出T日分钟收益比值超过λ的或者为负的分钟序列,计算其在整日中的占比以及成交量占比,以及收益绝对值占比(3)对异动时长占比和异动成交量占比以及异动收益绝对值占比进行40日纵向标准化。并设定阀值λ,以超越λ值的股票为异动性股票。异动型股票的表现情况基于ZZ500股票池,我们对三种不同的异动型股票进行初步回测。结果表明,三种模式中对于沪深300的超额收益均明显超过对比与ZZ500的超额收益,从这里可以看出在测试的时间内,股票的市值效应较为明显。同时从逆势涨和逆市跌两种情况累计表现对比可以看出,异动型股票对于股票分层有着较为显著的效果;同时累计超额收益均比较显著。从单个模型来说,时间占比异动型的超额收益较其他两种要高,但同时波动性也更加强烈,值得注意的是,时间占比异动类的在T+18日累计收益达到了最大值,随后下跌。这里会否意味着时间占比异动型股票有着短周期的效应?剩下的两种情况相较于时间占比异动类累计收益更加平稳,但负面效应是累计超额收益有所下降风险提示数据回测只代表历史,并不表示未来一定会按照趋势延续。数据来源:WIND,爱建证券研究 2一、前言自6、7月份以来,通过高频数据的累计效应为低频选股做以支持越来越受到研究人员的关注,高频数据的日间操作探索似乎已经成为的研究人员的新型乐园。在以往传统空间日益萎缩的同时,这一片新乐土成为了大家向往的地方。天下武功,唯快不破。任何长周期的数据均是由短周期的数据来组成的,在长周期上看,很多时候仅仅能够观察到事物的轮廓,而这种轮廓是否真实的表达了股票本身的逻辑,值得怀疑。从另一个角度来说来看,高频数据也许是个好的解决办法,越高频的数据也许越能够贴近真实的交易意图,这也是研究者们痴迷于高频数据的原因。从更加高频的数据出发,也许能够从更加多的方面发现中低频数据不能发现的特征。本篇报告分为两部分:(一)对部分高频数据转换为低频选股因子的梳理;(二)新高频选股因子的探索。二、部分高频选股因子梳理在对于高频选股因子的梳理中,我们选取5个近期较为热门的因子,来对高频因子进行梳理。这5个因子从股价的高频走势,股价的量价变化,股票的高频收益,股票数据与大盘的关系,以及连续成交情况等5个方面来解析个股,并试图从中寻找到具有超额收益的因子。(对于过去因子的回顾,我们主要关注其使用的方法以及结论,并非详细探讨细节问题)2.1基于聚类特征模式识别的走势,成交量类特征选股俗语说,物以类聚,人以群分。基于聚类特征的股票研究,就是基于股票的不同特征,将相似的股票样本放在同一个篮子里面。另外相对于低频数据,高频数据能够更加细致的反应市场本身结构的细微变化。结合高频数据的聚类特性和模式识别的技术对股票短期走势,基于历史会重演的逻辑-即股价走势就是买卖双方对于价格达成一致的表现,过去股价的走势、成交量状况也许会对未来的股价走势做一判断参考。基于这种理论聚类性因子就这样诞生。2.1.1聚类方法的选择在目前的聚类模式中,充斥着大量的聚类算法。对于具体的应用,需要根据不同的数据类型,以及聚类的目的来选择合适的聚类方法。一般的可以将聚类的方法一下几种:划分方法、层次方法、基于密度的方法、基于网格的方法、以及预计模型的方法。每种方法都存在广泛的应用算法。在划分方法中有k_means聚类算法,层次方法中的凝聚型层次聚类算法、基于模型的神经网络算法等。这里以k_means算法做以案列,k_means算法以k为参数,把n个对象分为k个簇,使得簇内具有较高的相似度,而簇间的相似度较低。k-means算法的处理过程如下:首先,随机地选择k个对象,每个对象初始地代表了一个簇的平均值或中心;对剩余的每个对象,根据其与各簇中心的距离,将它赋给最近的簇;然后重新计算每个簇的平均值。这个过程不断重复,直到准则函数收敛。通常采用平方误差准则,其定义如下:21i)(kcpimpE这里E是数据库中所有对象的平方误差的总和,p是空间中的点,mi是簇Ci的 3平均值。该目标函数使生成的簇尽可能紧凑独立,使用的距离度量是欧几里得距离,当然也可以用其他距离度量。k-means聚类算法的算法流程如下:输入:包含n个对象的数据库和簇的数目k;输出:k个簇,使平方误差准则最小。步骤:(1)任意选择k个对象作为初始的簇中心;(2)计算每个点关于簇中心点的距离(3)根据簇中对象的平均值,将每个对象(重新)赋予最类似的簇;(4)更新簇的平均值,即计算每个簇中对象的平均值;(5)重复2-4,只到每个簇中的点不再发生变化2.1.2股票数据处理以及结论(1)数据选择与处理<1>我们选用3个交易日内的15分钟成交量<2>在第二日开盘后的一小时的VWAP买入并持有3-10个小时<3>时间序列的中的点,为关键点选取。(即选择固定数目的点,以折线代替原线段)(2)价格聚类对于预期上涨的10类走势图形以及他们的结果如下:数据来源:爱建证券研究所图1:预期上涨的10中走势图图2:预期上涨的10种走势图以及他们的结果 4(3)成交量聚类对于预期上涨的10类成交量走势图以及各自的结果:图3:成交走势图图4:成交量结论数据来源:爱建证券研究所2.1.3结论基于对大盘蓝筹股的实证分析,经过样本外检测,运用这种方法能够获得相对于市场更为稳健的超额收益,并且比买入并持有的收益的波动率更低。同时也可以使用其他可能应用量价结合的经典走势来捕捉超额收益等。2.2基于短期收益率的偏度与峰度的因子类选股2.2.1逻辑与原理股票价格随着时间的变化,形成了股票的收益率。对于不同的股票而言,收益率在同一个时间的截面下,也会产生不一样的结果,是什么导致了这种不一致的结果。会不会个股内在的收益率也会对此产生一定的影响呢。这种基于收益率的偏度和峰度的选股因子就是从这个角度出发来探寻有效的ALPHA因子。2.2.2股票偏度与峰度的计算方法在同一时间周期和同一界面条件下,整体股票的收益率会形成一种分布,当然这种分布对称的可能性非常小。为了衡量其偏度的情况,引入下列公式作为衡量公式:2/313,tNiitRDVarrNRDS214,urtNiittRDVarrNRDKtNiittrRDV12,a 5其中RDS为已实现的收益偏度、RDK为已实现的收益峰度r(t,i)为第i只股票的第t时的收益、N为时间周期。2.2.3测试与结论测试范围:沪深300、中证500测试时间:2007--2016测试数据:个股5分钟收益率(1)收益偏度计算方法,这里以5日均收益偏度做以介绍:指标公式:))((mean40iitRDS测算结果如下图:图5:沪深300成分股分层表现图6:中证500成分股分层表现数据来源:爱建证券研究所(2)收益率峰度计算方法,这里同样以5日均收益峰度做一个介绍:指标公式:40))((meiitRDKan测算结果:图7:沪深300成分股分层表现图8:中证500成分股分层表现数据来源:爱建证券研究所 6结论:从5日收益偏度和峰度的测算结果来看,收益的偏度分层效果明显,而峰度选股效果则并不明显。从直观上说,我们可以很明显的感觉到偏度的因子和反转因子应该有比较强的相关性,经过对偏度因子进行市值和反转因子的剔除,发现基于偏度的选股因子依然是有效果的,这里就不详细说明了。2.3基于集合竞价情况的因子类选股2.3.1逻辑与原理一般认为股价的表现情况和股票受关注程度有一定的关系,而受关注的股票,往往在集合竞价期间多空博弈就比较激烈,而且在集合竞价期间,由于大盘整体施加在个股上的压力较少。那么基于这种单独由个股特性而带来的,强烈的多空博弈是否对个股未来的收益有影响。基于这种逻辑,集合竞价类因子就是探讨集合竞价情况对于个股收益的影响。2.3.2实证结果与结论测试范围:全A股(剔除沪深ST,以及上市的不足三个月的股票)测试时间:2010--2016这里我们使用集合竞价占比,以20日成交占比的均值作为选股因子进行选股。指标公式:201i20)cVOL(20/1iiVOLMOV其中:cVOL为集合竞价成交量,VOL为单日股票总体成交量。测算结果:根据MOV20将股票分成10层,各层的收益均值如下:图9:集合竞价成交占比分层收益数据来源:爱建证券研究所2.3.3结论经过回测,我们发现集合竞价成交量占比因子有着显著的效果,同时集合竞价成交量占比因子和市值因子存在着十分显著的关系。经过市值和反转效应剔除以后,测 7试结果依然表示集合竞价成交占比因子有着显著的效果,虽然收益有些下降。2.4基于高频定义的量价变化因子类选股2.4.1逻辑与原理基于观察到的交易特征,定义一个更为优秀的资金现象。并跟踪这种资金的走势态势。此种特征一般是优秀的资金现象一般,单笔订单数量更大,订单的报价更为激进。可能会产生少量资金造成价格涨跌情况加大的情况。基于此逻辑,这里定义了一种基于量价比值的选股类因子。2.4.2指标计算方法1单一K线资金的激进程度:tTvolRS/)(abs即t时刻的股价收益率的绝对值与成交量的比值,也即每单位成交量所造成的股票涨跌幅的大小。2单日资金激进程度aVWAPVWAPQ/VWAP是定义的资金激进程度交易量的加权平均价,VWAP是左右交易量的加权平均价。从指标含义来说,指标反映了激进资金参与交易的相对价位。从直观上说,当Q值偏大的时候,说明激进资金参与当日交易价较高,有出货的嫌疑;当Q值偏小的时候,表明激进资金的参与的交易的价格偏低,有建仓的嫌疑。2.4.3实证结果与结论测试范围:全A股(剔除了ST股以及上市未满3个月的新股)测试时间:2013--2016调仓周期:月度调仓。指标计算方法:100)(iitQqz其中qz表示指标的值,t值为每个月的最后一个交易日。测算方法:每月月底将股票按照QZ值进行5档分类,并按照月度调仓。实证结果:经过测试分档的月度超额收益表现如下: 8图10:分档相对市场的超额收益图11:不同截损值下的多空收益情况数据来源:爱建证券研究所结论:从回测结果来看,经过累计Q值分层的股票表现良好,分层效果明显。相对于基准值的超额收益同样较为稳定,在组合暴露中,个组合有着轻微的小市值暴露和动量暴露。经过剔除后,表现依然表现优秀。2.5基于走势偏离情况的因子类选股2.5.1逻辑与原理市场如同大河,个股如同漂流在大河上的小舟。大河波涛起伏,小舟也随着河流的起伏而起伏。在正常的情况下,个股和大盘的走势是趋向于一致性的,波动的幅度和个股本身的特性有关。但是有些时候个股会逆势而行,在大盘下跌的时候个股股价上升,在大盘上升的时候,个股逆势下跌。这种特有的现象是否对于股价的后期走势和后期收益有所预示呢。基于走势偏离度的个股选择研究,就是基于这样的理论来探索异动型股票的后期表现。2.5.2指标的计算与结果我们定义这种非正常波动现象为特异现象,