期货研究报告量化专题报告20240806 基于多因子体系的基差预测模型 研究院量化组 研究员 高天越 075523887993 gaotianyuehtfccom从业资格号:F3055799投资咨询号:Z0016156 联系人 李光庭 075523887993 liguangtinghtfccom从业资格号:F03108562 李逸资 075523887993 liyizihtfccom 从业资格号:F03105861 黄煦然 075523887993 huangxuranhtfccom从业资格号:F03130959 麦锐聪 075523887993 mairuiconghtfccom从业资格号:F03130381 投资咨询业务资格: 证监许可【2011】1289号 摘要 本篇报告在《华泰期货量化策略专题报告20240712:转融通暂停影响简述》基础上展开对股指期货年化基差率相关因子的量化分析。首先用Pearson相关系数以及Distance相关系数来衡量因子的线性与非线性关系,探讨因子在不同预测周期下的表现,并对因子进行筛选;其次构建了基于线性回归模型OLSRidge以及非线性的机器学习模型RandomForest和Xgboost的年化基差率预测模型,展示了模型在不同预测周期下的预测效果。在预测周度年化基差率时,Xgboost对目标变量的预测精度表现较好,MSE平均0044,涨跌准确率平均5770,最高达6213。 核心观点 1)公募指增超额和指数正负波动率类因子对年化基差率影响较大。 2)公募指增超额类因子随预测周期变长相关性下降幅度较大,管理人的超额能力对短期内的基差水平影响较大。指数相关因子则无明显下降趋势,现货市场的波动对未来基差走势影响的延续性较强。 3)预测周度年化基差率时,Xgboost对目标变量的预测精度方面表现较好。 目录 摘要1 核心观点1 基于多因子体系的基差预测模型4 股指期货基差4 因子相关性4 多因子模型构建9 模型预测效果展示11 总结15 风险提示15 图表 图1IF因子有效性与预测周期单位:无7 图2IH因子有效性与预测周期单位:无7 图3IC因子有效性与预测周期单位:无7 图4IM因子有效性与预测周期单位:无7 图5每个预测日T的训练集与测试集示意图单位:无9 图6模型建立与预测流程图单位:无10 图7不同预测周期的准确性OLSRIDGE单位:无11 图8不同预测周期的准确性RANDOMFOREST单位:无11 图9不同预测周期的准确性XGBOOST单位:无11 表1不同预测周期下因子线性相关统计单位:无5 表2不同预测周期下因子非线性相关统计单位:无8 表3模型训练及预测效果12 表4T5年化基差率模型训练及预测效果单位:无12 表5T5年化基差率涨跌方向预测效果XGBOOST单位:无13 表6T5年化基差率入选因子前10XGBOOST单位:无14 基于多因子体系的基差预测模型 股指期货基差 基差是股指期货研究中重点关注的指标之一,是许多对冲、套利策略的构建基础。因此,对基差的预测与判断具有重要的意义。构建一个基差预测模型首先需要结合主观的逻辑,找与基差相关的因素并用合适的因子去量化这个影响因素,并利用数学模型作为工具,从数据的层面验证它们的相关性,再将有效的因子通过不同方式组合成为预测模型,最后选择适合的标度去衡量模型预测的准确性。在《华泰期货量化策略专题报告20240712:转融通暂停影响简述》中,我们介绍了期现市场中包括融券在内的影响股指期货基差的不同因素与代表因子,这篇我们将介绍因子的筛选以及模型的构建。 因子相关性 我们选取了两个寻找因子相关性的度量。一个是Pearson相关系数,用于衡量因子的线性关系,一个是Distance相关系数,由GborJSzkely于2005年第一次提,用于衡量因子的非线性关系。Pearson相关系数通过评估两个变量在各自均值距离上的协变趋势来捕捉变量间的线性关系,Distance相关系数则评估它们与其它所有点之间距离的协变趋势,从而捕捉变量间除线性关系之外的依赖关系。因此,Distance相关系数的包容性比Pearson相关系数更强,筛选因子时会将更多的因子判定为有效。另外,与Pearson相关系数不同的是,Distance相关系数只能提供相关性的强弱。它的取值范围为0,1,越接近1则相关性越强,但无法提供相关性的正负方向。 我们将模型的预测目标变量Y定为tn,n1,60的下季连续合约的年化基差率(经过分红调整)。当n取不同值时,我们分别计算Ytn与t时因子Xt的相关系数,旨在捕捉不同预测周期下因子可能存在的相关性差异,观察模型的预测能力是否和 预测周期存在一定关系。 为找到长期有效的因子,我们的数据全样本取2017年至今,用2023年以前的数据计算Pearson和Distance相关系数,初步筛选一部分有效的因子。所有因子已经过滞后处理,确保在预测日t可以获取;取值范围较大的因子已经过zscore标准化处理。 我们先来看看因子与目标变量在不同预测周期下整体的线性相关性统计。 表1不同预测周期下因子线性相关统计单位:无 标的因子保留次数Pearsoncorr平均值 公募指增60日累计超额 60 0495 指数前一日收盘价600402 指数90日负向波动率600249 指数成分股融券余额600237 11月哑变量580230 IF 6月哑变量 38 0212 融券对冲需求比600201 公募指增10日累计超额极端涨幅530185 公募指增10日累计超额极端跌幅600174 指数90日累计收益率450173 指数前一日收盘价600544 指数成分股融券余额600428 融券对冲需求比600457 公募指增60日累计超额600318 指数60日负向波动率510226 IH 期货合约沉淀资金600202 公募指增10日累计超额极端涨幅470216 期货合约总持仓量600182 多空力量600180 多空力量 60 0464 公募指增60日累计超额600365 指数90日累计收益率600355 指数90日正向波动率600300 指数90日负向波动率600267 IC 期货合约沉淀资金 60 0233 11月哑变量440223 指数成分股融券余额550200 期货多头力量600182 7月哑变量560180 期货合约总持仓量600691 指数90日累计收益率380178 期货合约沉淀资金600691 融券对冲需求比600684 公募指增90日累计超额600673 指数90日负向波动率600663 IM 指数60日累计收益率600637 期货多头力量600640 指数前一日收盘价600557 指数30日正向波动率600588 8月哑变量600519 数据来源:同花顺华泰期货研究院 为了在初步筛选时留下更多的因子,我们选择留下Pearson相关系数绝对值大于01,同时pvalue小于01的因子。我们按照不同预测周期下的Pearson相关系数平均值以及在不同预测周期中因子被保留的次数对因子进行排序。相关系数的绝对值越大,说明因子与目标变量的相关性越强,因子被保留的次数越多,说明因子在预测周期变长时有效性的延续性越强。我们在每一类因子中选取相关性最强且具有代表性的因子在上表进行展示。从表中的结果我们可以看到,不同标的下,相关性强的因子有一定差异,但有部分因子展示了它们的普适性,如公募指增超额、指数负向波动率、指数累计收益率、指数收盘价和月份哑变量。 在不同时间窗口下,60日或90日的公募指增超额与年化基差率的相关性最强,且呈负相关。这验证了我们前期的推测,对冲需求随着超额的增大而上升时,体现在基差上的反应则是贴水扩大,且传导到基差上的反应需要一定时间,时间窗口越短,与基差的相关性普遍更弱。 指数90日负向波动率与年化基差率呈负相关,当指数的负向波动率增大时,市场的做空情绪可能会相应增加,反应到基差上则是贴水扩大。而正向波动率的相关性从数据结果来看更不稳定,IC的年化基差率和指数正向波动率呈负相关,IF则呈弱正相关(未被入选在表中展示)。我们可以推测,市场认为中证500的正向波动比 起沪深300来说更不可持续,反转效应较强,所以在正向波动大的时候会带来一部分做空力量入场,使得贴水扩大。反转与动量效应也与选择的时间窗口有关,拿IM举例,510203060日的正向波动率都与年化基差率呈正相关,而90日的正向波动率则呈负相关。 指数6090日累计收益率和收盘价与年化基差率呈负相关,而在更短的时间窗口下相关性则可能呈相反的情况。现货市场短时间内的涨幅会对基差造成正向影响,而长时间的涨幅更可能引发反转效应,使得做空力量增加,从而对基差造成负向影响。 从月份哑变量的结果来看,经过分红调整后的年化基差率仍存在一定季节性,分红高峰期的67月相关性普遍为负,1011月相关性为正。 (以上提到的部分因子因相关系数较小未被入选在表中展示)其次我们可以观察因子在不同预测周期下的具体表现。 图1IF因子有效性与预测周期单位:无图2IH因子有效性与预测周期单位:无 数据来源:同花顺华泰期货研究院数据来源:同花顺华泰期货研究院 图3IC因子有效性与预测周期单位:无图4IM因子有效性与预测周期单位:无 数据来源:同花顺华泰期货研究院数据来源:同花顺华泰期货研究院 我们选取每个标的下相关系数平均值的绝对值最大的因子,观察它们的相关性在预测周期变长时是否发生一定变化。从上图我们可以看到,不同时间窗口的公募指增超额在4个标的中相关性都排名靠前。但当预测周期变长时,除IH外,其它标的的指增超额类因子相关性下降较快,时间窗口越长,前期的相关性越强,但下降的速度也越快,说明管理人的超额能力对短期内的基差水平影响较大。其它因子如指数收盘价、指数收益率、指数波动率则无明显单调下降趋势,说明现货市场的涨跌对未来基差走势影响的延续性较强。有部分期货市场因子如沉淀资金、持仓量的相关性则呈先升后降的趋势,说明此类因子对基差的影响有一定的滞后性。 接下来我们看看从Distance相关系数的角度下因子相关性是否发生一定变化。 表2不同预测周期下因子非线性相关统计单位:无 标的因子出现次数Distancecorr平均值 公募指增60日累计超额 60 0477 指数前一日收盘价600378 指数90日负向波动率600262 指数成分股融券余额600259 11月哑变量600242 IF 7月哑变量 48 0226 融券对冲需求比600226 指数60日正向波动率600222 期货多头力量600191 公募指增10日累计超额极端涨幅590185 指数前一日收盘价600537 指数成分股融券余额600446 融券对冲需求比600488 期货合约总持仓量600355 公募指增60日累计超额600347 IH 期货空头力量600291 期货合约沉淀资金600318 指数60日正向波动率600262 多空力量600277 多空力量 60 0458 公募指增60日累计超额600404 指数90日累计收益率600378 指数90日正向波动率600341 期货多头力量600319 IC 期货合约沉淀资金 60 0301 期货合约总持仓量600293 指数90日负向波动率600287 指数成分股融券余额600248 11月哑变量500210 融券对冲需求比600760 指数90日负向波动率600245 期货合约总持仓量600742 期货合约沉淀资金600740 指数90日负向波动率600708 指数60日累计收益率600703 IM 期货空头力量600685 公募指增90日累计超额600697 指数90日正向波动率600641 指数前一日收盘价600658 8月哑变量600566 数据来源:同花顺华泰期货研究院 我们用和筛选线性相关性同样的筛选方法来筛选并展示因子的非线性相关性。从表中我们可以看到,Distance相关系数筛的强相关因子与Pea