您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华泰期货]:量化专题报告:利用混频MIDAS模型预测期货周频收益率 - 发现报告
当前位置:首页/其他报告/报告详情/

量化专题报告:利用混频MIDAS模型预测期货周频收益率

2018-03-01陈维嘉华泰期货立***
量化专题报告:利用混频MIDAS模型预测期货周频收益率

华泰期货研究所 量化策略组 陈维嘉 量化研究员  0755-23991517  chenweijia@htfc.com 从业资格号:T236848 投资咨询号:TZ012046 华泰期货|专题报告 2018-03-01 华泰期货量化专题报告: 利用混频MIDAS模型预测期货周频收益率 MIDAS模型简介 金融时间序列通常通常包含多个维度,不同维度数据的采样频率也不一致。例如螺纹钢研究员通常关心螺纹钢的因素有日频更新的现货螺纹钢价格,周频更新的螺纹钢库存,高炉开工率和线螺采购量等。如果其中某些可观测因子发生了变化,投资者对未来螺纹钢期货涨跌也会发生改变。如何及时利用更新的信息进行投资决策是投资者普遍关心的热点。 本报告介绍一种可利用高频数据预测低频数据的时间序列模型:这里我们尝试利用计量经济学里经典的混频数据处理模型MIDAS(Mi(xed) Da(ta) S(ampling))来综合螺纹钢基本面的据对周度收益率进行预测。MIDAS是一种线性回归模型,由于包含较长的日频数据,传统的线性回归模型要求较多的可调参数,所以MIDAS的研究者Eric Ghysels等人就尝试利用多项式来代替模型中的可调参数。这类模型在学术界主要是用来预测宏观经济指标如GDP增长率等,这里我们尝试利用MIDAS模型来预测螺纹钢期货周频收益率。 Eric Ghysels等人提出的原始MIDAS模型只适用于低频周期间的预测,例如在每周结束后利用日频数据预测下周的收益率,但却无法在每周结束前根据日频数据的更新来更新对本周收益率的预测。Michelle T. Armesto等人在此基础上进行了改进,通过在模型中添加高频领先项实现了低频周期内的预测。 在本报告里首先介绍了MIDAS模型的原理和结构,然后尝试利用周频和日频的螺纹钢因子数据对螺纹钢期货主力周频收益率进行预测,发现随着高频项的引入,这种模型在预测周频收益率方面均方根误差有所减少,虽然在螺纹钢这个品种上未能通过提高调仓频率来有效增加收益,但是能减少最大回撤。 华泰期货|策略专题 2018-03-01 2 / 9 MIDAS模型研究背景 基本面研究员在预测期货未来走势时通常会考察不同时间频率的信息,例如反映通涨的居民消费价格指数(CPI),商品进出口增长,周频的商品库存以及日频的现货价格、期货价格等等。然而目前的量化模型大多数都只使用了相同频率数据的信息,例如按周频调仓的模型就只是用周频数据,日频数据通常会被降为周频。从数据频率的使用角度上说,量化模型所考虑的信息要比实际可获得的信息要少,这也是低频量化模型的不足之处。从持仓周期山来说,一个按周频调仓的量化模型,如果在一周内期货价格发生了不利于投资者的剧烈波动,那模型使用者则需要根据自己的风险承受能力来决定是否承担浮亏或者止损离场,又或者借助投资经验和主观判断来进行投资决策。这种决策虽然不无道理,但往往会导致投资过程变为量化加主观,投资收益也无法进行合理回测。出现以上困难的主要原因在于当高频变量出现变化时,低频量化模型无法及时更新预测。因此本报告试图利用日频数据和周频数据来实现每天更新期货周频收益率的预测。 大量学术研究表明,利用高频变量能够有效提高低频变量的预测准确性。在考虑单个低频因子푌푡푄和单个高频因子푋푡푄的情况下,低频因子푌푡푄可以用如下多项式展开 푌푡+1푄=휇+∑훼푗+1푌푡−푗푄푝푌푄−1푗=0+∑훽푗+1푋푡−푗푄푝푋푄−1푗=0+휀푡+1 (1) 其中푝푌푄为低频变量的延时,푝푋푄为高频变量的延时,휇为截距,휀푡+1是误差项。该式子中的휇, 훼푗+1和훽푗+1属于待调参数,所以共有푝푌푄+푝푋푄+1个待调参数。如果高频延时푝푋푄较大,例如当季频和日频数据混合时,当푝푌푄=3,푝푋푄=66,那将有70个待调参数。由于模型的输入和输出使用的主要是宏观经济数据,可获得的样本量非常有限,大量的可调参数往往导致模型出现过度拟合从而降低样本外预测效果。仔细观察公式(1)可以发现模型参数主要来自高频项系数훽。 Eric Ghysels等人研究的MIDAS(Mi(xed) Da(ta) S(ampling))模型通过引入多项式函数来减少高频项系数훽,如下式所示 푌푡+1푄=휇+∑훼푗+1푌푡−푗푄푝푌푄−1푗=0+훽∑푤푗(휃퐷)푋푡−푗퐷푞푋푄−1푗=0+휀푡+1 (2) 其中高频变量푋푡푄前的系数使用了多项式函数푤푖+푗∗푁퐷(휃퐷)表示, 푤푗(휃퐷)有多种函数形式可以选择,一种比较常见的是指数型Almon多项式 푤푗(휃퐷)≡푤푗(휃1,휃2)=exp{휃1푗+휃2푗2}∑exp{휃1푗+휃2푗2}푚푗=1 (3) 华泰期货|策略专题 2018-03-01 3 / 9 其中푤푗(휃퐷)只包含了휃1和휃2两个参数。这样待校正参数的数量就大大降低了,从而有效防止参数过多造成的模型过度拟合。常见的MIDAS多项式除了指数型Almon外,还有Beta型: 푤푗(휃퐷)≡푤푗(휃1,휃2)=푥푖휃1−1(1−푥푖)휃2−1∑푥푖휃1−1(1−푥푖)휃2−1푁푖=1 (4) 图1画出了这两种多项式取不同参数值时高频权重系数푤푗(휃퐷)在不同延时上的分布。由图可见,一般情况下푤푗(휃퐷)是随延时日数的增加而减少,也就是说临近的高频项影响通常较大,时间较长的高频项影响较少,MIDAS多项式的这个特征与直观认识相符。另外也可以看到当MIDAS多项式参数휃퐷取不同值时也可能出现延时2-3天的系数权重比延时1天要大,这体现了MIDAS多项式的灵活性,即根据具体数据去调整高频项的权重。对比Beta多项式和指数型Almon多项式也可以发现Beta多项式的权重随延时日的增加下降较快,而指数型Almon多项式则下降较缓。 图 1: MIDAS多项式 数据来源:Michelle T. Armesto et al, Forecasting with Mixed Frequencies MIDAS模型通常使用在利用日频/周频/月频数据预测季频GDP上。在混频领域预测比较成功的还有状态空间(state-space)模型,但这种模型实现比较复杂,MIDAS在GDP上的预测效果通常不会比状态空间模型差很多。 Eric Ghysels等人研究的MIDAS模型虽然能利用高频变量降低低频变量的预测误差,但其在期货交易中的实际应用会有一定的限制,例如: (1) 只能利用高频变量预测低频变量,也就是说在期货上如果结合日频和周频数据,则只能利用MIDAS预测周频收益率。 华泰期货|策略专题 2018-03-01 4 / 9 (2) 只能在收集完所有高频变量后才能预测低频变量,也就是说在期货交易上只能在一周最后一个交易日(通常是周五)预测下周的周频收益率,而无法在当周,比如第一个交易日预测当周的收益率。 (3) MIDAS为单因子模型只有一个待预测的低频变量和一个高频变量。 对于限制(1),目前MIDAS模型是无法改变的,但是如果能改变限制(2)即每过一个交易日都能利用日频更新的数据对当周的收益率重新预测,那也相当于提高了模型的交易频率。这里参考Michelle T. Armesto等人在Forecasting with Mixed Frequencies中给出的方法进行改进。对于限制(3),Eric Ghysels等人的做法是利用多个高频变量分别对低频变量进行预测,然后再对预测结果做加权平均。 MIDAS模型改进方法 下面针对限制(2)和(3),利用Michelle T. Armesto等人的方法对MIDAS模型进行改进。图2对比了原MIDAS模型和改进后要达到的效果,原MIDAS模型是利用低频变量푌푡,푌푡−1,푌푡−2,...以及期间的高频变量푋푡,푋푡−1,푋푡−2,...预测푌푡+1,当中并没有使用在푌푡和푌푡+1之间出现的高频数据,而改进后的MIDAS是要达到低频周期内的高频数据푋푡+푙更新后重新预测푌푡+1。 图 2: MIDAS预测周期 数据来源:华泰期货研究院 另外,改进版的MIDAS模型通过增加外生变量的方法,同时引入多个低频变量进行预测。改进后的MIDAS模型可用以下式子表示 华泰期货|策略专题 2018-03-01 5 / 9 푌푡+1|푑=휇+∑훼푗+1푌푡−푗푄푝푗=0+훾∑푤(푗;휃)푋푡+1−푗푚푗=푚−푑+1+훾∑푤(푘;휃)푋푡−푘푚푘=0+∑∑휆푖푗퐸푖,푡−푗푝푗=0푛푖=0+휀푡+1 (5) 其中훾∑푤(푗;휃)푋푡+1푚푗=푚−푑+1为高频领先项表示低频周期内的高频变量,它与高频延时项훾∑푤(푘;휃)푋푡−푘푚푘=0使用相同的MIDAS多项式和参数휃、훾,主要是为了限制参数数量。在低频周期内每当有高频变量X更新时푌푡+1|푑也随之更新。∑∑휆푖푗퐸푖,푡−푗푝푗=0푛푖=0为低频因子,下标푖表示低频因子数量。 Michelle T. Armesto等人利用这个改进后的MIDAS模型在季度内进行预测发现能降低季频GDP的预测误差。接下来本报告尝试利用螺纹钢的周频和日频基本面数据预测螺纹钢主力期货的周频收益率。 MIDAS应用实例 在实际应用中MIDAS模型只有在每周最后一个交易日(通常为周五)才进行低频周期外预测,即预测下一周的周频收益率,这时公式(5)就不包含高频领先项훾∑푤(푗;휃)푋푡+1푚푗=푚−푑+1了,这个时候公式(5)就相当于普通的MIDAS模型。而在其他交易日(通常为周一至周四)则包含有该高频领先项。预测是基于每周发布的螺纹钢库存、高炉开工率和钢厂产能等因子以及日度发布的螺纹钢、铁矿石、焦煤日收益率等因子。由于可观测因子的个数较多,这里先使用主成分分析(Principle Components Analysis, PCA)进行降维处理,得到的模型使用结构可以用图3表示。 可观测的日频数据首先利用PCA进行降维处理得到多个日频因子,隔周的日频因子放入公式(5)中的延时项훾∑푤(푘;휃)푋푡−푘푚푘=0,每周最后交易日更新,当周的日频因子放入公式(5)中的领先项훾∑푤(푗;휃)푋푡+1−푗푚푗=푚−푑+1,每个交易日更新。另外,可观测的日频数据通过降低采样频率变为周频,然后与可观测的周频数据一起降维得到周频因子,放入外生项∑∑휆푖푗퐸푖,푡−푗푝푗=0푛푖=0,每周最后交易日更新。对每个日频因子使用相同的周频因子训练MIDAS模型预测周频收益率,也就是说有多少个日频因子就要有多少个MIDAS模型需要训练。在预测时再根据日频因子的对PCA组合方差的贡献度对预测结果进行加权平均。模型训练采用普通的最小二乘法最小化周内各天的周度收益率预测误差,模型样本采用每周递增的方法进行滚动训练,从2013年5月开始,每过一周训练样本数增加一。模型包含的超参数包括低频、高频变量的因子个数和延时等。值得注意的是MIDAS模型预测的是周度收益率,在实际使用上必须把每个交易日预测的周度收益率减去本周已实现的收益率从而得到剩余收益率的期望值。比如在周二收盘后预测本周的周