您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华泰期货]:量化专题报告:定向因子法预测期货收益率 - 发现报告
当前位置:首页/其他报告/报告详情/

量化专题报告:定向因子法预测期货收益率

2018-06-29陈维嘉华泰期货梦***
量化专题报告:定向因子法预测期货收益率

华泰期货研究所 量化组 陈维嘉 量化研究员  0755-23991517  chenweijia@htfc.com 从业资格号:T236848 投资咨询号:TZ012046 相关研究 量化模型的信息量准则 2018-06-04 时间序列模型中样本时间窗口的选择 2018-05-08 华泰期货|量化专题报告 2018-06-29 定向因子法预测期货收益率 预测因子选择问题简介 量化模型的构造必然涉及到预测因子的选取,选好预测因子是量化模型成功的关键因素之一。在构造出一组可能的预测因子后,我们要从中选出一组最优的因子组合,使得整个模型的预测效果最大化。首先,各个备选因子并不一定有预测效果,其次各个备选因子之间也可能存在一定的相关性,如何合理分配因子之间的权重也需要特别考虑。 这篇报告以利用基本面周频时间序列数据为基础,尝试先对基本面因子进行选择,再对商品期货主力合约的周度收益率进行预测。每个商品期货品种涉及到20-50个可观测的基本面因子,当中还涉及利率、汇率等宏观因素。学者Serena Ng等人认为宏观因子对待预测变量的影响更可能是每个宏观因子都存在一定的贡献,即可能是各个可观测宏观因子背后的隐藏因素对待预测变量起作用。因此我们可以构造因子模型从可观测因子中提取出具有预测能力的隐藏因素,再根据这些因素进行预测,这就是宏观计量经济学上常见的扩散指数法(Diffusion Index, DI),与数值计算中的主成份回归类似(Princinpal Component Regression, PCR)。Serena Ng等人认为在构造隐藏因子前应该对可观测因子先进行选择,找出有预测能力的因子组合,再构造预测模型。 所以这篇报告参考Jushan Bai和Serena Ng在论文Forecasting Economic Time Series Using Targeted Predictors中提到的“定向因子法”(Targeted Predictors, TP)进行主成份构造。即先利用最小角回归(Least Angle Regression, LARS)选出最优的可观测因子组合,再利用此组合构建主成份因子,进行预测。在本报告测试的20个商品品种中,通过因子选择,大部分商品品种的收益有所提高。 华泰期货|量化专题 2018-06-29 2 / 12 研究背景 这篇报告介绍利用商品期货基本面因子和宏观经济因子进行周度收益率的预测。目前利用因子进行预测的主要“扩散指数法”。这种方法首先从大量的可观测因子中利用主成份分析构造出隐藏因子序列。这种方法的优势是他们能够从高维度数据中提取出有效信息,降低数据维度从而构造出利用一种简约的预测模型。从数值方法上来讲,就是先用主观经验选出可能对预测变量有影响的可观测因子,再构造这些可观测因子的线性组合作为主成份。这里的主成份互相独立,且对因子组合方差有更好的解释性。但是这种方法的传统形式通常没有考虑备择因子对特定变量的可预测性。因此在这篇报告里,我们尝试参考Jushan Bai和Serena Ng在Forecasting Economic Time Series Using Targeted Predictors里提到的方法对传统的扩散指数法进行改进。改进后的方法称为“定向因子法”(Targeted Predictors,TP),在这种方法里用于预测的因子首先通过特定的量化方法进行筛选,而且筛选的目标必须考虑这些因子对特定商品期货的预测能力。具体来讲,就是在利用主成份分析构造出主成份前,先利用量化方法对构造主成份的可观测因子进行筛选,一般来讲经过筛选后用于构造主成份的因子数量会比未经筛选的因子数量要少。 利用量化技术进行因子筛选通常有两类,第一类是硬性门槛,这种方法就是考察某个因子对待预测变量的统计显著性,如果显著性高于某个阈值就把它考虑进来。这类方法的一个缺点是,通常对各个因子的显著性评估是独立进行的,没有考虑在其他因子存在的前提下,特定因子的预测能力。第二类是软性门槛,这种方法是对因子的重要性进行排序,只把排名高的因子考虑进来。Jushan Bai和Serena Ng等人认为第二类方法比较好,他们在构造主成份前使用最小角回归(Least Angle Regression, LARS)进行预测因子的选择。这种方法的优势是能够考虑所有可观测因子之间的相互影响,而且计算量相对较少。Jushan Bai和Serena Ng等人认为在构造主成份前,先利用LARS算法进行因子选择能有效提高模型预测的准确度。 最小角回归原理 最小角回归(Least Angle Regression, LARS)与经典的变量选择法向前分步回归(forward stepwise regression)有一定联系。向前分步回归先从所有的可能预测因子中选出一个与待预测变量相关性最高的因子,然后进行简单的线性回归,得到与该预测因子正交的残差,然后把残差当作待预测变量,对剩余预测因子进行回归并重复以上过程。这其实是一种比较激进的做法,例如在选择第二个预测因子时可能就会排除掉那些与第一个变量相关性高的预测因子。对向前分步回归的一个简单改进就是,并不把待预测变量完全投影到第一个预测因上,也就是说对第一个预测因子的残差只保留一小部分,然后再分成大量的细小步骤去逐渐逼近最终模型,这种方法就是向前分段回归(forward stagewise regression)。分段回归能避免忽略掉 华泰期货|量化专题 2018-06-29 3 / 12 相关性高的变量,但是由于每次投影的步长较小,所以计算量较大。LARS是介于向前分步回归和向前分段回归之前的一种方法,它的关键点就是在待预测变量与预测因子投影时选择了一个不大不小的合适步长,从而提高计算效率。 LARS算法的工作原理可以用以下过程大致描述。首先,与经典的向前分步回归一样,把所有预测因子的权重都设为0,并且选出与待预测变量푦相关性最高的一个预测因子푥푗1,但是并不把푦完全用푥푗1进行回归,而是做一个适度的投影,使得第二个预测因子푥푗2与当前因子回归后的残差具有相等的最大相关性。LARS继续沿着这两个预测因子的方向前进,直到第三个预测因子푥푗3与他们的残差具有最大相关性。假设푋是预测因子的集合,휇̂是对待预测变量푦的估计,那么 휇̂=푋훽̂ (1) 其中훽̂就是LARS的待估预测因子权重。푦̅2是待预测变量y在两个变量空间ℒ(푥1,푥2)上的投影。y与푋的相关性可以下式计算 푐(휇̂)=푋′(푦−휇̂)=푋′(푦̅2−휇̂) (2) 图1介绍了只有两个变量时,LARS算法的原理。首先以휇̂0=0为起始点,在图1上푦̅2−휇̂0与푥1的夹角小于푥2,即在相关性上푐1(휇̂0)>푐2(휇̂0)。那么LARS就先把푥1考虑进来,残差휇̂1偏向于沿着푥1的方向前进。 휇̂1=휇̂0+훾̂1푥1 (3) 这里훾̂1的选择是LARS的关键,如果훾̂1的选择足够大,则会造成휇̂1=푦̅1,即变成了푦在 푥1方向的投影,这个结果就成了向前分步回归。如果훾̂1选择太小,则这个变量选择的过程要重复多次,结果就成了向前分段回归。LARS的核心就是选择一个不会太大单页不太小的훾̂1值,这个훾̂1值可以使푦̅2−휇̂与푥1和푥2的相关性一致,在图1上就表现为푦̅2−휇̂1平分了푥1和푥2的夹角,即푐1(휇̂1)=푐2(휇̂2)。对于多个备择因子,LARS算法可以简单总结如下: (1) 把各个备择因子的系数훽̂푗都设为0。 (2) 找出备择因子中与待预测变量푦相关性最高的因子푥푗。 (3) 沿着与푦相关的方向增加훽̂푗,直到出现一个新的因子푥푘与残差푟=푦−휇̂的相关性与푥푗一致。 (4) 沿着(훽̂푗,훽̂푘)的联合方向移动,直到出现푥푚与残差푟的相关性一致。 (5) 重复此过程,直到푋中所有因子都被考虑进去。 根据Efron等人在Least Angle Regression中的解释, LARS达到的效果其实与LASSO接近。LASSO是在估计公式(1)时对系数훽̂的绝对值之和进行权重限制,即 훽̂=min훽̂∑(푦−푥푗훽̂푗)2푛푖=1,s.t.∑|훽̂푗|푛푖=1≤푡 (4) 华泰期货|量化专题 2018-06-29 4 / 12 通过绝对值的约束,使得系数的偏小훽̂值直接为0。通常公式(4)的求解会涉及到较为复杂的二次规划问题,LARS可以理解为实现LASSO的一种简便的数值方法。 图 1: LARS原理 数据来源: Efron et al, Least Angle Regression 如果备择因子集合푋中包含푚个因子,则LARS算法会给出包含0,1,2,...,푚个因子,共푚+1组因子的权重组合。Efron等人建议使用퐶푝型准则进行最佳因子组合的选择。这里假设待预测变量푦符合正态分布,即푦~(휇,휎2I)。对于第푘组因子的퐶푝值由以下公式计算: 퐶푝(흁̂푘)=‖푦−흁̂푘‖2휎̅2−푛+2푘 (5) 其中휎̅2可用普通最小二乘进行计算。当퐶푝(흁̂푘)最小的一组因子组合即为最优组合,利用该准则选出的组合往往与Akaike information criterion(AIC)信息量准则选出的结果一致。 基本面量化模型原理 这里研究的对象是20个流动性较好的商品期货品种,包括螺纹钢、沪铜、豆油、PVC等品种。每个商品品种的周度收益率同时由不同的可观测因子影响。这里使用的可观测因子包括产销量,商品库存和商品上下游产物等信息,用于预测的待选择因子个数范围一般在15-50之间,使用资产价格一阶差分或周频回报率。模型的结构如下图所示。首先对可获得的因子时间序列进行样本长度进行两类截断,即模型训练使用递归时间窗口和滚动时间窗口的方法结合进行。递归时间窗口(长期)为每过一周,训练样本数量增加一周。滚动时间窗口(短期)的周期为2年,每过一周用最近2年的样本训练模型。先用LARS算法对不同时间窗口的可观测因子进行择优组合。由于LARS选择出来的可观测因子数量通常比较多而且彼此之间的信息有重叠,所以这里使用主成分分析(Princinpal Component Analysis, PCA)的方法进行降维处理,把因子个数减少至10个以下。把期货主力合约的周度收益率作为待预测变量,利用降维后的PCA因子作为预测变量进行向量自回归(Vector Autoregression, VAR),其 华泰期货|量化专题 2018-06-29 5 / 12 形式可以用以下公式表示 [ 푓1,푡푓2,푡푓3,푡⋮푓푘,푡] =퐴푡−1[ 푓1,푡−1푓2,푡−1푓3,푡−1⋮푓푘,푡−1] +퐴푡−2[ 푓1,푡−2푓2,푡−2푓3,푡−2⋮푓푘,푡−2] +⋯+퐴푡−푙[ 푓1,푡−푙푓2,푡−푙푓3,푡−푙⋮푓푘,푡−푙] +휀 (6) 其中푓1,푡,푓2,푡,...为待预测的因子,푓1,푡−1,푓2,푡−1,...,푓푘,푡−1为前一周的因子,矩阵系数퐴푡−1,퐴푡−2,...为待校正的参数,휀为