因子与指数投资揭秘系列二十二:探究构建因子的时间序列数据平稳性 虞堪投资咨询从业资格号:Z0002804yukan010359@gtjas.com高宇飞(联系人)从业资格号:F03124155gaoyufei028920@gtjas.com 报告导读: 在金融数据分析的过程中,时间序列的平稳性对因子构建和投资模型优化具有显著影响。本文首先介绍了平稳与非平稳序列的定义、特征和判别方式。然后,在第二部分,我们通过实际研究中的案例进行具体分析。 黄金现货价格自2023年下半年以来表现出较强的趋势性,显然为非平稳序列。通过差分处理后,黄金序列在ADF检验中显示为平稳时间序列。在趋势类因子的构建中,这提示我们可以在黄金择时策略中构造动量及趋势性强的因子。液化石油气现货价格呈现出震荡平稳特性,液化石油气现货价格自2023年下半年以来波动幅度收窄,在5000点附近震荡,表现为类似平稳的时间序列。尽管序列整体平稳,但其ACF图仍显示短期内存在较强的自相关性,这提示我们可以采用更短周期的量价因子进行择时。 纯碱基差的平稳性则表现出显著的年份差异。2023年纯碱基差为非平稳序列,而2024年基差波动趋于稳定,平稳性显著增强。“均值复归”理论频繁被打破,是基差和期限结构等相关因子在近几年失效的重要原因。这也提示我们应当关注标的品种或研究对象的数据是否为平稳序列,从而建立是否使用“均值复归”逻辑为基础的模型。 对于期权市场,铁矿石期权的隐含波动率数据显示为平稳序列,但存在较强的自相关性,适合采用长周期的反转信号。豆粕期权的隐含波动率则在中短周期反转信号中表现较好。 基本面数据如20号胶仓单表现出明显的趋势性和周期性。通过求同环比和分位点处理后,20号胶仓单序列从非平稳转为平稳序列,进一步拓宽了量化策略的应用范围。 最后,感谢同事梁可方在报告《BU-FU-LU期货相关性分析与套利策略原理梳理系列报告(一):高低硫/FU-LU套利策略》研究新加坡高低硫价差的平稳性时提供的思路。 风险提示:注意政策、地缘政治、突发事件等非量化因素的扰动。因子的构建基于历史数据和统计规律,在未来可能会有失效风险。 (正文) 1.金融研究中的平稳与非平稳时间序列 1.1平稳与非平稳时间序列简述 在金融市场的数据分析和研究中,时间序列分析是最常用的工具之一。例如股票或期货的价格,期权的波动率,会随着时间的推移变化,从而构成一条时间序列。又比如月度公布的宏观经济指标,虽然频率较低,但仍然构成时间序列。再比如构成商品期货的基本面因子的数据:库存、利润、开工率等,其都会随着时间而变化。尽管不同的数据统计特性相差很大,但我们仍然可以依照研究时间序列的范式进行分析。 研究时间序列,我们通常会先去验证其是否是平稳时间序列,亦或是非平稳的时间序列。通常来说,我们会希望研究的数据是平稳的。因为平稳时间序列的重要统计特性,不会随着时间的推进而改变,例如均值、方差和协方差都是恒定的。这样的特点使得在其基础上构造因子、建立模型更加简单。同时由于平稳时间序列的参数量较少,因此预测的准确性较高,过拟合风险低。非平稳时间序列可能导致伪回归问题,而平稳时间序列可以避免这一问题,确保模型中显示的统计显著性是真实的关系。 然而在现实生活中,时间序列往往很难满足严平稳的要求,即所有统计性质均不随时间发生改变。一般所说的平稳时间序列,在默认情况下为宽平稳序列,即我们只要求其均值、方差和协方差不跟随时间变化。同时,直接在平稳时间序列上进行建模,会使得模型过于简化,无法捕捉到趋势、周期等变化的规律,对于异常波动或极端值的干扰也相对较弱。 资料来源:国泰君安期货研究 白噪声是最为基础的平稳时间序列。当一个序列为白噪声时,表示序列前后没有任何相关关系。过去的行为对将来的发展没有丝毫影响,从统计分析的角度而言,白噪声没有任何分析建模的价值。而当序列为非白噪声序列时,可以应用ARMA、ARIMA等时间序列模型进行分析。 1.2处理非平稳时间序列的常见方法 虽然平稳的时间序列在实际生活中并不常见,但我们可以通过一些常见的处理手段,将其转化为平稳的时间序列。例如图2是某发展中国家的季度GDP走势,可以看出其有向上倾斜的趋势,且方差在扩大,是非平稳的时间序列。不过,该国的GDP增长率相对稳定。我们可以使用差分的方法处理,如图3所示。 资料来源:国泰君安期货研究 资料来源:国泰君安期货研究 我们假设若当前时点的序列数据值,仅依赖于前序数据的值,并在其基础上加上一个均值为0的白噪声,这一类序列我们通常成为随机游走,具体用公式可以表示为: 在金融领域研究中,我们也经常假设金融资产的价格服从随机游走,即其是非平稳序列,但收益率(对数差分)为平稳序列。从图4中我们可以看到,在随机游走的假设下,序列的波动可能会放大或缩小,在一定时段内也会有趋势性的上行或下行。 如果我们对上述公式稍加改动,在等式的右侧加入一个常数项c,我们也称之为漂移项,则随机游走的结果将发生很大的变化。资产的价格将沿着一条趋势线进行上下移动。用公式可以表示为: 资料来源:国泰君安期货研究 资料来源:国泰君安期货研究 不论该随机游走是否带漂移项,我们都可以通过差分的方式将其转变为平稳的时间序列。除了差分这种方法,常见的处理方式还包括取对数、做同环比(去除季节性影响)等。 1.3趋势性与均值复归性 我们在之前的研报《期权CTA-量价趋势因子在波动率预测上的效果》一文中,曾经对波动率的群聚性和均值复归性进行了讨论。波动率的群聚性是指,较大的波动幅度后面紧挨着较大的波动幅度,而较小的波动幅度后面也挨着较小的波动幅度。换言之,波动率序列具有较强的自相关性。CTA中的“动量”与波动率群聚性较为相似。对于不同商品,在不同的时间点,它们动量持续的时间可能不同,动量的大小也可能不同。 资料来源:国泰君安期货研究、同花顺 资料来源:国泰君安期货研究、同花顺 波动率的均值复归性是指,波动率具有一个稳定的长期平均水平,其变化会围绕其长期均值上下波动。这个特性意味着其上涨和下跌趋势不能长期延续下去。反转类因子的逻辑和动量趋势刚好相反,它认为,当一个品种的动量累积到较高水平时,接下来将不会再继续上涨(或下跌),而是出现反转。同一个品种在给定的时间窗口内,动量和反转因子往往不会同时奏效。波动率的聚集性与均值复归性也存在矛盾。一般来说,聚集性是一个偏短期的特性,均值复归性是一个偏长期的特性。 资料来源:国泰君安期货研究 我们可以将其泛化为一般性的结论。对于交易者和研究人员来说,如果价格在历史上看是非平稳的时间序列,则该序列在短期可能展现出较强的趋势性,出现反转的概率较低。反之,如果价格在历史上看是平稳的时间序列,则可能表现出较强的均值复归性,在高位或低点出现反转的概率较大。对于构造基本面或量价因子的研究人员来说,对于非平稳序列,可以考虑构造动量等延续趋势信号的因子。而对于平稳序列,可以考虑构造反转信号的因子。在构造规则型因子时,底层数据的平稳性可以帮助研究人员制定不同的判别条件。 这里我们重点讨论一下基本面类的数据。许多基本面数据具有很强的周期性,也可称之为季节性。在处理数据的季节性时,应当明确是否使用该数据的季节性特征。当我们想剔除掉季节性特征,与其他数据一起使用,或构造一般性结论的因子时,可以使用差分、同环比等方式进行处理。而当我们想捕捉该季节性规律,从而进一步预测走势时,则应当保留该特征。 1.4序列的平稳性检验 通过分析时间序列的图形走势,可以大致判断序列是否平稳。例如在1.2小节中提到的图2和图3,清晰直观地分别展示了非平稳序列和平稳序列地图像特性。不过,这种方式检验相对粗糙,且过于主观。想严格界定一个时间序列是否平稳,还需要从其统计学定义进行检验。 ADF检验是较为常见的检验序列平稳性的方法,它以DF(Dickey-Fuller)检验为基础,通过检验时间序列的自回归模型中单位根是否存在来判断平稳性,即下面自回归模型中alpha系数为1(此时即为1.2小 节提到的随机游走模型,为非平稳序列),存在单位根。 ADF检验则在其基础上引入了滞后项,使其更加适用于实际时间序列数据。常见的ADF模型形式一般如下: 关于使用ADF检验的数学推导过于繁琐,也非本文讨论的重点,在此不再赘述。我们可以使用python中statsmodels包里面adfuller函数,当输出的模型检验p值小于阈值(例如1%、5%等),我们认为该序列是平稳的,否则是非平稳的,具体的应用我们会在第二部分进行更详尽的阐述。 此外,我们还可以利用自相关图(ACF)进行辅助判断,它是用来分析时间序列中各时间点数据之间的相关性,该图现实了各时间点数据与自身在不同时间滞后(lag)下的相关系数。我们观察下面两幅图,图6中一个非平稳的时间序列即使滞后很多期,该序列仍与其初始序列有较强相关性,我们称之为“拖尾”。而在图7中,一个平稳的时间序列,在滞后若干期后,就与其初始序列相关性较弱了,我们称之为“截尾”。这两种特性的区别也可以帮助我们分辨平稳与非平稳时间序列。 资料来源:国泰君安期货研究 资料来源:国泰君安期货研究 2.实际案例分析 2.1黄金现货价格的平稳性分析 我们在之前的多篇报告中分析讨论了近两年黄金价格和黄金ETF等,直观上看,黄金价格自2023年下半年开启了上涨周期,在2024年多次出现趋势上涨行情。例如我们可以以2024年后伦敦金现货的价格作为研究的时间序列: 资料来源:国泰君安期货研究、万得 从上面的走势图可以看出,该价格序列显然不为平稳的时间序列。进一步地,从下面的ADF检验参数可以看出,p值远远大于临界阈值,且ACF图中序列具有强自相关性,因此可以确定该序列为非平稳。 资料来源:国泰君安期货研究 资料来源:国泰君安期货研究 我们接着对原始价格序列去做差分,然后重复上述的检验。可以看到,差分后的序列在ADF检验中p值十分接近于0,且ACF图中出现显著的“截尾”现象,则可以认为其为平稳序列。从而我们可以大致得到以下结论:在2024年黄金的现货价格,趋势性相对较强,一段时间内的上涨或下跌的概率很可能得到充分延续。因此提示我们,在构造黄金的择时因子时,动量趋势及一些趋势类的技术分析指标会有作用。这与我们在《黄金驱动因素的量化视角解读——“黄金时代”贵金属系列报告(二)》一文中提到的结论一致。 资料来源:国泰君安期货研究 资料来源:国泰君安期货研究 2.2液化石油气现货价格的平稳性分析 我们再来分析另外一组现货价格序列。可以观察到,液化石油气的现货价格在2023年下半年以来,波动收窄,且价格在5000点附近震荡,比较类似于平稳时间序列。我们可以对2024年的现货价格数据进行进一步的检验。 资料来源:国泰君安期货研究 可以发现在ADF检验中p值小于1%的阈值,序列是平稳的。不过在ACF图中,序列滞后25阶之后才出现“截尾”现象。总的来说,我们依然可以认为此序列为平稳序列,但其平稳性较弱,在短周期内,序列仍有一定的自相关性。 资料来源:国泰君安期货研究 资料来源:国泰君安期货研究 在构建因子时,因为其在2024年平稳的特性,趋势及突破类的因子或有失效的风险。长周期因子如期限结构或基本面类因子也有失效风险。ACF图也提示我们,需要从更短的周期出发构造量价因子。 2.3纯碱基差的平稳性分析 在商品期货的研究中,期限结构和基差是非常重要的数据和分析方式。例如对于基差,我们认为其应当围绕某个均值,在一定范围内上下浮动。当基差过大或过小时,通常认为其会有均值复归的反转特性,而非趋势性。 资料来源:国泰君安期货研究 近年来,期限结构策略出现的回撤,与我们所熟知的“均值复归”模型被打破有一定关系。例如我们取国泰君安期货的期限策略指数回测结果,与一些使用期限结构类策略的管理人净值曲线进行对比。我们可以发现,在回撤较大的时段相关性明显增强。其中在2023年5月前后的回撤可以归因于纯碱在深贴水的情况下,期货价格依然继续