
研究通讯 国债期货跨期价差系列专题五:基于LSTM的时序预测与策略改进研究 联系信息 熊睿健投资咨询资格:Z0019608电话:020-88818020邮箱:xiongruijian@gf.com.cn 广发期货研究所电话:020-88818009E-Mail:zhangxiaozhen@gf.com.cn 摘要: 在前两篇研究系统梳理国债期货跨期价差的定价逻辑及多因子量化套利方法的基础上,本文进一步引入时序建模框架,重点考察在既有基本面因子体系下,显式纳入时间维度信息是否能够提升跨期价差走势的预测能力与策略表现。具体而言,本文构建了基于长短期记忆网络(LSTM)的跨期价差方向预测模型,以净基差、IRR、资金利率等核心因子作为输入,并以跨期价差涨跌方向作为监督信号进行二分类建模。模型训练阶段使用全部国债期货合约样本,2024年及以前的数据作为训练集,2025年数据作为严格样本外测试集。 相关报告 24.06.28研究通讯_《国债期货跨期价差系列专题一:理论定价与影响因子》 24.08.27研究通讯_《国债期货跨期价差系列专题二:多因子量化套利策略》24.12.24研究通讯_《国债期货跨期价差系列专题三:基于跨期价差预测信号的移仓优化策略》25.12.30研究通讯_《国债期货跨期价差系列四:做多跨期价差并持券交割策略》 预测结果显示,LSTM模型在TS、T、TF三个品种上的样本外二分类准确率分别为54.11%、53.67%和56.28%。进一步回测表明,在T与TF品种上,LSTM模型的样本外收益风险特征优于DNN,其中T合约的年化收益率为6.83%,夏普比率为1.70,TF合约的年化收益率为7.63%,夏普比率为2.47;而在TS品种上,DNN模型表现相对更强。 从时间分布特征看,LSTM相对于DNN的超额收益主要体现在1、4、7、10月份,而在传统移仓月份(2、5、8、11月)中,两类模型的表现差异相对收敛。与此同时,本文尝试对LSTM模型进行开箱分析,从因子贡献变化的角度刻画模型预测结果的差异来源;并在策略回测中进一步引入模型原始输出概率作为仓位权重,实现由离散方向判断向连续仓位配置的扩展。在概率加权持仓框架下,LSTM模型的策略优势更加显著。 目录 (一)传统机器学习模型与DNN的时间建模局限性.................................1(二)LSTM的结构设计与计算过程.............................................................1(三)LSTM应用于跨期价差预测.................................................................2二、循环神经网络测试流程.......................................................................2(一)数据处理与样本构造流程...................................................................2(二)参数设定与LSTM网络结构...............................................................4三、模型测试结果.......................................................................................4(一)LSTM模型与DNN模型样本外测试对比..........................................4(二)LSTM模型概率加权回测..................................................................7四、结论...........................................................................................................9 基于我们此前研究(详见《国债期货跨期价差系列专题一:理论定价与影响因子》),从跨期价差理论定价出发,拆解出了跨期价差的主要影响因子。历史上跨期价差也曾出现过大幅波动,如果能够提前判断跨期价差走势,不仅可以优化移仓策略,还可以构建跨期套利策略。本文我们将通过量化手段,基于前述研究中提炼出来的理论影响因子,构建判断未来跨期价差走势的信号,并据此进行跨期套利策略回测。 一、跨期价差影响因素与指标选取 (一)传统机器学习模型与DNN的时间建模局限性 传统机器学习模型(如逻辑回归、SVM、树模型等)以及标准深度神经网络(DNN),在建模时通常假设样本在时间维度上相互独立,模型输入为某一时点对应的一组特征向量。即便在金融时间序列问题中,这类模型的核心仍是对“当前状态”的静态映射。 在实际应用中,若希望引入时间信息,通常需要通过人工方式构造滞后项、滚动均值、变化率等特征。这种做法本质上是将时间结构“压缩”为有限维度的静态变量,其有效性高度依赖于特征工程的设计质量。一方面,复杂的动态关系难以通过少量人工特征完整刻画;另一方面,不同时间步之间的依赖结构是人为设定的,而非由模型自主学习。 DNN虽然具备更强的非线性拟合能力,但其网络结构本身并不包含时间维度。若不显式引入序列结构,DNN无法区分“当前观测值来自不同历史路径”的差异,因此在面对具有明显路径依赖或阶段性特征的数据时,其表达能力仍然受到限制。 (二)LSTM的结构设计与计算过程 长短期记忆网络(LSTM)属于循环神经网络(RNN)的一种改进形式,其核心目标是在序列建模中稳定地保留有用的历史信息,并避免标准RNN中普遍存在的梯度消失问题。 LSTM在结构上引入了记忆单元(cell state)这一显式的状态变量,用以在时间维度上传递信息。与传统RNN仅通过隐藏状态递归更新不同,LSTM将“长期信息的存储”与“当前状态的输出”进行了解耦,从而提高了对长期依赖关系的刻画能力。 在每一个时间步𝒕,LSTM同时维护两个核心状态变量: •隐藏状态𝒉𝒕,用于参与当前时点的输出计算; •记忆状态𝒄𝒕,用于跨时间步传递长期信息。 这些核心状态变量通过组成一系列的门控结构对信息流进行精细化控制,主要包括遗忘门、输入门和输出门,其典型计算形式如下: 1.遗忘门(Forget Gate) 用于决定上一时点记忆状态𝒄𝒕−𝟏中哪些信息需要被保留或遗忘。 2.输入门与候选记忆状态 用于控制当前时点新信息对记忆状态的更新强度。 3.记忆状态更新 该更新方式使得重要信息可以在多个时间步中持续保留,而无关或噪声信息则被逐步衰减。 4.输出门与隐藏状态更新 通过上述结构,LSTM能够在不同时间尺度上对信息进行选择性记忆与传递,从而在序列建模中兼顾短期波动与中长期演化特征。 数据来源:Wind广发期货研究所 (三)LSTM应用于跨期价差预测 在国债期货跨期价差的实际运行过程中,我们观察到其走势并非完全由单一时点的基本面因子状态所决定,而是在部分阶段呈现出较为明显的持续性与方向性特征。这种特征在换月前后尤为常见,表现为跨期价差在一段时间内持续走阔或持续收敛,而非频繁震荡或单日反转。 以具体样本为例,在TF合约2025年三季度换月阶段,跨期价差自8月8日的约-0.055持续上行,并于8月28日升至0.14左右,上行过程持续约15个交易日,期间方向性较为稳定,几乎未出现明显反转。同样地,在T合约2024年四季度换月期,跨期价差也表现出较为连续的下行走势,呈现出明确的阶段性趋势。 上述现象表明,跨期价差在部分阶段可能并非“高频均值回归型”变量,而是具有一定的趋势性结构,可能与一致性预期及市场的反身性有关。趋势特征较难被此前的模型所不做。基于这一考虑,本文进一步引入LSTM等时序模型,通过显式建模历史路径信息,增强对跨期价差时序结构的刻画能力。 二、循环神经网络测试流程 (一)数据处理与样本构造流程 为保证LSTM模型能够有效学习跨期价差的时间结构特征,本文构建了一套完整、统一的数据处理与训练流程,具体步骤如下。 数据来源:Wind广发期货研究所 1.数据获取与样本定义 本文在因子选取与数据口径上与本系列前述研究保持一致,继续使用国债期货T、TF、TS、TL四类合约的基本面因子作为变量,包括但不限于IRR、净基差、跨期价差、R007、SHIBOR等。 2.特征与标签构造 在特征构造方面,本文对齐并引入SHIBOR_DIFF、R007等资金面指标,同时构造IRR-3M等派生利差变量,并将跨期价差与其他基本面、利率类因子共同组成模型输入特征向量。标签方面,以跨期价差的一阶差分𝒓𝒕作为监督信号,根据其符号将样本划分为上涨、下跌与中性三类,后续在时序样本构造步骤中,二分类任务中仅保留上涨与下跌样本参与模型训练。 3.特征预处理 为提高样本质量,本文剔除了上市初期样本(如TL合约上市首月数据),并对每个季月(2、5、8、11月)去除月末最后三个交易日,以减弱交割与换月因素对模型学习的干扰。同时,对极小幅度的价差变动设置阈值,将其视为无明确方向并予以过滤。在模型训练前,统一对缺失值采用前向填充,并z-score标准化. 4.时序样本构造 为引入时间依赖信息,本文设定5个交易日作为历史时间窗口,采用滑动窗口方式构造时序样本。每个序列以最后一个交易日对应的方向标签作为监督信号,并过滤掉序列末端标签为中性的样本,以保证二分类任务的一致性。 5.训练集、验证集与测试集划分 样本划分采用严格的时间切分方式,将2024年及以前的数据作为训练候选样本,2025年数据作为样本外测试集。在此基础上,本文按照7:3的比例对候选训练样本进一步划分为训练集与交叉验证集。为缓解单一合约样本量有限的问题,在模型训练阶段,将所有合约对应的训练集样本统一合并用于参数学习;而在交叉验证阶段,仅选取目标合约对应的样本用于模型评估与早停判断。该设计在扩大有效训练样本规模的同时,保证了验证集与样本外测试集在合约维度上的分布一致性,从而提高模型选择与 性能评估的可靠性。 6.模型训练与交叉验证 模型训练阶段采用加权交叉熵损失函数以缓解跨期价差上涨下跌类别不平衡问题,并使用Adam优化器结合权重衰减进行参数更新。训练过程中基于验证集损失设置学习率衰减与早停机制,当验证集损失在连续若干轮内未出现改善时,停止训练并保存验证性能最优的模型参数。 7.样本外测试与模型评价 在模型参数确定后,使用2025年数据进行严格的样本外测试,并通过预测准确率、分类报告与混淆矩阵对模型的方向预测能力进行评估。同时保留模型输出的概率分布结果,用于后续基于概率加权的仓位回测分析。 (二)参数设定与LSTM网络结构 1.输入形式与任务定义 ·任务类型:二分类预测任务,用于判断跨期价差在下一交易日的方向变化; ·输入形式:以连续𝑻=𝟓个交易日的因子序列作为一个样本输入;·输出形式:模型输出为二分类logits,对应“跨期价差上涨/下跌”两种状态。 2.LSTM网络结构设定 LSTM层结构:LSTM层数:3层;隐藏状态维度:8;Dropout比例:0.3; ·时序信息提取方式:仅使用LSTM在最后一个时间步的隐藏状态作为该序列的整体表示,用以刻画最近一段时间内跨期价差与因子状态的综合变化特征。 ·分类层结构:不额外引入中间全连接隐藏层;采用Dropout + Linear的方式,将LSTM最后时间步的输出直接映射至2维分类空间。 3.损失函数与类别不平衡处理 ·损失函数:采用加权交叉熵损失;·类别权重计算方式:基于训练集中上涨/下跌样本的实际比例,使用balanced模式自动计算类别权重;·