研究院量化组 摘要 研究员 本报告为《高频收益如何及何时可预测》系列报告的中篇,主要介绍了我们在国内期货高频市场的实证分析流程。在上一篇报告中,我们深入探讨了Yacine Aït-Sahalia和Jianqing Fan等人的研究成果,为高频收益率的可预测性提供了理论基础。本篇报告则转向实际,详细阐述了我们在国内期货市场的实证研究流程,包括数据集介绍、因子构造、预测目标设定、模型介绍及训练方法。在下一篇报告中,我们将展示国内实证的结果及其在实际交易策略中的应用。 高天越0755-23887993gaotianyue@htfc.com从业资格号:F3055799投资咨询号:Z0016156 联系人 李光庭0755-23887993liguangting@htfc.com从业资格号:F03108562 核心观点 研究对象的确定:综合考虑流动性和数据可得性,我们选取上期所的燃料油LU及螺纹钢RB的主力期货合约作为国内实证的研究对象。 李逸资0755-23887993liyizi@htfc.com从业资格号:F03105861 高频因子库的构建:由于国内期货市场逐笔成交相关数据的缺失,文献中大部分因子无法复现;基于此,我们启动了一项广泛的高频因子收集和开发工作。最终,我们整理并开发了超过130个高频因子,用于后续模型的输入。 模型选择:在实证过程中,我们主要使用了3种线性回归模型(OLS,Ridge,Lasso)以及3种机器学习回归模型(随机森林、XGBoost、LightGBM)进行拟合。 麦锐聪0755-23887993mairuicong@htfc.com从业资格号:F03130381 特征预筛选:由于特征较多(1300+),我们使用了小样本数据进行了特征的预筛选。 黄煦然0755-23887993huangxuran@htfc.com从业资格号:F03130959 模型训练:模型训练流程与原文献基本保持一致,我们使用了总共40个交易日的数据作为验证集,进行模型的样本外验证。 投资咨询业务资格:证监许可【2011】1289号 目录 摘要..............................................................................................................................................................................................................1核心观点......................................................................................................................................................................................................1前言..............................................................................................................................................................................................................3数据集介绍.................................................................................3因子构造...................................................................................4预测目标...................................................................................4线性回归模型...............................................................................5特征筛选..................................................................................10模型训练..................................................................................10总结............................................................................................................................................................................................................11参考文献....................................................................................................................................................................................................11 图表 图1:期货高频TICK数据示例丨单位:无...............................................................................................................................................3图2:西瓜好坏判断的决策树示例丨单位:无........................................................................................................................................7图3:模型调优及测试时间窗口丨单位:无.........................................................................................................................................11 前言 在当今金融市场中,高频交易日益成为推动市场流动性和价格发现不可或缺的关键因素。高频交易者的成功在很大程度上归功于其对市场微观结构深入而细致的理解与把握。在上一篇报告中,我们概述了Yacine Aït-Sahalia、Jianqing Fan等人在其论文《How and When are High-Frequency Stock Returns Predictable?》中的主要发现,这些发现为高频收益率的可预测性提供了理论基础和实证依据。在这一篇报告中,我们将详细阐述我们在国内期货市场的实证研究流程,包括数据集介绍、因子构造、预测目标设定、模型介绍及训练方法,希望能让读者能够清晰、系统地理解我们的研究方法论。 ■数据集介绍 研究品种 燃料油FU、螺纹钢RB(综合考虑数据可得性,选取上期所流动性较好的、盘口数据较齐全的2个品种作为研究目标) 合约选取 仅考虑流动性最好的主力合约 时间范围 2023/08/17-2023/11/16 数据字段 日期、时间戳、合约代码、最新成交价、成交量、成交额,持仓量变动、持仓量、涨跌停板、交易方向(基于最新成交价与上一tick最优报价之间的关系确定)、买卖报价及挂单量(五档) ■因子构造 在原文献中,作者基于限价订单簿及逐笔成交数据构建了13个因子。遗憾的是,国内期货市场的高频数据与国外的股票高频数据存在较大的差异,使得大部分因子无法复现。具体差异如下: 1)国外股票高频数据集中有逐笔成交数据,但国内期货市场难以获取逐笔成交数据。 2)国外股票高频数据集中的报价更新数据的快照精确到了纳秒,但国内期货交易所一般1秒推送2个快照数据,即时间间隔为500毫秒。这500毫秒期间发生的具体挂单及交易无从得知,仅能从当前盘口与500毫秒前盘口之间的相对关系加以推测。 另外,在上一篇报告中我们提到过,文献中使用3个时钟来定义区间,分别是日历时钟、成交时钟以及成交额时钟。日历时钟就是最常见的时间维度(未来n秒的区间收益率及方向),成交时钟则将交易笔数作为衡量区间的尺度(未来n笔交易的区间收益率及方向),而成交额时钟则是将成交金额作为衡量区间的尺度(未来n美元交易的区间收益率及方向)。由于我们仅有限价订单簿数据,没有逐笔成交相关的数据,因此我们在后续的实证过程仅考虑日历时钟。 在文献构造的13个因子中,仅总成交量因子,报价不平衡因子,成交不平衡因子,历史收益因子、换手率因子、报价价差因子这6个因子可以在国内期货市场复现(因子具体构造方式请参考《华泰期货量化策略专题报告20240621:做市高频系列(十六)高频收益如何及何时可预测(上)》)。基于初步测试结果,我们发现仅依赖这六个因子构建的模型在预测表现上并不理想。为了进一步提升模型的预测能力,我们启动了一项广泛的高频因子收集和开发工作。最终,我们整理并开发了超过130个高频因子,并将其纳入华泰期货的高频因子库中。 回溯区间 对于每个因子,我们都会求其在不同回溯区间的均值作为后续机器学习模型的输入(特征),以求同时捕捉因子的长期及短期的影响。原文献的回溯区间为过去1tick,过去2-1tick,过去4-2tick,过去8-4tick……过去256tick-128tick共9个回溯区间,这样的构造方式可以保证回溯区间不重合,避免同个因子在不同区间上的因子值之间存在过于明显的多重共线性的问题。然而,经过检验,我们发现这样的构造方式会降低模型在样本外的预测表现,因此我们对原文的回溯区间进行了一定的修改,构造的回溯区间为过去1tick,过去2tick,过去4tick……过去512tick共10个回溯区间。 ■预测目标 我们的预测目标是未来10个Tick(5秒)的收益率,计算方式为未来一段时间内的平均成交价格与当前中间价的比值减一: 考虑到实际交易时将不可避免存在延迟,我们将预测目标的计算向后延迟了一个tick。公式中的T当前时点的下一个Tick,Δ为区间长度(此处为10个Tick),M为所选时钟(此处为日历时钟)。 在实证过程中,我们主要使用了3种线性回归模型(OLS,Ridge,Lasso)以及3种机器学习回归模型(随机森林、XGBoost、LightGBM)进行拟合,以下是对这些模型的简要介绍: ■线性回归模型 线性回归模型的基本回归方程为: 其中,𝑦是因变量(预测目标),𝜒1,𝜒2,……,𝜒𝑛是自变量(因子值),𝛽0是截距项,𝛽1,𝛽1,……,𝛽𝑛是回归系数,𝜖是误差项。 以下介绍的三种线性回归的基本回归方程形式是一致的,不同的是最小化的目标函数(损失函数)。 最小二乘法 1)简介 最小二乘法(OLS , OrdinaryLeastSquares)是一种常用的线性回归方法,OLS模型假设自变量和因变量之间存在线性关系,并且误差项服从正态分布,具有同方差性和独立性。它通过最小化误差