您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[东证期货]:股指期货择时策略系列二:日间时序择时策略的因子化框架 - 发现报告

股指期货择时策略系列二:日间时序择时策略的因子化框架

2024-07-03常海晴东证期货B***
股指期货择时策略系列二:日间时序择时策略的因子化框架

风险中性定价原理(risk-neutralvaluation)[Table_Title]股指期货择时策略系列二:日间时序择时策略的因子化框架 2024年7月3日 策略构建思路 本篇报告系统构建了时序择时策略的因子化框架,初步构建的股指择时因子库包括期货量价因子、标的指数技术指标、成分股技术指标构成的扩散指标、成分股基本面指标构成的扩散指标、市场风格和资金面指标,分别测试了单因子等权配置、OLS多因子模型、Xgboost模型的效果,经过特征选择和调参处理三种方法均在样本内外取得了较稳健的表现。单因子等权配置的关键是需要在样本内筛选出相关性较低的单因子并在样本外等权配置,相当于手动组合了多个相关性较低的弱学习器;OLS多因子模型的关键是样本内的特征选择,本篇报告尝试使用递归特征消除法,该方法在日频、周频、月频收益率的预测上均取得了比较稳健的表现;Xgboost模型的关键则是特征和超参的选择,本篇报告对此处的特征选择方法未做太多的尝试,主要对超参进行了调整,在不同指数收益率的预测上最优超参数的取值范围有一定的相近之处。 策略回测结果 ★ 单因子等权:等权配置训练集上夏普大于0.8、相关性小于0.2的因子,全样本四个指数平均夏普为1.55,但样本外平均夏普骤降至0.27;倘若等权配置训练集上夏普大于0、相关性小于0.2的因子,从全样本到样本外,平均夏普只从1.01下降至0.69。 多因子模型:日频预测下,多因子模型整体得到了较好的回测结果和较稳定的样本外表现。OLS多因子模型在上证50、沪深300、中证500、中证1000上全样本回测夏普分别为0.46、0.73、0.89、1.00,年化收益分别为8.9%、14.0%、19.0%、23.5%,日度胜率分别为51.7%、52.1%、53.8%、52.0%,平均持仓周期在2周左右;Xgboost模型在上证50、沪深300、中证500、中证1000上全样本回测夏普分别为0.65、0.54、0.89、0.88,年化收益分别为12.3%、10.3%、19.1%、21.0%,日度胜率分别为51.7%、52.1%、53.8%、52.0%,平均持仓周期在1周左右。 扫描二维码,关注“东证繁微”小程序 ★致谢 感谢实习生张俊松同学对本篇报告的贡献。 目录 1、股指期货择时与套利时序策略的因子化框架...........................................................................................................32、日间择时策略构建思路.............................................................................................................................................43、择时因子构建............................................................................................................................................................53.1、期货量价因子.........................................................................................................................................................53.2、标的指数与成分股技术指标..................................................................................................................................63.3、成分股基本面指标..................................................................................................................................................63.4、市场风格、资金面相关指标..................................................................................................................................84、单因子检验与策略构建.............................................................................................................................................85、多因子模型训练与策略构建...................................................................................................................................166、总结.........................................................................................................................................................................247、风险提示..................................................................................................................................................................258、附录.........................................................................................................................................................................25 1、股指期货择时与套利时序策略的因子化框架 时间序列上单品种择时策略的构建通常有两种思路:因子型和规则型。规则型策略的优势是逻辑清晰,便于分析策略适用环境和策略失效原因,缺点在于策略的构建依赖于市场观察和灵感,对于每一条规则可能均需要重新编写代码,不便于进行策略迭代;因子型策略的优势在于方便进行批量的因子挖掘和策略迭代,模型角度有较多可借鉴的经验,但是缺点在于随着模型的复杂程度提高,策略逐渐黑箱化、解释性变差,难以进行收益归因。规则型和因子型的思路各有优劣但在一定程度上可以相互融合、相互转化:一方面大部分规则型可以向因子型转化,另一方面,因子型的策略构建过程中,每一个单因子可以视为一个规则,批量因子挖掘后对有效因子进行分析亦可提炼并优化其中的逻辑,并转换为交易规则。在之前的多篇深度报告中我们已经对股指期货择时和套利策略的因子型框架进行了多方面探索,包括《基于机器学习的跨期套利策略》《市场广度指标在指数择时与轮动中的线性与非线性应用》《股指期货日内价格规律与择时策略构建》,在之前报告的基础上,本篇旨在进一步梳理时序因子化框架构建的流程和方法,并应用在股指的日间择时策略上。 时序因子化框架的构建流程包括确定目标变量、因子构建、单因子的检验和筛选、多因子模型的训练和预测、将目标变量转换为交易信号并回测。 资料来源:东证衍生品研究院 2、日间择时策略构建思路 目标变量的确定:对于日间择时策略,我们重点将股指期货的四个标的指数上证50、沪深300、中证500、中证1000指数的收益率作为预测目标。实际交易中我们希望利用收盘后数据构建相关因子,第二天开盘交易,故将open to open的收益率作为预测目标;并分别把未来1、5、20日收益率作为预测目标,分别构建日频、周频和月频的预测信号。 因子构建:本篇报告初步构建的股指择时因子库包括期货量价因子、标的指数技术指标、成分股技术指标构成的扩散指标、成分股基本面指标构成的扩散指标、市场风格和资金面指标,后续将持续扩充因子库。 单因子检验与筛选:对于单因子进行多维度的检验并构建策略。对所有因子计算其滚动IC值、进行OLS和回归树的滚动预测,预测收益率为正则做多,预测收益率为负则做空,得到回测结果,并筛选样本内表现较好且相关性较低的因子在样本外进行等权配置。 多因子模型训练与预测:将2023年前作为训练集,2023年后作为验证集,在训练集上进行因子筛选与交叉验证调参,并在验证集上检验模型在样本外的表现。 手续费:涉及策略回测均使用万一的手续费率。 3、择时因子构建 3.1、期货量价因子 74个共6类股指期货基差价差、成交持仓相关的指标,进行进一步的运算,包括取5日均值、一阶差分、一阶环比、一阶差分后取5日均值、一阶环比后取5日均值,然后使用层次聚类将以上每类及其拓展指标分成至多20个相关性较低的类别,从每类中随机挑选1个指标,最终得到120个指标。 3.2、标的指数与成分股技术指标 分别从标的指数和成分股出发计算技术指标。若直接根据标的指数计算技术指标,则将技术指标的输出结果处理成连续变量,若根据成分股的技术指标合成扩散指标,则先将成分股的技术指标处理成离散变量,再使用自由流通市值加权合成为指数的扩散指标。由于篇幅原因,技术指标的具体计算公式详见报告后附录。 对于每一个技术指标,我们结合聚类算法随机选择4个相关性较低的参数,对每一个技术指标尽量包含短中长周期的不同参数,并剔除掉与其他因子相关性大于0.9的因子。 3.3、成分股基本面指标 该部分主要计算成分股的财务比率、估值、北向持仓、融资融券指标,然后使用自由流通市值加权成为指数的扩散指标。 3.4、市场风格、资金面相关指标 4、单因子检验与策略构建 以上5类因子,对每个指数剔除掉缺失值比例大于20%的因子、剔除与其他因子相关性大于0.9的因子,剔除波动率小的因子,最终对每个宽基指数最终保留了每类100余个、共计500个左右的因子。 由于单因子与未来收益率之间的相关性是动态变化的,因此无论是计算相关性还是使用单因子构建策略,滚动窗口的选择往往对结果影响较大。本部分分别测试了60日、250日、750日和延长式窗口下,各因子的滚动IC值、OLS滚动预测表现、回归树(max_depth=3)滚动预测表现。下面首先展示了四大宽基指数上预测未来1日收益率回测夏普排名前10的因子,并分别选择了一个代表性因子展示了其回测净值与滚动IC值。 资料来源:Wind,Ricequant,东证衍生品研究院 资料来源:Wind,东证衍生品研究院注:灰色柱状图(左轴)表示多空信号 资料来源:Wind,Ricequant,东证衍生品研究院 资料来源:Wind,东证衍生品研究院注:灰色柱状图(左轴)表示多空信号 资料来源:Wind,Ricequant,东证衍生品研究院 资料来源:Wind,东证衍生品研究院注:灰色柱状图(左轴)表示多空信号 资料来源:Wind,Ricequant,东证衍生品研究院注:灰色柱状图(左轴)表示仓位 资料来源:Wind,Ricequant,东证衍生品研究院 从多达500个因