您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国泰君安证券]:股指策略系列一:基于遗传算法的股指期货日间因子挖掘 - 发现报告

股指策略系列一:基于遗传算法的股指期货日间因子挖掘

2024-08-29国泰君安证券李***
股指策略系列一:基于遗传算法的股指期货日间因子挖掘

期货研究 二〇 二2024年08月28日 四年度 股指策略系列一:基于遗传算法的股指期 货日间因子挖掘 宋哲君投资咨询从业资格号:Z0014960songzhejun022131@gtjas.com 国 泰李浩投资咨询从业资格号:Z0020121lihao024471@gtjas.com 君宋子钰(联系人)从业资格证号:F03136034songziyu029981@gtjas.com 安 期张剑锴(联系人)从业资格证号:F03114607zhangjiankai027874@gtjas.com 货 研报告导读: 究本篇报告利用股指期货的量价数据,基于传统的基础量价因子,使用遗传算法对量价因子进行了重新 所组合构建,测试了新因子组的择时效果,并在此基础上提出了多种可能有效的改进方式。 传统量价因子:主要通过基本的量价指标,从金融经济、经验角度,进行一定的计算构造而成。 基于遗传算法构建的量价因子: 构造方法 将传统的量价因子和基础量价指标编码为遗传算法中的基础染色体,每个染色体代表一种特定的因子策略。 随机生成一组初始的因子组合,并对该组合的适应度进行评估。 根据因子的适应度的表现,选择较好的因子组合进行继续繁殖,生成新的子代。 通过交叉操作(结合两个因子组合的特征)和变异操作(随机改变某些因子的特征)来产生新的因子组合。 重复上述过程,直到找到满意的因子组合或达到预设的迭代次数。 遗传算法因子构造改进方面 为了保证因子的可拆分性以及可解释性,应当考虑优先选择复杂度较低的因子,尽量避免过长的计算流程 对于历史回测表现较为优秀的因子,应当重点分析其内部逻辑,能够做到对市场环境具有适应的能力 可考虑增大筛选遗传算法因子时所设置夏普比率阈值,以求获取质量更高的因子组合 目录 1.介绍股指期货择时因子的不同类型3 2.短日间择时策略的构建逻辑3 3.择时因子的构建逻辑4 3.1基本量价因子的构建4 3.2基于遗传算法的因子构建4 4.单因子日间择时策略检验5 5.结论33 (正文) 1.介绍股指期货择时因子的不同类型 在构建时间序列上的股指期货单品种择时策略时,目前的研究逻辑通常分为两类主要方法:一种是基于规则或经验的策略,另一种是基于因子的策略。首先,基于规则或经验的策略优点在于其逻辑较为明确,容易理解和分析策略在何种情况下有效,以及失效的具体归因,方便做出对应的调整。然而,这种策略的缺点是,在大多数情况下,策略依赖于个人的市场观察和直觉,每条规则可能都需要单独进行编程构建,这不利于策略的及时更新和迭代升级。与之相对应的,基于因子的策略则便于进行大规模的因子挖掘和策略迭代,模型的构建方面也有大量的研究可以参考。但是,随着模型复杂度的提高,所构建的策略的解释性可能会变差,导致收益的归因产生困难,这使得策略的优化和调整变得困难。基于以上两类方法的优势和劣势,在对策略进行构建的过程中,可以考虑对二者进行一定程度上的融合与交叉使用。第一,在大部分情况下,可以将规则或经验的策略进行因子化,使其能够套用因子型策略的优化和迭代逻辑。第二,每个因子也可以被视为一项交易规则或经验,用于构建交易策略。在批量生成因子后,可以对因子进行拆分,去分析因子中的现实逻辑,实现从因子到交易规则的转变。在现有的时序因子化框架下,本篇旨在对该框架进行梳理,并基于遗传算法,构建一系列时序因子,并将其应用在股指期货的日间择时策略上。 一般来讲,基本的时序单因子化框架主要包含以下过程:目标变量的确定、因子的构建、单因子的检验和筛选、将构成的因子转换为交易信号并回测因子的效果。在基础的框架下,本篇首先选择了已经存在的基础量价交易因子,并将这一系列基础交易因子重新融入深度学习的框架中,通过更新迭代,生成新的单因子,并将新的单因子转换为交易信号并回测其效果。目的是在保证其解释性的同时,尽可能的提高其在预测任务上的表现。 2.短日间择时策略的构建逻辑 在构建因子和测试因子效果的过程中,我们遵循传统股票单因子择时中的基本逻辑,并进行了一系列的设置,本报告中有关因子构建和测试的具体细节如下: (1)确认目标变量:本篇目的为构建股指的日间择时策略,因此在目标变量的选择上,所选的核心的四个标的分别为上证50,沪深300,中证500和中证1000股指期货,预测目标为其对应的收益率。在实际的交易过程中,我们希望能够使用收盘后的数据构建因子,第二天的开盘进行交易,因此使用closetoclose的收益率作为预测目标,以为来1日的收益率作为预测目标,构建日频的预测信号。 (2)因子构建:本篇报告选择的基础择时因子库主要包括期货的量价因子,标的指数的技术指标,并将基础择时因子库中的因子融合遗传算法的框架,构成并筛选出表现优异的组合因子,作为股指单因子择时策略中的依托因子。后续将持续根据遗传算法的挖掘,扩充因子库。 (3)训练与预测:对于上证50、沪深300、中证500股指期货,将2022年前作为训练集,2022年后作为验证集,在训练集上进行因子的构建和筛选,并在验证集上检验模型在样本外的表现。对于中证1000股指期货,将2024年前作为训练集,2024年后作为验证集,在训练集上进行因子的构建和筛选,并在验证集上检验模型在样本外的表现。 (4)调仓频率:日频调仓 (5)保证金100%,1倍杠杆 (6)暂不考虑手续费及滑点 3.择时因子的构建逻辑 基本的量价指标主要包括开盘价,收盘价,价差,成交量,持仓量等指标,进行进一步的运算,包括取k日均值,k阶差分,k日标准差,k日求和,k日最大值,k日最小值等指标,构成基础的经验量价因子。再从基础的经验量价因子中,基于深度学习,根据遗传算法生成预测能力较强的复合量价因子。 3.1基本量价因子的构建 本报告首先列出了在股指期货中可用的基本的日频量价指标,这些指标后续将会进行有逻辑的变换和调整,生成基本的量价因子。在股票市场的因子挖掘中,较为经典的101因子库和191因子库,存在大量由基本量价指标所构成的量价因子。然而,对于股指期货标的来说,由于标的种类的切换,这些因子的效果相对较差。因此,本报告参考101因子库和191因子库中的因子,但是对其中的量价因子进行了更进一步的拆分,将其分解为了一系列基础的量价因子,并对这些基础的量价因子中的参数进行了多种调整尝试。我们认为,不论是量价指标,还是拆分后的基础量价因子,在逻辑性、经济金融学都具有一定的意义。而将这些指标和因子作为后续遗传算法的底层输入,其组合的实际结果和逻辑性也同样是有迹可循的。 量价指标:开盘价、收盘价、最高价、最低价、成交量、累积持仓量、结算价、价差、涨跌幅、涨跌 拆分后的基础量价因子:k阶移动求和、k阶移动平均、k阶移动标准差、k阶移动相关系数、k阶移动协方差、k阶时序排名、k阶时序乘积、k阶最大值、k阶最小值、k阶滞后值、k阶滞后差值等。其中在计算因子时的参数-k天数,选取常用的1,5,10,20。 3.2基于遗传算法的因子构建 遗传算法是一种启发式搜索技术,它模仿自然界中的进化过程,特别是达尔文的自然选择和遗传学原理。在遗传算法中,问题的潜在解决方案被编码为“染色体”,这些染色体通过模拟生物进化中的选择、交叉(杂交)和变异等过程来进化,以产生更好的解决方案。 在投资过程中,遗传算法可以被用来挖掘有效的择时因子。传统的因子挖掘方法可能依赖于统计学或经济学理论,而遗传算法则提供了一种数据驱动的、探索性的方法来发现新的或改进现有的择时因子。 遗传算法在投资因子挖掘中的应用步骤通常包括: 1.编码:将可能的因子组合编码为遗传算法中的染色体。每个染色体代表一种特定的因子组合。 2.初始化:随机生成一组初始的因子组合(种群)。 3.适应度评估:使用历史数据来测试每个因子组合的表现,评估其对资产收益的解释能力或预测能力。 4.选择:根据因子组合的适应度(表现),选择表现较好的组合进行繁殖。 5.交叉和变异:通过交叉操作(结合两个因子组合的特征)和变异操作(随机改变某些因子的特征)来产生新的因子组合。 6.迭代:重复上述过程,直到找到满意的因子组合或达到预设的迭代次数。 将包含不同参数的基础量价因子和量价指标加入遗传算法的框架中,以未来一日的closetoclose收益率为预测目标,对因子进行挖掘构建。在构建的过程中,考虑到了因子的在实际交易中的表现能力,对因子的样本内回测夏普比率设置了阈值,旨在筛选出优秀的复合量价因子。 4.单因子日间择时策略检验 为了保证因子的质量和回测的效果,将以上框架所生成的量价因子,剔除掉缺失值比率大于20%的因子、与其他因子相关性大于0.9的因子,以及波动率较小的因子。最终,对于每个预测标的股指期货保留 了800个左右因子。 本报告在后续内容展示了在不同股指期货标的上使用单因子构建策略,预测未来1日收益率的回测结 果。截取了回测结果中,夏普比率排名前10的因子,并展示了这些因子的回测净值。其中因子的名称由其对应的标的简称和其在遗传算法循环中的次数编号组成。 表1:上证50股指择时夏普排名前10的单因子 年化收益率 年化波动率 夏普比率 卡玛比率 胜率 盈亏比 最大回撤 IH_352 19.7% 22.68% 0.87 0.66 51.3% 1.18 -29.8% IH_582 17.9% 22.70% 0.79 0.56 51.1% 1.16 -32.1% IH_601 15.7% 22.71% 0.69 0.37 51.5% 1.14 -42.8% IH_182 15.2% 22.73% 0.67 0.22 51.2% 1.13 -68.3% IH_43 14.5% 22.71% 0.64 0.40 52.2% 1.13 -36.1% IH_438 13.8% 22.73% 0.61 0.43 50.5% 1.12 -32.1% IH_375 13.6% 22.72% 0.60 0.29 51.1% 1.12 -46.8% IH_220 12.8% 22.00% 0.58 0.43 51.0% 1.12 -30.0% IH_154 12.6% 22.86% 0.55 0.24 49.7% 1.11 -53.0% IH_709 12.5% 22.70% 0.55 0.34 50.4% 1.11 -36.6% 资料来源:RQData,国泰君安期货研究 IH_352: 年化收益:19.7%,夏普比:0.87,最大回撤-29.8%,交易胜率51.3%,交易盈亏比1.18 图1:IH_352净值 资料来源:RQData,国泰君安期货研究 IH_582: 年化收益:17.9%,夏普比:0.79,最大回撤-32.1%,交易胜率51.1%,交易盈亏比1.16 图2:IH_582净值 资料来源:RQData,国泰君安期货研究 IH_601: 年化收益:15.7%,夏普比:0.69,最大回撤-42.8%,交易胜率51.5%,交易盈亏比1.14 图3:IH_601净值 资料来源:RQData,国泰君安期货研究 IH_182: 年化收益:15.2%,夏普比:0.67,最大回撤-68.3%,交易胜率51.2%,交易盈亏比1.13 图4:IH_182净值 资料来源:RQData,国泰君安期货研究 IH_43: 年化收益:14.5%,夏普比:0.64,最大回撤-36.1%,交易胜率52.2%,交易盈亏比1.13 图5:IH_43净值 资料来源:RQData,国泰君安期货研究 IH_438: 年化收益:13.8%,夏普比:0.61,最大回撤-32.1%,交易胜率50.5%,交易盈亏比1.12 图6:IH_438净值 资料来源:RQData,国泰君安期货研究 IH_375: 年化收益:13.6%,夏普比:0.60,最大回撤-46.8%,交易胜率51.1%,交易盈亏比1.12 图7:IH_375净值 资料来源:RQData,国泰君安期