您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[东证期货]:利用遗传规划进行期货因子挖掘,暨金工周度策略分享 - 发现报告
当前位置:首页/其他报告/报告详情/

利用遗传规划进行期货因子挖掘,暨金工周度策略分享

2022-05-12王冬黎东证期货李***
利用遗传规划进行期货因子挖掘,暨金工周度策略分享

利用遗传规划进行期货因子挖掘暨金工周度策略分享东证衍生品研究院金融工程组2022年5月9日王冬黎 高级分析师(金融工程) 从业资格号: F3032817 投资咨询号: Z0014348 Tel: 8621-63325888-3975 Email: dongli.wang@orientfutures.com联系人常海晴分析师(金融工程)从业资格号: F03087441Tel: 8621-63325888-4191Email: haiqing.chang@orientfutures.com联系人谢怡伦 分析师(金融工程)从业资格号: F03091687Tel: 8621-63325888-1585Email: yilun.xie@orientfutures.com1 金工本周Topic:利用遗传规划进行期货因子挖掘2 遗传算法在因子挖掘中的应用•在机器学习领域,遗传规划能够有效地进行特征生成。一些早期的实证研究已经将遗传规划运用于金融工程的建模当中,并得到可用于实盘的交易因子。然而纵观近些年在遗传规划领域的研究,多数研究集中在对股票因子的挖掘之中,一个比较典型的例子就是Worldquant在2015年发布的Alpha 101报告,该报告展示了101个在美股市场上具有一定信号的股票因子,通过分析不难发现,这些因子大多具有较为复杂的表达形式,从主观交易逻辑的层面缺乏一定的可解释性,从其表达式的结构上来看可以推断出其交易因子具有遗传规划模型的痕迹。在此之后,市场上出现了大量遗传规划相关的研究报告,最终目的均大同小异,即找出更强的交易信号。3资料来源:101 Formulaic Alphas by Worldquant, LLC 遗传算法在因子挖掘中的应用4资料来源:101 Formulaic Alphas by Worldquant, LLC 遗传规划流程5 遗传规划流程6针对公式化的因子,首先需要对其进行编码使其能够适用到遗传规划算法当中,这边以一个简单的因子表达式为例来演示具体的编码方式:在对因子表达式进行树形结构的编码之后,便可以对其进行交叉、变异等操作。所谓交叉,就是结合两个适应度较强因子的基因信息,以生成相应的新因子,以其中一棵树的子树(节点)替代另一颗树的子树(节点)即可以完成此操作。 PCA&KPCA7KPCA算法其实很简单,数据在低维度空间不是线性可分的,但是在高维度空间就可以变成线性可分的了。利用这个特点,KPCA只是将原始数据通过核函数(kernel)映射到高维度空间,再利用PCA算法进行降维,所以叫做KPCA降维。因此KPCA算法的关键在于这个核函数。 MDS&ISOMAP8MDS降维算法,将高维坐标中的点投影到低维空间中,保持点彼此之间的相似性尽可能不变。本质上讲,ISOMAP与前面讲过的MDS(降维方法之MDS)是一模一样的,只不过它考虑使用一个合适的距离度量 d(i,j) 使得该降维方法能够适用于流形的数据。 LLE9局部线性嵌入(Locally Linear Embedding,以下简称LLE)是非常重要的降维方法。和传统的PCA,LDA等关注样本方差的降维方法相比,LLE关注于降维时保持样本局部的线性特征(保持原有拓扑结构),由于LLE在降维时保持了样本的局部特征,它广泛的用于图像识别,高维数据可视化等领域。LLE是非线性降维技术,可以说是流形学习方法最经典的算法之一。很多后续的流形学习、降维方法都与LLE有密切联系。 不同降维方式效果比较10 函数库11以ts_rank函数为例,该函数有两个输入,其中f为数据,n为时间参数,其定义为对某个数据在其时间序列上对过去n的数据进行排序,若序列过去5天的数据值为[3,5,6,1,10],则其经过ts_rank(f,5)的操作之后,对应新的序列为[0.4,0.6,0.8,0.2,1.0],以此类推。 回测框架12本报告依据OLS进行滚动回归预测。OLS(普通最小二乘法)多元回归的原理为,最优拟合曲线使得各点到直线的距离的平方和(残差平方和RSS)最小:本报告采用滚动回归的方式进行回测,以避免使用未来数据。以周度预测为例,首先设置相应的滚动回归窗口长度N,对每一天T都截取T-N到T时间段的基本面数据,由于为周度预测,需要对基本面数据进行5天的移动处理,所以实际可用数据点为N-5天内的数据,随后根据训练模型得到一列预测值,再根据预测值与真实值的比较去构造回测模型。回测过程基于历史窗口长度为60个交易日的基本面数据对未来5个交易日的价格进行滚动回测。 资料来源:东证衍生品研究院 数据处理13频率调整:基本面的原始数据多为低频数据(月频或周频),为便于处理,将所有数据前值填充为日频数据;标准化:对所有填充后的数据进行z-score标准化处理,提高数据之间的可比性;异常值处理:对所有偏离均值3个标准差的数据进行处理;移仓换月处理:为避免期货展期导致的价格影响,本报告以期权复权价格进行回测;周期性影响:为剔除数据的周期性影响,对数据分别进行环比,同比等处理;可得性处理:按指标具体可得性进行相应滞后处理;回测参数:本报告基于日频数据生成周频级别的多空信号,每周更新仓位,手续费设置为双边万三。 铜14共整理铝相关基本面因子共383个,这些因子涵盖了铝的上下游产业链相关数据,包括铝原料,铝冶炼,铝回收,铝加工,铝库存等基本面数据。 资料来源:东证衍生品研究院 铜15通过上表可以发现在经过一次演化之后,种群的最优值从1.43提升为1.55,且种群前3表现的因子均有不同幅度的提升,在经过第四次演化之后,新生种群的表现开始下降,种群的最优值从1.55下降至1.51,在此之前的三次演化,模型表现均得到提升,从初始的1.43提升至1.49,再到1.48,直至1.55。上述分析可以发现,虽然种群的演化可以生成表现更好地因子,但并不一定随着演化次数的增加整体的表现也随着增加。一个优秀的种群有概率会生成适应度函数更高的种群,但受到多种因素的影响,也有一定概率其后代的表现变差。 铜16考察该因子最近一年的表现(样本外),发现其夏普值为0.87,该值相较于1.55有了明显下降,但考虑到回测时段只有一年,且0.87的夏普值能够表明因子具有一定的预测能力,仍然可以认为该因子有效。 铜17 原油18原油相关基本面因子作单因子回测。原油类基本面因子数量较多,共有688个,涵盖了期货行情数据,各地现货价格数据,全球原油及成品油库存,全球炼厂运行等多个维度的数据。通过直方图分布可以发现大多数因子的夏普值集中在1.0上下。说明对于原油的基本面单因子而言,整体具有较强的预测能力。 资料来源:东证衍生品研究院 原油19接下来按照之前的步骤对原油期货的初始种群进行迭代次数为4次的演化,经过第一次演化之后,新生种群的最佳值达到了2.00,表现有一定的提升,进一步演化之后,最佳值的表现升至2.12,在经过全部4次演化之后,最终的表现为1.89。整体来说,种群演化对于降维后的因子产生了明显的提升,全部衍生种群中的最佳值为第二次演化之后的2.12。 原油20对于遗传规划类模型最大的担忧便是其是否存在过拟合的现象,为了验证这一点,选取上述回测过程中表现最好的因子对其进行样本外的回测,样本外回测时间段为2021年3月至2022年3月,具体表现如下: 考察该因子最近一年的表现,夏普值为1.28,该值相较于2.12有明显的下降,但考虑到回测时段只有一年,且1.28的夏普值能够表明因子具有一定的预测能力,仍然可以认为该因子有效。 原油21 其他品种22 金工周策股指期货对冲成本跟踪:本周股指期货基差随市场上涨有小幅走强,整体呈高位震荡的走势国债期货量化信号:债市方向信号偏谨慎,预期子弹优于哑铃组合商品基本面量化周频信号:黑色系和全品种均在高位回撤商品多因子周频信号:上周商品因子收益回顾:期限结构因子回撤,动量与库存因子表现占优23 国债期货:债市方向信号偏谨慎,预期子弹优于哑铃组合 主要内容总结25数据来源:东证衍生品研究院Ø(1)债券组合量化策略信号•债券组合策略信号近期变化不大,维持子弹组合持仓。基于久期四年左右的活跃券债券蝶式组合多空策略,最新模型合成信号偏空,对于债券组合配置策略而言模型预期5年子弹型组合优于2年加10年的哑铃型组合。Ø(2)债券久期择时信号•基于债券超额收益预测的久期轮动策略,预测短久期债券持有一年超额收益相对最高,继续推荐持有短债。具体而言,模型对于1-3Y、3-5Y、5-7Y、7-10Y国债财富指数持有收益预测值分别为1.77%、1.27%、0.70%、0.28%。具体而言,我们基于从线性与非线性模型以及不同数据集的六个模型本月推荐结果均为最短久期国债1-3Y指数,本月模型信号一致性较高,对债市偏谨慎。Ø(3)国债期货基差•本周国债期货基差以震荡为主,较此前一周变化不大,主力合约经过此前一周收基差动作后本周维持低位,远季合约净基差周度小幅反弹,体现出在基差合理估值水平下期债仍受到套保压力影响。国债期货隐含收益率期限结构方面,隐含到期收益率利差(T-TF)与(TF-TS)均小幅反弹,利差变化与我们此前判断相一致,建议套保需求投资者关注基差合理水平下十债空头套保机会。 债券组合策略推荐子弹组合Ø基于久期四年左右的活跃券债券蝶式组合多空策略,最新模型合成信号偏空,对于债券组合配置策略而言模型预期5年子弹型组合优于2年加10年的哑铃型组合。26数据来源:东证衍生品研究院 Lasso NPVRandom Forest NPVAdaBoost NPVXGBoost NPVbutterfly model combinebutterfly benchmark累计收益率4.1%3.5%2.2%3.9%4.8%4.1%年化收益率1.6%1.3%0.9%1.5%1.8%1.6%年化波动率0.8%0.8%0.8%0.8%0.8%0.8%最大回撤率-0.7%-0.6%-0.8%-0.4%-0.5%-0.7%胜率(D)52.6%52.8%50.3%52.2%52.5%52.6%盈亏比1.3 1.2 1.2 1.3 1.4 1.3 夏普比率1.9 1.6 1.0 1.8 2.2 1.9 Calmar比2.4 2.3 1.0 3.5 3.9 2.4 LassoRandom ForestAda-Boost XG-Boost2022/4/111-1112022/4/12-1-1112022/4/13-11112022/4/14-1-1-112022/4/15-1-1-112022/4/18-1-1-112022/4/19-1-1-112022/4/20-11-112022/4/21-11-112022/4/22-11-112022/4/25-11-112022/4/26-11-112022/4/27-11-1-12022/4/28-11-1-12022/4/29-11-1-12022/5/5-11-1-12022/5/6-1-1-1-12022/5/9-11-1-12022/5/10-1-1-1-12022/5/11-1-1-1-12022/5/1211-112022/5/13-11-1-1蝶式策略多空净值(测试集)蝶式策略多空信号(不同模型)蝶式策略多空净值-模型合并(测试集)蝶式策略多空净值分析(测试集)0.95 0.97 0.99 1.01 1.03 1.05 19/0919/1120/0120/0320/0520/0720/0920/1121/0121/0321/0521/0721/0921/1122/0122/03XGBoost NPVAdaBoost NPVRandom Forest NPVLasso NPVbutterfly benchmark-1010.95 0.97 0.99 1.01 1.03 1.05 1.07 19/0919/1120/0120/0320/0520/0720/0920/1121/0121/0321/0521/0721/0921/1122/0122/03sgn model combineb