您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[安信证券]:机器学习与量化投资:避不开的那些事(2) - 发现报告
当前位置:首页/其他报告/报告详情/

机器学习与量化投资:避不开的那些事(2)

2018-03-09杨勇、周袤安信证券温***
机器学习与量化投资:避不开的那些事(2)

1 本报告版权属于安信证券股份有限公司。 各项声明请参见报告尾页。 ■从IC、IR到另类线性归因 基于IC、IR的单因子分析是传统多因子分析的基石。但是IC、IR分析出却不能考虑到多因子模型中因子与因子之间的相互影响。因此我们以之前报告介绍的标准神经网络回归为例,用另类线性归因对因子进行了分析。 ■从线性归因到非线性归因 所有线性归因都是基于因子单调性(线性)的强假设。但是在机器学习的非线性世界中,这个强假设不复存在。非线性的机器学习算法需要非线性的归因方式。 ■从相关性到因果性 所有的传统归因方式都是基于相关性的而非因果性。因果分析也是机器学习未来的一个重点。我们以TMLE为例介绍机器学习下的因果性分析。 ■风险提示: 机器学习量化策略的归因是基于历史数据的归因,存在失效的可能。 Tabl e_Title 2018年03月09日 机器学习与量化投资:避不开的那些事(2) Tabl e_Bas eI nfo 金融工程主题报告 证券研究报告 杨勇 分析师 SAC执业证书编号:S1450518010002 yangyong1@essence.com.cn 周袤 分析师 SAC执业证书编号:S1450517120007 zhoumao@essence.com.cn Tab le_Report 相关报告 FOF和资产配置周报:MSCIA股相关指数基金积极上报,3月增配债券 2018-03-04 养老基金指引发布点评:专钱专用的养老金投资新时代 2018-03-04 FOF和资产配置周报:人保稳进配置混合型FOF获受理 2018-02-26 机器学习与量化投资:避不开的那些事(1) 2018-02-24 FOF和资产配置周报:从量化驱动型策略角度说明美股调整 2018-02-10 2 金融工程主题报告 本报告版权属于安信证券股份有限公司。 各项声明请参见报告尾页。 内容目录 1. 机器学习归因的意义 ............................................................................................................... 3 2. 特征工程与特征重要性 ........................................................................................................... 3 2.1. 特征工程 ........................................................................................................................ 3 2.2. 特征重要性 .................................................................................................................... 3 3. 传统线性归因 .......................................................................................................................... 3 3.1. 逐步回归 ........................................................................................................................ 3 3.2. Ridge, Lasso, Elastic Net .............................................................................................. 4 4. 随机森林系列 .......................................................................................................................... 7 4.1. 随机森林 ........................................................................................................................ 7 4.2. Burota ............................................................................................................................ 9 5. 遗传算法 ............................................................................................................................... 10 6. TMLE..................................................................................................................................... 11 图表目录 图1:特征系数与惩罚系数关系 .................................................................................................. 5 图2:Lasso Regression的系数 ................................................................................................. 5 图3:Ridge Regression的系数 ................................................................................................. 6 图4:ElasticNet 的系数 ............................................................................................................. 6 图5:变量间线性关系 ................................................................................................................. 7 图6:变量间非线性关系 ............................................................................................................. 7 图7:随机森林计算因子重要性-打乱X前 .................................................................................. 8 图8:随机森林计算因子重要性-打乱X后 .................................................................................. 8 图9:随机森林计算因子(特征)重要性.................................................................................... 9 图10:标准神经网络回归大盘择时策略的因子(特征)重要性排名 ....................................... 10 图11:遗传算法变异示意图 ...................................................................................................... 11 图12:气温、冰淇淋和啤酒 ..................................................................................................... 12 图13:大盘择时策略的因子重要性归因 ................................................................................... 12 未找到图形项目表。 3 金融工程主题报告 本报告版权属于安信证券股份有限公司。 各项声明请参见报告尾页。 1. 机器学习归因的意义 对于传统模型,例如logit或者决策树而言,输入(自变量)和输出(因变量)的关系是非常明显的。你可以非常清楚的明白为什么一些样本被错误划分了,例如,比如输入因子中某个因子太小了。同样的,对于决策树,同样可以根据决策树每个分叉的逻辑(例如因子A>某个常数)向下推演,得出错误划分的原因。但是对于其他大多数的模型,由于它们的高维和非线性,要直观的理解是非常困难的。 尽管如此,让机器学习一个非常有前景的科技让人觉得处于黑箱的状态是非常不明智的。不透明性增加了误用的概率。亚马逊的算法,决定了大多数人今天在读什么书;NSA的算法决定了谁是潜在的恐怖分子;气候变化模型决定了二氧化碳排放量的安全范围。人不能干预和控制人所不明白的事情,这是什么要单独将机器学习归因的作为一篇报告的原因。 2. 特征工程与特征重要性 机器学习的特征在量化投资当中也被称为因子。 2.1. 特征工程 特征工程是用某些领域内的知识来构造特征的过程。 如果世界上有无穷的数据,和一个universal function approximator(一个可以表达任何事情的模型),那么就没有特征工程存在的必要。这正是目前在图像识别领域发生的事情,卷积神经网络直接学习每个像素点,然后对图像内容进行识别,而不借助任何人手制的特征。 Coming up features is difficult, time consuming, requires expert knowledge. “Applied machine learning” is basically feature engineering. Andrew Ng, Machine Learning and AI via Brain simulations 正如吴恩达所述,应用机器学习主要是特征工程。而金融领域的特征获取往往有两种方式。一种是从主观看盘经验来或者从经济学或者金融学的论文来;另一种是纯数据挖掘。后者经常被人诟病容易过度拟合而导致亏损。但是事实上事情可能并没有这么可怕。举例而言WorldQuant号称有四百万的Alpha因子,结合Alpha101来看,很多因子非常可能是数据挖掘出来的,但是从公开业绩来看,它的投资表现还是尚且可以令人满意的。 2.2. 特征重要性 在构造出特征之后,我们需要了解这个特征究竟对我们的预测有没有用,这就需要了解特征重要性。 特征重要性的另一作