您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[光大证券]:机器学习系列报告之二:数据纵横,探秘K线结构新维度 - 发现报告
当前位置:首页/其他报告/报告详情/

机器学习系列报告之二:数据纵横,探秘K线结构新维度

2019-02-22刘均伟光大证券后***
机器学习系列报告之二:数据纵横,探秘K线结构新维度

敬请参阅最后一页特别声明 -1- 证券研究报告 2019年2月22日 金融工程 数据纵横:探秘K线结构新维度 ——机器学习系列报告之二 金融工程深度 在金融投资领域下运用机器学习并非易事。在算法日益强大的同时,机器学习在金融投资领域的进展速度却丝毫不见加速,许多在看似直观的应用方式下直接套用机器学习算法的做法往往并不能达到预期的效果。我们在机器学习系列第一篇报告中提出:机器学习能否在金融投资取得成功,更取决于算法之外的细节处理,例如运用模型算法前应该做哪些处理,在运用算法过程中应该注意哪些细节,在运用算法后又该如何看待算法给出的结果等等。本篇报告延续上述思路,探索在运用机器学习算法之前,如何更好地处理交易数据的K线结构。  数据结构特征对机器学习运用效果有较大影响。机器学习的优势在于能够更高效地探索不同数据间的关联方式。但与人脑不同的是,机器学习模型对数据本身并没有先验认知。因此它往往需要更大规模更高质量的数据来弥补这一点。同时机器学习模型的效果除了受数据本身信噪比大小制约以外,也直接受到新数据与样本数据的特征是否相近的影响。如果数据里不同样本的结构或分布特征有较大差异的话,往往会使得机器学习算法无法有效运作,甚至可能将研究者引向错误的结论。  传统时间K线结构的统计特征不理想。交易数据蕴藏大量的预测信息,为了利用这些非结构化的数据,它们首先会被处理成K线结构。而K线又有多种构造方式,我们从正态性、自相关性与异方差性这3个角度,检验了不同K线构造方式下的统计特征。相比于传统时间K线,股票的Tick等分K线、成交量K线、成交额K线都更加适合机器学习算法。而时间K线则存在着更严重的非正态、高自相关与严重异方差现象的弊端。  在成交量K线上训练的波动率方向预测模型效果更强。运用高频成交量数据构造知情交易概率的代理指标,并配合其它K线量价数据,搭建波动率变化方向预测模型。通过将逻辑回归、SVM、随机森林算法分别在不同K线结构上训练,我们可以比较不同场景下模型预测的准确率。在大部分场景下,利用非时间K线训练的模型往往优于时间K线上训练的模型,其中成交量K线结构的表现最为突出,在各场景下的平均预测准确率均在65%以上。  在成交量K线上训练的模型更适应不同市场环境。基于SVM对波动率变化方向的预测信号,模拟交易上证50波动率指数。通过比较在成交量K线与时间K线上训练模型的信号在2015年市场环境发生变化时的差异,直观地展现出成交量K线下的机器学习模型在不同市场环境下适用性更佳。  风险提示:测试结果均基于模型和历史数据,模型存在失效的风险。 分析师 刘均伟 (执业证书编号:S0930517040001) 021-52523679 liujunwei@ebscn.com 联系人 胡骥聪 021-52523683 hujicong@ebscn.com 相关研报 《机器学习:开拓金融量化新前沿——机器学习系列报告之一》2019.01 2019-02-22 金融工程 敬请参阅最后一页特别声明 -2- 证券研究报告 目 录 1、 数据的结构特征对机器学习算法效果有影响 ............................................................................. 5 1.1、 机器学习对数据的依赖更高 .................................................................................................................... 5 1.2、 不合适的数据结构往往限制机器学习的能力 ........................................................................................... 5 2、 传统K线构造下的数据在统计意义上的劣势 ............................................................................. 6 2.1、 正态性 ..................................................................................................................................................... 7 2.2、 自相关性 ................................................................................................................................................. 8 2.3、 异方差性 ............................................................................................................................................... 10 3、 不同K线结构在预测波动率变化上的效果 .............................................................................. 12 3.1、 输入变量:知情交易概率 ...................................................................................................................... 12 3.2、 成交量K线上预测效果更好.................................................................................................................. 13 4、 波动率改变方向预测的直观应用 ............................................................................................. 16 5、 风险提示 ................................................................................................................................. 18 附录A:股票不同K线构造下统计特征数据 .................................................................................. 19 附录B:各股票在不同算法下对波动率变化预测的准确率 .............................................................. 33 2019-02-22 金融工程 敬请参阅最后一页特别声明 -3- 证券研究报告 图目录 图1:股票收益率在不同K线构造下的偏度............................................................................................................. 8 图2:股票收益率在不同K线构造下的峰度............................................................................................................. 8 图3:股票收益率在不同K线构造下的J-B检验值 .................................................................................................. 8 图4:股票收益率在不同K线构造下的K-S检验值 ................................................................................................. 8 图5:时间等分K线下收益率自相关性 .................................................................................................................... 9 图6:Tick等分K线下收益率自相关性 .................................................................................................................... 9 图7:成交量等分K线下收益率自相关性 ................................................................................................................ 9 图8:成交额等分K线下收益率自相关性 ................................................................................................................ 9 图9:各K线构造收益率序列在不同滞后期下的自相关系数 ................................................................................. 10 图10:平安银行(000001)2017年不同K线构造下的周内波动序列 ................................................................... 11 图11:不同K线结构下各股票周内波动序列方差 .................................................................................................. 12 图12:训练集波动率改变方向预测准确率均值 ...................................................................................................... 14 图13:测试集波动率改变方向预测准确率均值 ...................................................................................................... 14 图14:逻辑回归算法平均准确率(等价频率: M5) ............................................................................................... 15 图15:逻辑回归算法平均准确率(等价频率: M10