您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中邮证券]:人工智能行业系列一:概述,基于机器学习的量化投资策略 - 发现报告
当前位置:首页/行业研究/报告详情/

人工智能行业系列一:概述,基于机器学习的量化投资策略

信息技术2018-11-01程毅敏中邮证券为***
人工智能行业系列一:概述,基于机器学习的量化投资策略

市场有风险,投资需谨慎 请务必阅读正文之后的免责条款部分 证券研究报告:宏观研究 2018年11月1日 研发部 分析师:程毅敏 SAC执业证书编号:S1340511010001 联系电话:010-67017788 Email:chengyimin@cnpsec.com 基于机器学习的量化投资策略 ——系列一:概述 ⚫ 人工智能,在金融领域已经开始逐步从探索走向应用,从金融大数据,到智能投顾、智能投研,在不断取得新的应用进展。依托于计算机和数据信息的发展,“AI+”的模式将给我们的投资研究带来更多的助益。未来将在“AI+”量化投资中探索更多的想法和应用。 请务必阅读正文之后的免责条款部分 2 一、概述 (一)从Alpha系列谈起 近几年随着人工智能概念的再度提起,各种相应的算法也随之发展。 人工智能,是建立在统计学基础上,研究使计算机模拟人的某些思维过程和智能行为,从而能够通过对环境的感知,做出最大化效果预期的行动。 AlphaGo是第一个击败人类职业围棋选手、第一个战胜围棋世界冠军的围棋AI;此后,DeepMind又推出新一代的围棋AI,把这个新版本称之为“Alpha Zero”。在Alpha Zero之前的所有版本都是经过人类知识的训练,它们被告知人类高手如何下棋。而最新发布的AlphaGo Zero使用了更多原理和算法,从0开始,使用随机招式,40天后成为围棋界的绝世高手,真正的自学成才。新的AlphaGo Zero使用了一种全新的强化学习方式,从0基础的神经网络开始,与搜索算法结合,不断进化调整、迭代升级。 (二)“AI+”量化投资 1、 与传统的量化投资相比,“AI+”的优势体现在何处? 传统的量化投资策略是通过建立各种数学模型,在各种金融数据中试图寻找市场的规律。无论是依据人的经验,还是通过数学模型,目前所取得的效果都是一般;在股票等金融市场的探索中,人类的研究或许只是接近了其中某一个局部最优解,而真正的全局最优解或许超出了传统量化所能达到的范畴(如 图表1示)。 一方面,金融市场中蕴含着复杂的非线性行为和金融数据的非稳态问题,很难通过传统的数学模型挖掘,另一方面,交易数据的量相当巨大,对于海量数据的挖掘,受限于计算机运算能力,若不合理的利用相关算法,往往需要耗费大量时间。而AI的优势在于:AI能够提供非线性关系的模糊处理,弥补了人脑思维模式,同时利用相关算法,可以大幅提高数据挖掘、处理效率。借助AI,量化投资策略会变得更加丰富,例如:基于AI在多因子选股领域对因子的挖掘。 图表1:“全视角”的AI 资料来源:网络,WIND资讯,中邮证券研发部 2、 “AI+”如何应用到量化投资领域? 请务必阅读正文之后的免责条款部分 3 人工智能的发展,需要经历“机器辅助——人机合作——机器自主”三个发展阶段。目前AI在众多领域取得了突破,但仅在解决封闭空间的简单任务中取得了成功,离普适还有一定距离,可以预见,在未来相当长的一段时间内,将会是人机融合的模式,对于处理金融数据更是如此。 对于量化投资来说,将会是分析师的经验和人工智能的融合,“AI+”的模式将会成为量化投资领域的发展方向。人脑的抽象思维、情感思维是目前AI所不具备的,而AI的模糊运算和计算能力也是人脑所不能达到的,二者相互结合或许会成为未来量化投资领域的一个方向。 (三)AI在投资领域的应用和发展 1、 AI的发展历程 人工智能的概念最早由McCarthy在1956年提出,此后经历了三次大的发展浪潮。 第一次浪潮出现于20世纪60年代:机器通过严密的逻辑符号来进行一些推理证明。 第二次浪潮出现于20世纪70年代末:Feigenbaum提出“知识工程”的概念和BP神经网络的诞生,人类开始让机器模仿神经元网络进行知识的学习。 第三层浪潮出现在2006年,Geoffrey Hinton提出深度学习的概念,随着模型训练方法的改进和计算能力的不断发展,打破了BP神经网络发展的瓶颈。 图表2:AI的发展历程 推理时期 1960s 赋予机器逻辑推理的能力,使机器获得智能 知识时期 1970s 将人类的知识总结出来教给机器,使机器获得智能 机器学习时期 1980s 符号主义学习与连接主义学习,代表决策树和神经网络 1990s 统计学习占据舞台,代表方法:支持向量机 21Cent 深度神经网络被提出 资料来源:网络,WIND资讯,中邮证券研发部 2、 AI在量化投资领域的应用 目前,AI在智能投顾领域的应用包括非结构化信息获取、分析,构建知识图谱,提供投资建议,优化投资结构。 (1)、AI在境外投研领域 Rebellion Research的人工智能系统通过自我学习全球53个国家股票、债券、外汇和大宗商品的交易数据,评估各种资产组合的未来收益和潜在风险,帮助客户合理配置资产。公司的人工智能系统基于贝叶斯算法,对宏观、行业和公司三个层面的数据进行分析,且模型能够自动将历史数据和最新数据进行整合,使模型能够自动预测市场走势。公司在2007年推出的第一个人工智能投资基金,基于贝叶斯机器学习,结合预测算法,对历史的金融和贸易数据进行分析之后,成功地预测2008年的股市崩盘,并在2009年9月给希腊债券F评级,当时惠誉的评级仍然为A,Rebellion比官方提前一个月给希腊债券降级。 请务必阅读正文之后的免责条款部分 4 英国另类投资管理业务集团Man Group规模最大的一只基金AHL Dimension Programme目前管理着51亿美元资产,从2014年开始使用机器学习技术,至今年6月3年间获得了15%的收益,约为行业平均水平的2倍,其一半的利润是由人工智能贡献的。目前,Man Group已经有四只基金融合了人工智能技术,共计约123亿美元资产。 Two Sigma和Renaissance Technologies这些以数据为中心的对冲基金也依靠智能投资系统。系统可以完全自主地识别和执行交易,借助了包括基于遗传算法、概率逻辑等多种形式的人工智能技术。 美国EquBot公司和ETF Managers Group合作推出的AIEQ利用人工智能和机器学习,对全美6000多家上市公司进行分析,构建上百万份资料和众多金融模型,从当前经济形势、未来趋势以及公司重大事件等方面进行深度分析后,再挑选出包含70只股票的投资组合;然后由ETF Managers Group的一个基金经理团队对投资组合进行再权衡。 据调研公司LCH在今年初出具的调研报告,美国业绩排前20的对冲基金,包括桥水基金、索罗斯基金,全部采用计算机根据算法自动交易。2016年第二季度,美国花旗银行的一份行业研究报告指出,从2012年到2015年年底,美国智能投资顾问管理的资产规模从0上升至290亿美元,而且其管理的资产规模将在未来十年中呈现几何级数的上升,预计2025年将达到5万亿美元的水平。 (2)、AI在境内投研领域 国内也有多家公募基金、私募基金、资管纷纷试水,设立或在积极筹备相关研究部门及团队,运用AI辅助投资决策。2017年6月13日华夏基金宣布与微软公司在亚太地区设立的微软亚洲研究院合作,就人工智能在金融服务领域的应用展开战略合作研究。也有些机构与互联网公司合作,并在积极研究布局融合人工智能技术的主动量化基金。 3、 AI在量化投资领域的局限 AI对数据的质量要求很高,学习效果跟数据质量有很大关系,我国A股市场发展的时间还不长,数据量不够充足,噪声也比较多,使得AI学习效果的稳定性不能充分得到保证;另外,脱离人类经验的完全强化学习目前仅在有特定约束条件的环境下成功运用,离普适还有相当长的距离,深度学习、强化学习等技术仍需要GPU、TPU的发展支持。 二、人工智能简析 (一)AI和机器学习 人工智能是一个大概念,其研究范畴包含机器学习、自然语言处理、语音识别等。 (二)机器学习算法 请务必阅读正文之后的免责条款部分 5 机器学习算法主要分为三类:监督学习(Supervised Learning),无监督学习(Unsupervised Learning)和强化学习(Reinforcement Learning)。 监督学习是使用已知正确答案的示例来训练网络的,无监督学习适用于你具有数据集但无标签的情况,强化学习是针对你再次没有标注数据集的情况而言的,但你还是有办法来区分是否越来越接近目标(回报函数(reward function))。 图表3:机器学习算法应用场景 市场状态转换模型 隐马尔可夫,条件随机场 多因子组合 线性回归,Lasso回归,岭回归,决策树 新闻文本、舆情分析 自然语言处理,文本挖掘 证券买卖定价模型 卡尔曼滤波 金融经济数据挖掘 神经网络,深度学习 股价预测的特征选取 SVM,决策树,随机森林 股价走势预测 K-means 因子模式分类 逻辑回归 资料来源:网络,WIND资讯,中邮证券研发部 (三)机器学习流程 1、 建模流程 图表4:机器学习流程示意 资料来源:网络,WIND资讯,中邮证券研发部 2、 数据处理 数据的质量直接影响了机器学习算法最终学习的效果,数据处理一般包含以下步骤: 缺失数据处理:处理缺失值的两个方法是删除或者填充。删除是直接将包含缺失值的特征或样本删除。填充是为了避免删除整个特征或样本会损失很多有价值的数据。缺失值的填充可以使用各种插值技术,最常用的是均值插值、中位数插值等。 类别数据的处理:类别数据有两个类型,标称特征(nominal feature)和有序特征(ordinal feature)。 对于有序特征,我们可以建立一个映射字典,将类别字符串与整数建立映射。比如:大盘股、中盘股、小盘股分别映射为1、2、3。对于标称特征, 请务必阅读正文之后的免责条款部分 6 我们可以将字符串分别映射为不同的整数,比如将价值股定义为0,周期股定义为1,成长股定义为2,但这样会导致机器学习算法认为这两个特征是有大小顺序的,这样学习的结果不是最优结果。解决这一问题的常用技术是one-hot encoding技术。one-hot encoding是构建一个虚拟特征(dummy feature),用二进制来标识样本类别,利用one-hot encoding,价值股的虚拟特征为(1,0,0),周期股的特征为(0,1,0),成长股为(0,0,1)。 数据集的划分:为了保证算法不仅在训练数据集上有效,同时还能很好地应用于新数据,我们通常会随机的将数据集划分为训练数据集和测试数据集。我们使用训练数据集来训练及优化我们的机器学习模型,用测试数据集对模型进行评估,如果对评估效果满意,那么可以用此模型对新的数据进行预测。为了找出能在实测数据上有更好表现得模型,可以采用交叉验证技术,将训练数据进一步分为训练子集和验证子集,对模型的泛化能力进行评估。 特征缩放:如果数据尺度相差较大,一般的学习算法将主要根据较大值的误差进行权重优化,为了避免此类错误,需要将不同的特征数据缩放到同一区间。决策树和随机森林是机器学习算法中为数不多的不需要进行特征缩放的算法。 常用的特征缩放方法有归一化和标准化: 归一化:将值缩放在区间[0,1]内,通常使用min-max缩放: 标准化:将值转换为服从均值为0,方差为1的标准正态分布: 对于大多数算法来说,标准化方法更易于权重的更新;此外,还可以进行数据降维。 3、 模型评估和参数优化 过拟合和欠拟合 若模型的训练准确率和验证准确率之间有很大的差距,说明模型过拟合,是一个高方差模型;若模型的训练准确率和验证准确率都很低,说明模型欠拟合,是一个高偏差模型。 图表5:欠拟合、过拟合、完美拟合 资料来源:网络,WIND资讯,中邮证券研发部 请务必阅读正文之后的免责条款部分 7 对于欠拟合,通常做法有:增加参数数量,构建额外特征、降低模型的正则化程度;对于过拟合模型,通