您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[德邦证券]:德邦金工文献精译第一期:机器学习因子:在线性因子模型中捕获非线性 - 发现报告
当前位置:首页/其他报告/报告详情/

德邦金工文献精译第一期:机器学习因子:在线性因子模型中捕获非线性

2021-09-17肖承志德邦证券李***
德邦金工文献精译第一期:机器学习因子:在线性因子模型中捕获非线性

请务必阅读正文之后的信息披露和法律声明 [Table_Main] 证券研究报告 | 金融工程专题报告 金融工程中期报告 2021年9月17日 金融工程专题报告 证券分析师 肖承志 资格编号:S0120521080003 邮箱:xiaocz@tebon.com.cn 研究助理 相关研究 1.《云销雨霁,尚待黎明—— 德邦金工中期策略报告》,2021.8.24 机器学习因子:在线性因子模型中捕获非线性 ——德邦金工文献精译第一期 [Table_Summary] 投资要点:  证券收益与风格因子之间不止存在线性关系。本文的研究表明,在因子与收益的线性关系之外,还有很强的待挖掘的非线性关系。  机器学习算法可以用于挖掘非线性关系。因子与收益之间的非线性关系可能是复杂函数,而用机器学习算法可以高效地对这种非线性关系进行建模、近似。  在线性回归模型的基础上叠加机器学习模型,以残差训练它。线性模型是具有明显含义且相对容易理解的部分。我们保留线性模型的这一优势,用机器学习模型拟合线性回归的残差。  机器学习的训练数据需要进行筛选和处理。训练机器学习模型时,需要选择正确的回顾期和频率。尤其重要的是,输入的回报数据需要进行标准化处理。  采用集成模型的方法降低噪音和提取信号。由于回报数据的低信噪比,机器学习模型总是在拟合信号的同时拟合了噪音,论文通过训练多个机器学习模型,再计算模型预测的平均值,以尽可能消除噪音、提取信号。  检查机器学习模型输出因子与其他风格因子的线性相关性。论文计算了机器学习因子和其他风格因子之间的线性相关系数,发现其绝对值都很小,这表明了机器学习因子的非线性特征。  打开机器学习模型的黑箱。机器学习的软肋之一是其黑箱特征,故其作用机制难以理解。论文通过分析各个风格因子对机器学习输出的影响来推测机器学习的输出逻辑和衡量各个风格因子的非线性贡献。论文衡量了各个风格因子的特征重要性以及风格因子两两之间的交互作用。  单独回测机器学习因子。论文把机器学习因子作为一个选股因子,单独回测其历史表现,这个因子在1998年至2020年间产生了约500%的多空收益回报。这证明了因子的强选股能力。  联合回测机器学习因子和风格因子。论文将机器学习因子插入到风格因子当中,用多因子的方法回测这些因子历史表现。投资组合在1998年至2020年间产生了超过80%的回报。  因子表现统计。论文统计了所有风格因子与机器学习因子的表现,包括t值、回报、波动率、信息比率、R平方、最大回撤、方差膨胀因子VIF、月自相关系数等,多数统计量表明,机器学习因子是最强的选股因子。  机器学习因子选股能力归因。论文的作者推断,机器学习因子的强大选股能力来源于很多风格因子的非线性选股效应的累积。  风险提示:海外市场波动风险,宏观数据、政策变化风险,模型失效风险 金融工程专题 2 / 20 请务必阅读正文之后的信息披露和法律声明 内容目录 1. 前言 ................................................................................................................................ 4 2. 执行摘要 ......................................................................................................................... 4 3. 介绍 ................................................................................................................................ 4 4. 方法 ................................................................................................................................ 5 5. 结果 ................................................................................................................................ 6 5.1. 比较机器学习算法 ................................................................................................ 6 5.2. 模型稳定性 ........................................................................................................... 8 5.3. 打开黑箱 ............................................................................................................... 9 5.4. 交互效应 ............................................................................................................. 12 5.5. 样本外表现 ......................................................................................................... 13 6. 结论 .............................................................................................................................. 16 7. 参考文献 ....................................................................................................................... 17 8. 附录 – 使用的ML算法描述 ........................................................................................ 17 9. 风险提示 ....................................................................................................................... 18 信息披露 ............................................................................................................................ 20 金融工程专题 3 / 20 请务必阅读正文之后的信息披露和法律声明 图目录 图1:机器学习模型性能与模型复杂性 ................................................................................ 7 图2:随着时间的推移集成机器学习模型性能 ..................................................................... 7 图3:机器学习预测的相关性 ............................................................................................... 8 图4:机器学习因子暴露稳定性 ........................................................................................... 8 图5:特征重要性 ................................................................................................................. 9 图6:特征重要性的相关性 ................................................................................................ 10 图7:神经网络模型的部分依赖 ......................................................................................... 10 图8:流动性和动量的因变量部分依赖曲线,三种模型 ..................................................... 11 图9:互动强度 .................................................................................................................. 12 图10:动量与规模的交互 .................................................................................................. 12 图11:ML 因子暴露与GEMTR 样式的平均相关性 ......................................................... 13 图12:ML 因子暴露与GEMTR 样式的平均相关性 ......................................................... 14 图13:ML Factor 的全样本十分位数投资组合性能 ......................................................... 15 图14:ML 因子的全样本多变量因子回归 ..