研究背景与意义
我国金融市场日益成熟,量化投资产品比重逐渐上升。多因子选股模型作为量化投资的主要内容之一,近年来在我国资本市场发挥良好作用。然而,现有量化选股策略存在单一、业绩分化等问题,因此探寻新的量化选股方式至关重要。大小盘风格轮动现象明显,若能选择恰当的股票池,则能获得较高收益。
研究内容与技术路线
本文改进传统量化选股方法,针对“泰迪杯”比赛问题进行解决,主要研究内容包括:
- 内生化大小盘风格轮动:使用沪深300和中证500月度收益率代表大小盘股指,利用宏观经济数据等解释变量进行内生化的风格轮动建模。
- 多因子选股模型的构建:通过夏普比率筛选、Adaptive Lasso进行因子筛选、相关性分析剔除冗余因子,最终得到13个有效因子,并使用机器学习算法(CatBoost、LightGBM、随机森林、XGBoost)进行建模。
文献综述和相关理论
量化投资
量化投资在欧美成熟市场已形成完善的理论体系,国内起步较晚,但近年来发展迅速。
多因子选股
多因子选股模型主要分为打分法和回归法,国内外学者对其研究主要集中在因子选取和模型构建上。
大小盘风格轮动
国内对大小盘风格轮动的研究主要集中在券商研究报告和部分学者对量化选股的应用上。
多因子模型概述
多因子模型通过多个因子综合考量股票收益,一般步骤包括候选因子选取、因子有效性检验、冗余因子剔除、综合评分模型建立和模型评价等。
内生风格轮动策略理论概述
大小盘相对优势指标是反映大小盘优势比较趋势的关键指标,宏观经济变量对大小盘轮动有显著影响。
算法介绍
本文使用了多种机器学习算法,包括Adaptive-Lasso、决策树算法、XGBoost、随机森林和LightGBM,并对各算法原理进行了详细介绍。
数据预处理及因子筛选
数据获取
本文使用Autotrader的Python接口获取2016年1月至2018年9月沪深300和中证500成分股的日数据,并进行月度数据合成。
候选因子的选取
通过夏普比率筛选、手动筛选、Adaptive Lasso方法和相关性分析,最终得到13个有效因子。
数据预处理
对数据进行缺失值处理和预测因变量定义,为后续建模做准备。
基于风格轮动的多因子选股策略研究
大小盘轮动分析及预测
通过分析沪深300和中证500月度收益率时间序列图,构建小盘相对优势指标,并使用宏观经济变量进行内生化的风格轮动建模。
多因子选股模型的构建
CatBoost、LightGBM、随机森林、和XGBoost建模效果对比
通过RMSE和模型稳定性比较,发现机器学习模型优于等权重线性模型。
基于机器学习模型的多因子选股模型的构建
使用LightGBM进行参数调优,并通过特征重要性分析,发现宏观经济变量对模型预测能力有重要作用。
投资组合的构建与绩效评价
投资组合的构建
基于机器学习算法预测的超额收益率,选择前60只股票构建等权重投资组合。
投资组合的绩效评价理论
使用总收益率、年化收益率、年化超额收益率、夏普比率、信息比率等指标进行评价。
不同模型的绩效评价对比
CatBoost模型在年化超额收益率和风险收益权衡指标方面均表现最优。
总结与后续研究建议
本文提出的基于内生风格轮动和机器学习算法的多因子选股投资策略取得了较好的结果,但仍有改进空间:
- 尝试引入另一组股指进行对比分析研究。
- 引入变权重模型进行对比,量化最优投资组合模型。
- 编制或使用新的因子,进一步提升建模效果。