深度报告-金融工程 商品基本面量化框架系列一:单品种预测体系 报告日期:2024年12月26日 ★单品种预测体系 单品种的基本面择时是商品基本面量化策略的关键。从策略逻辑上来说,全品种基本面量化是各个单品种策略加权得到的,本质上是固定周期调仓的单品种择时研究;从策略实现角度来说,商品基本面数据与股票基本面数据不同,后者多数为标准化数据如PE、PB等,且截面交易品种多,适用于截面多因子模型;而前者的公布频段、量纲和统计口径各不相同,在横截面上不同数据间无法直接比较且交易品种较少,因此更好的策略构建方法是在时序上的单品种建模。 ★基本面因子:数据调整–特征提取–有效性评价 本文依托于繁微数据库和相关品种分析师的整理,试图将基本面研究和量化投资相结合,兼顾主观的产业矛盾与量化的系统性分析,构造出有效的单品种择时信号。由于商品基本面数据的特殊性,我们在数据调整层面对不同基本面分类指标做了可得性处 理、缺失值填充、频段调整等方法,并对经简单处理后的原始指标做了增长率、季节性分解和分数阶差分三种特征提取,最终以线性和非线性的评价指标入库,以形成特色的基本面因子库。 ★高维信息集的降维预测 本文以可解释性为主要目的,构造了一个轻量型且可回溯的降维预测框架,并在样本外验证多周期效果。以单品种择时框架来说,模型选取面临的问题是如何在高维时间序列中提取出有效的信息,同时降低过程中的损失。前期尝试了PCA、PLS和因子分析对特征集降维,但该类方法的问题在于并未考虑目标变量(收益)的信息和仅包含特征间的线性组合。对此我们使用Fanetal (2017)提出的充分降维体系,构造高维信息集的低维表达,通过Xgboost模型预测,并在样本外验证五个品种的多周期效果。 ★风险提示 指标和模型基于历史规律总结得出,不排除失效的可能。 王冬黎金融工程首席分析师 从业资格号:F3032817 投资咨询号:Z0014348 Tel:8621-63325888-3975 Email:dongli.wang@orientfutures.com 联系人 徐凡金融工程分析师 从业资格号:F03107676 Tel:8621-63325888-3975 Email:fan.xu@orientfutures.com 扫描二维码,关注“东证繁微”小程序 金融工程 重要事项:本报告版权归上海东证期货有限公司所有。未获得东证期货书面授权,任何人不得对本报告进行任何形式的发布、复制。本报告的信息均来源于公开资料,我公司对这些信息的准确性和完整性不作任何保证,也不保证所包含的信息和建议不会发生任何变更。我们已力求报告内容的客观、公正,但文中的观点、结论和建议仅供参考,报告中的信息或意见并不构成交易建议,投资者据此做出的任何投资决策与本公司和作者无关。 有关分析师承诺,见本报告最后部分。并请阅读报告最后一页的免责声明。 金融工程-深度报告2024-12-26 目录 1.基本面量化框架5 1.1.前序的全品种周度策略5 1.2.单品种预测框架6 1.3.基本面数据库7 1.4.预测目标:价格还是收益率?9 2.基本面指标的清洗与筛选9 2.1.指标库程序化清洗9 2.2.指标库程序化筛选与入库13 3.单品种多周期择时16 3.1.高维因子集的降维预测16 3.2.五个品种的择时结果18 3.2.1.多周期择时-螺纹钢18 3.2.2.多周期择时-黄金20 3.2.3.多周期择时-原油21 3.2.4.多周期择时-铜23 3.2.5.多周期择时-生猪24 4.总结与展望26 5.风险提示26 2期货研究报告 图表目录 图表1:OLS全品种净值结果5 图表2:XGBoost全品种净值结果5 图表3:商品基本面量化–单品种择时框架6 图表4:繁微前端页面一览7 图表5:生猪研究框架图7 图表6:生猪指标模版库7 图表7:基本面指标覆盖度(以2024年10月的日均成交量从大到小排列)8 图表8:各个指标的更新频段占比8 图表9:各个指标的二级分类8 图表10:全库中各指标的占比10 图表11:三类指标的预处理流程10 图表12:基本面指标说明11 图表13:通过ADF检验的基本面指标11 图表14:未通过ADF检验的基本面指标11 图表15:以原油的基本面指标举例,经平稳化处理后的不同基本面指标分量12 图表16:时序因子的筛选流程以及入库流程13 图表17:三种有效性评价指标的测算效果(以原油基本面数据及一个月收益率为例)14 图表18:经F统计量筛选最优的指标(折线图)14 图表19:经卡方检验筛选最优的指标(柱状图)14 图表20:经互信息筛选最优的指标(散点图)15 图表21:综合筛选最优的指标(折线图)15 图表22:原油日度基本面指标的相关性热力图15 图表23:回测框架的参数设置16 图表24:降维+预测的模型结构示意图17 图表25:量价因子名称及计算逻辑一览18 图表26:短周期(周度)–螺纹钢择时信号19 图表27:短周期(周度)-螺纹钢择时策略净值19 图表28:中周期(月度)–螺纹钢择时信号19 图表29:中周期(月度)-螺纹钢择时净值19 图表30:长周期(季度)–螺纹钢择时信号20 图表31:长周期(季度)-螺纹钢择时净值20 图表32:短周期(周度)–黄金择时信号20 图表33:短周期(周度)-黄金择时策略净值20 图表34:中周期(月度)–黄金择时信号21 图表35:中周期(月度)-黄金择时净值21 图表36:长周期(季度)–黄金择时信号21 图表37:长周期(季度)-黄金择时净值21 图表38:短周期(周度)–原油择时信号22 图表39:短周期(周度)-原油择时策略净值22 图表40:中周期(月度)–原油择时信号22 图表41:中周期(月度)-原油择时净值22 图表42:长周期(季度)–原油择时信号23 图表43:长周期(季度)-原油择时净值23 图表44:短周期(周度)–铜择时信号23 图表45:短周期(周度)-铜择时策略净值23 图表46:中周期(月度)–铜择时信号24 图表47:中周期(月度)-铜择时净值24 图表48:长周期(季度)–铜择时信号24 图表49:长周期(季度)-铜择时净值24 图表50:短周期(周度)–生猪择时信号25 图表51:短周期(周度)-生猪择时策略净值25 图表52:中周期(月度)–生猪择时信号25 图表53:中周期(月度)-生猪择时净值25 图表54:长周期(季度)–生猪择时信号26 图表55:长周期(季度)-生猪择时净值26 1.基本面量化框架 1.1.前序的全品种周度策略 依托于东证期货的繁微数据平台,我们初步构建了一个周度调仓的商品基本面量化策略,并上线跟踪其在全品种上的表现,为整个系列确立了“基本面数据–数据转换–模型搭建–策略回测”的方法论。前序文章的主要工作流程可被概括为以下四个方面: 1)通过繁微数据平台中(路透和钢联等多家提供商)板块基本面和宏观的混频(日度、周度和月度等)数据,经MAD去极值和前值填充(至日度)处理后,形成基本面因子库。 2)以主成分分析对各因子库降维,取前90%方差贡献率的特征形成板块(黑色、能化、农产品、贵金属和有色金属)主成分因子集X。 3)以板块主成分因子集为自变量,板块内品种的后复权期货价格为因变量,五年窗口期滚动训练OLS和XGBoost两个模型,每周最后一个交易日对品种下一周的价格做出预测。 4)以预测值相较当前最新收盘价的涨跌幅作为信号强弱(涨跌幅的正负号代表多空方向),组合内进行权重再分配,最终形成周度调仓的全品种策略。 自2020年初的样本外跟踪效果来看,未加杠杆的OLS组合历年的年化收益率分别为 4.14%、25.28%、-6.46%、5.22%和-0.43%,年化夏普比分别为0.35、2.03、-0.48、0.58和 -0.06。未加杠杆的XGBoost组合历年的年化收益率分别为20.90%、8.75%、9.45%、4.39%和-5.46%,年化夏普比分别为1.98、0.42、0.57、0.51和-0.71,非线性模型拟合能力相较于线性更好,线性模型整体的波动更小,两者的走势相关性低。 图表1:OLS全品种净值结果图表2:XGBoost全品种净值结果 资料来源:繁微,东证衍生品研究院资料来源:繁微,东证衍生品研究院 在跟踪过程中,我们发现策略的超额收益逐渐减少且不稳定,部分年份的回撤大,整体呈现Beta的走势而非Alpha属性,因此我们意识到上述工作流程中存在不少的优化空间。 1.2.单品种预测框架 量化CTA中基本面等另类数据信息的利用率较低,策略构建中多数以短周期量价信号为主,直观来说基本面信息对短期行情的变化参考意义不大,因此相关数据的信息占比一般不超过20%。然而这并不意味着基本面数据对短期交易没有意义,举个简单的例子,如果我们从基本面数据分析最近几周的大趋势以下跌为主,那么接下来几周我们可以在量化CTA中惩罚做多交易来提高策略的胜率。 单品种的基本面择时是商品基本面量化策略的关键。从策略逻辑上来说,全品种基本面量化是各个单品种策略加权得到的,本质上是固定周期调仓的单品种择时研究;从策略实现角度来说,商品基本面数据与股票基本面数据不同,后者多数为标准化数据如PE、PB等,且截面交易品种多,适用于截面多因子模型;而前者的公布频段、量纲和统计口径各不相同,在横截面上不同数据间无法直接比较且交易品种较少,因此更好的策略构建方法是在时序上的单品种建模,所以我们选择系统性地构建单品种择时框架。主要特色成果有以下几点: 1)本文将单品种择时划分为三个频段的下游任务,分别为短周期择时、中周期择时和长周期择时,三者对应的频段分别为周度、月度和季度。 2)结合主观研究员筛选后的指标模版库,系统性地完善基本面数据预处理方法,包括但不限于升降频、可得性处理和平稳性检验等。 3)针对不同频段的下游任务,构造单品种时序筛选与评价体系,精简有效基本面指标,程序化形成特色基本面指标库。 4)结合模型对单品种的收益率建模对涨跌和涨跌幅预测,提出基本面、基本面+量价等不同的建模方案,以完善单品种择时框架,尝试更好地指引不同市场参与者的交易需求。 图表3:商品基本面量化–单品种择时框架 资料来源:东证衍生品研究院 1.3.基本面数据库 本篇报告数据来自东证期货自主研发的繁微数据平台(https://www.finoview.com.cn),该平台集成了目前市面上绝大多数的大宗商品数据来源,包含如Wind、彭博、路透和唐宋大数据等第三方提供商,以简化研究员的工作流程,利用大数据、人工智能、移动互联网等技术手段,完成金融大数据的获取、存储、处理分析和可视化,从而实现推送数据变化以及策略信号,重构并完成投研服务一体化。目前平台已覆盖超过60个商品、 金融期货及期权,完成清洗可使用的指标量超5万条,已形成标准的模版图标接近5千个,可供随时调用加工或跟踪相关数据情况,提高效率与准确性,并以多个板块、多个品种进行分类,如下图所示。 图表4:繁微前端页面一览 资料来源:繁微,东证衍生品研究院 图表5:生猪研究框架图图表6:生猪指标模版库 资料来源:繁微,东证衍生品研究院资料来源:繁微,东证衍生品研究院 本文依托于主观研究员的严谨逻辑与繁微全面的数据整合,试图将基本面研究和量化投资相结合,兼顾主观的产业矛盾与量化的系统性分析,构造出有效的单品种择时信号。 其中主观研究员对各个产业链的分析起到至关重要的作用,以上两图为例,左图展示的是生猪分析师的产业链框架,从上游原材料供求、下游商品的供求、行业内经营状况和整体宏观环境等多个方面入手,梳理了对生猪具备定价能力的板块,体现了基本面研究中的严谨与深入。右图展示的是生猪指标库,基于左图中主观研究员的研究框架,将底层数据平台涉及的指标,以数据分析台的可视化形式展示,这极大简化了量化策略中的数据收集,保证了指标逻辑性(统计筛选容易出现主观异常或反逻辑的指标)