您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[银河期货]:商品量化专题(二):基于基本面数据库的大宗商品价格预测模型 - 发现报告

商品量化专题(二):基于基本面数据库的大宗商品价格预测模型

2025-05-14谢怡伦银河期货光***
AI智能总结
查看更多
商品量化专题(二):基于基本面数据库的大宗商品价格预测模型

分析师谢怡伦从业资格号:F03091687投资咨询号:Z0021150Tel:021-65789205Email:xieyilun_qh@chinastock.com.cn 衍生品业务总部 目录一.二.2.1.数据介绍.....................................................................................................................................................32.2.数据处理.....................................................................................................................................................42.3.数据筛选.....................................................................................................................................................4三.3.1.OLS&LASSO多元回归............................................................................................................................63.2.Xgboost........................................................................................................................................................63.3.Prophet.........................................................................................................................................................6四.4.1.价格趋势.....................................................................................................................................................74.2.平均价格.....................................................................................................................................................74.3.因子表现.....................................................................................................................................................8五. 2衍生品业务总部项目背景.....................................................................................................................................................3数据处理.....................................................................................................................................................3模型搭建.....................................................................................................................................................5结果分析.....................................................................................................................................................7总结..............................................................................................................................................................9 一.项目背景在商品期货市场的研究领域中,基本面数据与量价数据始终占据着举足轻重的地位。在较为专业的现货企业及卖方研究部门,为提升对商品价格走势的判断能力,通常会针对特定品种构建专属的基本面数据库,并结合交易所提供的盘面量价数据,从而实现对市场行情的有效研判。然而,商品基本面数据涉及的指标众多,涵盖范围广泛,难以对每一项指标进行全面而深入的人工分析。基于此,在面对海量基本面数据的背景下,我们尝试构建量化分析模型,对不同周期下的商品价格进行系统化预测。与传统的人工分析方法相比,量化模型的一大优势在于能够批量化处理并独立分析几乎所有的基本面指标。此外,鉴于商品基本面数据具有显著的周期性特征,我们在建模过程中引入具备周期性信息提取能力的时间序列模型(如Prophet模型),以提升模型对季节周期及节假日效应的捕捉能力。在数据处理方面,由于基本面数据存在不完备性,我们需进行一系列预处理操作,包括数据频率调整、极值处理、缺失值填充等。同时,为确保输入模型的数据具有足够的代表性与有效性,我们通过人工筛选方式控制最终纳入模型的数据维度与质量。在模型构建层面,尽管当前已有多种成熟的时间序列预测模型可供选择,但考虑到本研究对期货基本面数据预测的特殊需求,我们采用Prophet模型对基本面因子进行单独预测,并在商品价格预测部分引入线性模型与机器学习模型相结合的混合建模框架。线性模型可通过回归系数对各基本面因子的边际影响进行直观解释,增强模型的可解释性;而机器学习模型则具有较强的非线性拟合与预测能力,显著提升预测精度。通过对两类模型设定不同的加权权重,可生成兼具解释力与准确度的综合预测结果。本研究的核心目标在于构建一套适用于多类商品期货品种的通用价格预测模型。该模型不仅应具备较高的预测精度,还应对主要的基本面与量价因子具备一定的解释能力,并能够最大限度地挖掘与利用现有的基本面数据库,以实现对商品价格在不同时间周期上的有效预测。二.数据处理本报告选取LNG现货价格作为预测对象,同时依此梳理了模型搭建过程中涉及到的基本面数据。为了确保基本面数据的有效应,首先人工初步筛选了部分因子,按照类别可分为“价量数据”、“供需”、“进出口”、“库存”共四大类。2.1.数据介绍经过预处理后,总计LNG基本面数据指标(包括盘面量价数据)共计151个,其中价量数据26条(主要为现货价格数据),库存数据21条(主要为各地库存数据),供需数据51条(包含上游产量以及下游消费量),进出口数据53条(各地区进出口数据)。 3 资料来源:衍生品业务总部2.2.数据处理由于大宗商品的基本面数据并不完备,存在来源不一致、频率不匹配等问题,故需要对其进行较多步骤的数据处理工作。频率调整:基本面数据以周度和月度数据为主,同时也包含少量日度以及更长周期的数据,为了便于后续模型搭建,统一将数据填充至日度频率。可得性处理:由于基本面数据的获取存在一定的时间滞后性,比如当月库存数据需要到下月才可以获得,为了确保数据的可得性,针对每一条指标统计其时滞系数,并对根据该系数进行调整。缺失值填充:对于缺失数据,按照前值填充的方式进行处理。极值处理:对于异常值数据进行监测,若发现明显偏离正常数值,则对该数据进行剔除。数据周期信息提取:由于基本面数据本身蕴含大量的周期性信息,故针对基本面数据计算其不同周期下的同比以及环比值,并且计算其相较于历史均值水平的偏离,作为偏离度指标。2.3.数据筛选大宗商品的数据普遍繁杂冗余,哪怕经过预处理之后,仍然保留大量数据彼此之间存在较高相关性或者多重共线性等问题,故需要采用一系列举措针对单因子进行筛选:单因子回测:在这一步针对单个因子进行回测,考虑其对标的价格的预测力度。目的即选取那些具有高解释性的单因子;相关性分析:为了解决部分因子之间存在较高相关性,剔除冗余无用的数据,此步骤计算各因子之间的相关性,对于存在高相关性的数据,剔除表现较差的因子;因子补充:人工在现有数据基础上,增加一定数量的衍生因子,如库/销比数据等; 4 三.模型搭建模型搭建的核心功能是构建一个从数据到预测结果的转化过程,涉及到模型选择、参数调整、模型合成等多方面的工作。下图为预测模型搭建的全流程图,包含数据整备、数据处理、模型搭建、结果输出等多个部分,数据部分在上文中已经详细介绍过,这一部分针对模型搭建部分作进一步介绍。图表2:基本面量化模型框架资料来源:衍生品业务总部如下图所示,模型搭建部分分为4个模块,分别为模式识别、线性模型、非线性模型、参数调整与模型合成。模型引入模式识别机制,用以判断当前商品价格趋势能否由基本面数据所解释,在大部分相对稳定的市场行情下,商品价格走势跟随基本面数据的影响,然而在特殊极端行情下,存在商品价格数据与基本面数据相背离的情况,此时则无法利用基本面数据对商品价格进行准确预测,则转变为量价模式,在量价模型模式下,只考虑当前市场上的量价数据,并依此输出信号。图表3:模型部分细节资料来源:衍生品业务总部 5 6若在基本面模式下(即相对平稳的市场行情下),模型按照线性模型+非线性模型的方式进行结果输出,线性模型即多元回归模型,能够直接通过回归方程得到每一个指标的回归系数,即可理解为该指标对标的价格的影响程度,用于提供模型的可解释力度,根据因子数量多少线性模型会在OLS和LASSO中进行切换;此外,引入非线性模型的权重用于提升模型的整体预测精度,非线性模型部分包含了各个不同结构的机器学习模型,在我们之前的研究中,显示Xgboost预测效果相对较好,故此处依然选择该模型。同时,为了进一步提供单个基本面指标的未来趋势信息,我们针对所有基本面数据进行单独预测,由于各基本面数据具有较强的周期性特征,我们此处选用Prophet模型进行预测。最后,我们根据当前市场行情,动态调整各个子模型的输出结果权重,作为最终的综合结果输出。下面对整体框架中重点涉及到的子模型作简单介绍:3.1.OLS&LASSO多元回归普通最小二乘法(Ordinary Least Squares, OLS)是最基础的线性回归方法,通过最小化实际值与预测值之间残差平方和,估计回归系数。OLS的优点在于计算效率高、模型结果易于解释,适用于因子数量有限、共线性不强的场景。在回归结果中,每个基本面因子的回归系数均可视为其对价格影响的边际效应,从而增强模型的经济含义与可解释性。LASSO回归在OLS基础上引入了L1正则项,能够在估计回归系数的同时实现变量筛选。当基本面