您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [国泰君安证券]:全自动构建全一级行业景气指数的方法 - 发现报告

全自动构建全一级行业景气指数的方法

2024-08-19 梁誉耀 国泰君安证券 陈曦
报告封面

金融工程/2024.08.19 全自动构建全一级行业景气指数的方法梁誉耀(分析师) 021-38038665 liangyuyao026735@gtjas.com 登记编号S0880524080003 本报告导读: 金融工 程 数量化专 题 证券研究报 告 本文尝试打造一个较为自动化的行业景气指数构建方法,在以下几个方面作出努力:快速地得到大部分一级行业的景气指数;兼顾主观逻辑与数据规律;考虑不同时间段内指标的稳定性;参数的选取兼顾收益和稳健性。 投资要点: 本文根据我们对行业基本面量化的理解,尝试打造一个较为自动化的行业景气指数构建方法,在以下几个方面作出努力: (1)快速地得到大部分一级行业的景气指数; (2)兼顾主观逻辑与数据规律; (3)考虑不同时间段内指标的稳定性; (4)参数的选取兼顾收益和稳健性。 我们建立了包含将近一千个宏、中观指标的数据库,可供建立28个申万一级行业的景气模型;我们提出连续非线性的仓位函数作为基本面指标与行业收益的纽带,尝试在构建景气模型时兼顾收益;我们采用逻辑方向和实验方向结合、不同时间段结合的方式进行指标筛选,筛去方向不稳定的指标;我们使用距离最小法选取模型参数增强了模型的样本外效果。 将全样本(2016-2024)分为两段作为样本内(2016-2021)和样本外 (2022至今),选取每期景气度最高的5个行业进行回测。样本内年化超额收益35.4%,样本外年化超额收益8.1%。样本外超额收益虽不及样本内,但在景气度投资普遍失效的2022至今取得年化8.1%的超额已较为可观。 使用全样本数据训练最新模型,样本内年化超额收益为36.6%,并得到最新的28个行业的景气指数。8月模型打分最高的行业为石油石化、钢铁、公用事业、通信和国防军工。 风险提示:本文模型根据历史数据建立,随着市场环境的变化,指标的作用方向和作用强度可能发生变化,最优参数亦可能发生变化当市场环境不适用景气度投资时,模型的收益可能下降,请注意模型失效的可能性。此外,本结论仅从量化模型推导得出,与研究所其他研究团队的观点不重合,有关研究所其他研究团队对上述行业的观点,请参考相关已发布的研究报告。 相关报告 从股价抛压视角构造行业轮动策略2024.07.19 如何使用期权对冲指数波动风险2024.07.12 基于基金仓位的投资策略与实战案例2024.06.03铜行业变量定价规律与量化投资模型2024.05.282024年6月核心指数定期调整前瞻2024.05.05 目录 1.引言3 2.景气指数构建步骤3 2.1.指标库构建4 2.2.指标预处理4 2.2.1.滞后、同比和降频处理4 2.2.2.计算一阶差分5 2.3.择时模型设置5 2.3.1.历史分位数窗口与滤波5 2.3.2.仓位函数5 2.3.3.模型参数小结7 2.4.指标方向确定与指标筛选7 2.4.1.逻辑方向标定7 2.4.2.实验方向计算8 3.综合景气指数10 3.1.1.单指标景气指数10 3.1.2.综合景气指数11 4.全行业景气结果展示11 4.1.模型具备样本外择时效果11 4.2.最新景气预测12 5.风险提示14 6.附录14 6.1.全行业景气指数图像14 6.2.全行业回测净值图像19 1.引言 刻画行业景气的量化方法有很多,仅从数据类型进行区分就可以分为财务数据、分析师预期数据、宏观数据、中观基本面数据和量价数据等。我们之前完成的三篇《行业量化系列》报告即以中观基本面数据为主,从产业链入手,用产量、销量、库存和下游行业需求等行业数据来刻画景气,市场一般称之为行业基本面量化。 但即使是行业基本面量化领域,也有诸多方法可以实现。以拟合目标进行区分,又可以大致区分成以下几类: (1)总结主动研究员对行业景气的分析逻辑,使用量化手段进行刻画,可以是得到一条行业景气指数,也可以是直接得出投资策略。 (2)以行业的营业收入或净利润为目标,用较为高频的中观基本面数据作为自变量对其进行拟合,以高频反映行业现状。 (3)以行业指数(股价)收益率为目标,用中观基本面数据构建景气指数或者投资策略,使其对收益率有较好的指示作用。 上面的三类方法各有优劣,例如方法(1)的优点是可解释性强、可接受度高;缺点是我们无法穷尽调查市场所有的主动研究员的逻辑,只能依赖于部分人,且人主观的理解与真实情况难免会有偏差,可能会遗漏一些数据上可以反映的规律。方法(2)和方法(3)的缺点是解释性稍弱,方法(2)可能无法解释股价,因为营收和利润与股价又隔着一层;方法(3)可能又无法较好地拟合营收和利润。 也有不少人在研究过程中试图兼顾上面的三种方法,比如在总结主动研究员对行业景气的分析逻辑刻画出景气指数之后,要求景气指数与营业收入走势接近、并且具备择时效果。但因为主动研究员是对多方面信息进行汇总之后由人脑给出判断、更像是一种艺术,这样做可能又会在合成过程中筛选掉一些主动研究员会关注但拟合效果不好的变量,从而无法全部纳入主动研究员的逻辑。 股市是一个十分复杂的系统,或许没有完美的方法,本文尝试根据我们对行业基本面量化的理解,打造一个较为自动化的行业景气指数构建方法,在以下几个方面作出努力: (1)快速地得到大部分一级行业的景气指数。在近千个中观、宏观指标的支持下,我们试图用一套方法论迅速构建大部分一级行业的景气指数。后续我们只需要输入某个行业相关的中观指标,简单地判断其方向,即可得到该行业的景气指数。 (2)兼顾主观逻辑与数据规律。有的指标对行业景气或收益的作用方向在逻辑上或许看起来理所当然,但却与数据规律冲突。我们尝试缓解这一问题。 (3)考虑不同时间段内指标的稳定性。同一指标在不同时间段的有效性不同,更有甚者可能基本的作用方向都发生变化。我们尝试筛选出作用方向较为稳定的指标。 (4)在指标选取较为合理的前提下,参数的选取兼顾收益。 2.景气指数构建步骤 本文提出的景气度指标体系构建简化了人工筛选指标的过程,只需要将行业相关指标输入指标库,初步标定逻辑方向,即可通过模型全自动筛选景气度构建指标。 2.1.指标库构建 我们建立了包含将近一千个宏、中观指标的数据库。数据库数据示例如下: 表1:各行业指标库部分指标示例 一级行业代码指标名称 通信S6520212中国:软件业务收入:软件产业:信息技术服务:累计同比通信Z2898790山东:济南:产量:服务器:累计同比 计算机S6006783中国�金机电指数:价格指数:安防设备与用品 计算机S6006894规模指数:安防设备与用品:交通安防产品食品饮料S0028114中国:产量:白酒:累计同比 食品饮料M0000037中国:规模以上工业增加值:酒、饮料和精制茶制造业:累计同比家用电器S0073297中国:房屋竣工面积:累计同比 家用电器M0000185中国:中间价:美元兑人民币 轻工制造M0000379中国:固定资产投资完成额:制造业:印刷业和记录媒介的复制:累计同比轻工制造M0000053中国:规模以上工业增加值:印刷和记录媒介的复制业:累计同比 电子M6409686中国:PPI:电子器件制造:当月同比 电子N2175745中国:出口金额:变压器、静止式变流器(例如整流器)及电感器(8504):累计同比建筑材料M6409615中国:PPI:玻璃制品制造:当月同比 建筑材料S0073290中国:房屋施工面积:累计同比 汽车S0270213中国:出口数量:乘用车:累计同比 汽车X5741939中国:出口金额:机动车辆用电气照明装置(85122010):累计同比数据来源:Wind,国泰君安证券研究 2.2.指标预处理 2.2.1.滞后、同比和降频处理 为提高数据可用性、避免使用未来数据,需要对部分指标进行滞后、同比和降频处理。主要基于以下原则: 滞后:部分指标在当月公布的数值实际为截至上月的数值,需要进行滞后1期处理。 同比:部分指标存在明显的趋势性或季节性,难以获取指标中的有效信息,进行同比操作可以更有效地获取数据的变化信息。 图1:季节性指标数据示例图2:持续增长型数据示例 数据来源:Wind,国泰君安证券研究数据来源:Wind,国泰君安证券研究 代码 指标名称 频率 单位 滞后期数 是否需同比操作 是否需要降频 S0027017 中国:产量:火电:当月同比 月 % 1 0 0 S0027371 中国:产量:生铁:当月同比 月 % 1 0 0 S0027375 中国:产量:粗钢:当月同比 月 % 1 0 0 S0027703 中国:产量:水泥:当月同比 月 % 1 0 0 S0027068 中国:产量:农用氮磷钾化肥(折纯):当月同比 月 % 1 0 0 S5104483 秦皇岛港:煤炭调度:港:煤炭调度口吞吐量 日 万吨 0 1 1 S5125262 曹妃甸港:煤炭调度:港:煤炭调度口吞吐量 日 万吨 0 1 1 C9968425 国投京唐港:煤炭调度:吞吐量 日 万吨 0 1 1 降频:统一将日频、周频数据取平均降频为月频数据。表2:部分指标滞后、同比、降频标记示例 数据来源:Wind,国泰君安证券研究 2.2.2.计算一阶差分 对任一指标,本文不仅考虑它的绝对水平,还考虑其边际变化所包含的信息,因此我们将计算各个指标的一阶差分。 2.3.择时模型设置 以行业H的指标X的一阶差分(记为指标XC)为例,我们需要设置指标XC对行业指数H的择时模型。 2.3.1.历史分位数窗口与滤波 首先计算指标XC的历史分位数数据,这涉及两个参数的选择: 历史分位数窗口:模型设定用指标的历史分位数来决定仓位,其窗口的选择会影响分位数结果; 是否滤波:考虑某些指标波动太大,用滤波去噪后择时效果可能更佳。 2.3.2.仓位函数 我们提出了非线性仓位函数的概念,将指标XC的历史分位数映射为仓位,介绍如下: 仓位函数是变量与仓位之间的映射方式,最简单的仓位函数例如:当指标A的历史分位数大于x时,满仓做多标的;当指标A的历史分位数小于x时,空仓。此时仓位函数如图所示: 图3:正向离散仓位函数 数据来源:国泰君安证券研究 在该仓位函数下,仓位只有两个点即1和0,我们称其为离散仓位函数;且因自变量越大、仓位越有可能取到满仓,我们称其为正向离散仓位函数。与此相反,负向的离散仓位函数如下图: 图4:负向离散仓位函数 数据来源:国泰君安证券研究 离散仓位函数的明显缺点是仓位变动过大。由于各个宏观、中观指标公布的时间不同,可能会发生公布了一个指标就满仓,再公布一个指标就空仓的仓位跳跃现象。 本文模型选用的连续的仓位函数可以一定程度上减小仓位跳动现象。𝑥1、𝑥2是2个历史分位数分界点,其仓位形式如下所示: 图5:正向连续仓位函数示意图图6:负向连续仓位函数示意图 数据来源:国泰君安证券研究数据来源:国泰君安证券研究 那么,仓位函数包含的参数有三个,分别为仓位函数的方向(正or负)、𝑥1和𝑥2。当参数确定,向仓位函数中输入指标XC的历史分位数,我们就可以得到仓位y,剩余仓位1−y分配给万得全A,并以此计算当期择时收益。为仓位函数的方向(正or负)、𝑥1和𝑥2的介绍如下: 仓位函数方向:仓位函数方向在所有参数中最为重要,仓位函数方向可以以正、负两个方向分别进行回测,但最终取值需要结合数值结果显著性、逻辑性综合决定; 参数𝒙�和𝒙𝟐:一般来说,正向指标至少高于中位数才算高位且可以作为满仓条件,所以本文设定正向仓位函数的参数𝑥2≥0.5;同理,负向仓位函数的参数𝑥1≤0.5。 2.3.3.模型参数小结 最终,模型的参数总结如下: 表3:模型参数及其取值范围设定 参数取值范围 历史分位数窗口(年)1、3、5 是否滤波是、否 仓位函数方向正负 仓位函数参数𝑥10<𝑥1≤𝑥2,间隔0.250.25、0.5 仓位函数参数𝑥20.5、0.75𝑥1≤𝑥2<1,间隔0.25 数据来源:国泰君安证券研究 2.4.指标方向确