AI智能总结
行业多因子研究流程。借鉴股票多因子模型框架,使用行业内个股超预期因子加权合成行业因子,建立行业多因子研究框架,主要流程包括:基础数据处理、行业因子合成、单因子测试、复合因子合成等步骤。 行业超预期因子计算方法。参考国内外PEAD学术文献和业内投资经验,使用加权法构建6种行业超预期因子,分别为盈余公告前后异常收益、公告前后交易量变动、标准化预期外盈利SUE、SUE衍生因子、过去N日券商/报告上下调比例、过去N日盈利/营收预测调整。 超预期单因子测试。通过计算因子IC与分组测试,筛选出12个因子用于等权合成复合因子:公告后1天异常收益、公告后3天异常收益之和、公告后跳空、标准化预期外单季度归母净利润-带漂移项、标准化预期外单季度营业利润、单季度归母净利润超分析师预期幅度、标准化预期外单季度归母ROA-带漂移项 、标准化预期外归母ROE(TTM)、过去90日券商上调-下调比例、过去180日报告上调-下调比例、过去90日报告上调比例、过去90天盈利调整。 超预期复合因子分组测试效果不错。历史回测发现,2010年2月至2022年3月,多头组累计收益为470.26%,年化收益为15.32%,相对基准年化超额收益为9.59%;空头组累计收益为-28.46%,年化收益为-2.71%,相对基准年化超额收益为-8.44%;复合因子年化多空收益为18.03%。 行业轮动策略历史回测较为优秀。2010年2月至2022年3月,策略组合(选前5行业)年化收益为17.13%,相对于基准指数(中信行业等权)年化收益5.74%,年化超额收益达11.39%,超额收益最大回撤20.47%,信息比率1.29。换手率方面,年度单边换手率均值为321%。 超预期因子行业轮动策略最新持仓。2022年3月底策略组合为:有色金属、煤炭、银行、基础化工、电子。截止4月19日,2022年以来超预期复合因子行业轮动策略收益为-6.03%,相对基准的超额收益为7.37%。 风险提示:量化模型基于历史数据构建,而历史规律存在失效风险。 1.行业多因子模型研究流程 我们参考股票多因子模型研究方法论,将市场上所有公司依据所属行业分类(中信一级行业分类)划分为不同行业类别的公司集合,将每个行业视为一家囊括所有同行业公司的集团公司,利用个股的财务、分析师预测、资金与量价等指标构造行业配置因子,探索有效的行业配置模型。 行业多因子研究框架包括基础数据处理、行业因子合成、行业单因子测试、行业复合因子合成等步骤。 本报告使用基于PEAD效应的业绩超预期因子构建行业轮动策略,通过测试行业因子有效性,合成并研究行业超预期因子在行业配置中的效果。 图1:行业多因子模型研究流程 1.1.基础数据处理 由行业内个股数据计算行业因子,一般有两种方式。一种是整体法,基于行业自身或行业成分股财务基本面、微观结构技术面、资金流向等数据,合成行业层面用于行业因子计算的基础数据。比如,在行业轮动第一篇报告《如何基于景气度构建行业轮动策略》中,我们基于公司资产负债表、利润表、现金流量表采用整体法合成所属行业整体的财务基本面数据。 对于采用整体法的财务数据基础数据处理需注意: 1)用于行业数据合成的成分股数据时点需保持一致,当成分股最新数据所属报告期不一致时需有统一合理的数据对齐规则(如以财报数量、公司市值占比较大,数据较新者为准); 2)行业基本面数据需有经济含义,对于某些行业不适用的数据需特殊处理(比如用行业均值或中位数填充); 3)缺失数据处理应以合理性为处理原则。 采用整体法方式的优点是,统一在财报截止时点或者月底计算行业因子,保证了数据的一致性;缺点是牺牲了财务数据的及时性。 请务必阅读正文之后的免责条款部分 另一种方式是加权法,直接使用行业内个股因子加权合成行业因子。这种方式主要适用于公司超预期数据、分析师一致预期等数据。这类数据的特点是在个股上覆盖度不高、而且数据发布时间也不一致,时间上很难对齐,不太适合使用整体法。对于这类数据,基础的数据处理工作主要是先计算个股因子,方便之后采用行业内成分股因子加权(比如自由流通市值加权等)合成所属行业的超预期因子、一致预期因子。采用加权方式的优点是,可以实现每天计算行业因子,保证了数据使用的及时性;缺点是牺牲了数据的一致性,。 1.2.行业因子计算 对于整体法,我们基于基础数据处理后的行业数据,计算可用于行业比较的行业因子数据。比如,通过不同报告期行业整体的收入与利润数据,计算行业整体的收入与利润增长率因子。计算行业因子计算需注意:1.行业因子在不同行业间需具有可比性; 2.行业因子需要考虑行业数据季节性变化规律,对于存在季节性变化的数据采用单季或完整年度数据同比计算; 3.行业不同时期前后比较时,应保证用于行业合成的公司前后一致以保证可比性。 对于加权法,计算行业因子计算需注意: 1.计算得到每只股票的因子后,行业因子使用行业内成分股自由流通市值加权计算。测算发现,市值加权优于等权。 2.当某只股票某个因子缺失时,考虑使用该行业的中值或均值替代。 3.不对个股因子进行市值行业中性化处理。市值行业中性化处理仅适用于选股,不适用选行业。 1.3.单因子测试 我们通过单因子IC测试与分组回测来考察行业单因子收益预测的有效性与稳定性。 1.因子IC测试 我们计算T期因子值与T+1期行业收益率的Pearson相关系数(RawIC),同时计算因子T期因子值排序与T+1期行业收益率的Spearman相关系数(RankIC)。因子的IC值是指第T期的因子值(因子中性化处理后残差)x⃗与T+1期的股票收益r的相关系数——Pearson相关系数,公式表示为: t t+1 𝐼𝐶= 𝑐𝑜𝑟𝑟(𝑥, 𝑟 ) 𝑡 𝑡𝑡+1 此外,可以计算秩相关系数——Spearman相关系数,使用两个变量的位次计算,是与因子分布无关的,公式表示为: ),𝑟𝑎𝑛𝑘(𝑟 )) 𝐼𝐶 = 𝑐𝑜𝑟𝑟(𝑟𝑎𝑛𝑘(𝑥 𝑟𝑎𝑛𝑘,𝑡 𝑡 𝑡+1 可以通过以下指标评价因子效果: a)b)c)d) IC值的均值——因子显著性; ICIR比率(IC均值/标准差)——因子有效性; IC序列T值(IC均值*sqrt(样本数-1)/IC标准差)——因子显著性; IC值的胜率(因子值与IC值同向的截面数占比)。 2.因子分组测试 因子分组测试是根据因子值打分排序分多组测试各组组合累计净值表现,我们采用5组定期调仓的方法进行测试(每组含6个中信一级行业)。 因子多空测试是分组测试中第一组与第五组多空强弱表现,多空测试与分组测试可以一并进行。 我们可以从多个维度考察分组测试效果:a) 分组测试结果是否具备单调性,即各分组累计净值表现与其排序是否具有一致性,分组测试结果单调性越高越好; b) 分组多空收益表现,即考察第一组和第五组累计净值相对强弱表现及其最大回撤; c) 多头组合相对市场基准表现,即考察第一组与市场基准指数相对强弱及其最大回撤。 因子分组测试主要考察以下绩效指标:a) 分组测试的累计收益率、最大回撤等; b)c) 多头组合的年化收益率、年化波动率、夏普比率、最大回撤等; 多头组合相对市场基准的超额年化收益率、超额年化波动率、信息比率、超额最大回撤等。 因子分组测试采用定期调仓的方式进行回测。在本篇报告中基于个股超预期因子加权得到行业因子,在每月底进行组合调仓操作。采用中信一级行业指数合成市场基准指数,基准指数组合与分组测试同步调整持仓。 1.4.复合因子合成 基于单因子测试结果,我们筛选此类因子中单因子IC测试与分组测试表现较好的因子作为备选因子,经由因子IC值相关性分析选出相关性较弱、收益率较高且具有经济学含义的因子合成行业复合因子。 我们采用单因子等权相加的方法合成复合因子,即将候选单因子通过去极值、标准化等方式进行预处理,然后通过等权相加的方式合成行业复合因子。 复合因子的测试方法与单因子测试相同,可以通过因子IC测试与分组回测测试复合因子收益预测的有效性与稳定性。复合因子测试时需关注多头组合的年化收益率、夏普比率、最大回撤,以及多头组合相对市场基准的年化超额收益率、信息比率和超额最大回撤。 2.超预期因子介绍 业绩超预期一般是指上市公司发布业绩报告(定期报告、业绩预告、业绩快报等)时,如果出现盈利超预期,股价会在发布后持续上涨一段时间。学术上称之为盈余公告后价格漂移效应(Post-Earnings Announcement Drift)。PEAD效应最早由Ball和Brown(1968)发现,之后很多学者研究发现,PEAD在不同市场、不同的时间阶段普遍存在。近几年在国内量化选股的投资实战中也应用较多,属于基本面量化选股中表现名列前茅的一类因子。本文尝试使用多种个股超预期因子加权得到行业因子,构建行业轮动策略。 在学术和实际投资中,超预期因子的计算方法有两种,一是基于价量数据的,计算公告前后价量表现。价量类因子关注公告前后股票相对基准的异常收益、交易量的变动。另一种是基于基本面数据,主要使用财务和分析师数据计算业绩超预期因子来衡量公告业绩超预期程度。比如,计算标准化预期外盈利SUE因子(Standardized Unexpected Earnings),衡量新发布业绩数据相对于预期盈利的幅度;对于预期盈利,也有两种方式来估计,一是用历史盈利数据建模,二是使用分析师预期数据。下面介绍关于PEAD效应主要的学术文献和本文中各种超预期因子的计算方式。 2.1.PEAD效应主要学术文献 盈余公告后价格漂移效应最早由Ball和Brown(1968)提出。他们发现,超预期盈利的股票在公告后出现明显的正收益,超预期亏损的股票在公告后出现明显的负收益。此后四五十年,大量国内外学者进行了相关研究,发现PEAD现象在各个国家的股票市场都普遍存在,对有效市场假说提出了挑战。下面我们对国内外学者的代表性研究进行简要介绍,感兴趣的投资者可以查阅附录相关参考文献。 2.1.1.国外研究 1)Foster(1977、1984) Foster在1977年和1984年的论文中介绍了多个衡量业绩超预期的模型。 我们仅举例介绍1984年文中提到的四个模型,前两个模型使用历史数 ( 据估算单季度预期盈利𝔼𝑄 ) ,只是用于标准化的分母不同。模型1为: 𝑖,𝑡 ) 𝑄−𝔼(𝑄|𝑄| 𝑖,𝑡 𝑖,𝑡 1𝑖 𝐹𝐸= (2.1) 𝑖,𝑡 1𝑖 ) 𝐹𝐸衡量超预期程度,其中,𝔼(𝑄模型2为: 为预期单季度盈利。 𝑖,𝑡 ))] 𝑄−𝔼(𝑄𝜎[𝑄−𝔼(𝑄 𝑖,𝑡𝑖,𝑡 𝑖,𝑡𝑖,𝑡 2𝑖 𝐹𝐸= (2.2) ) 对于𝔼(𝑄盈利: ,作者提出了多种估计方式。最简单的使用去年同期单季度 𝑖,𝑡 ) = 𝑄 𝔼(𝑄 (2.3) 𝑖,𝑡 𝑖,𝑡−4 其次,可以在上式的基础上,加上一个漂移项,使用以下模型预测: ) = 𝑄 𝔼(𝑄 + 𝛿 (2.4) 𝑖,𝑡 𝑖,𝑡−4 𝑖 ( 此外,还可以使用单变量时间序列模型的预测𝔼𝑄 ) : ) + 𝛿 𝑖,𝑡 ) = 𝑄 (𝑄 𝔼(𝑄 + ∅ − 𝑄 (2.5) 𝑖,𝑡 𝑖,𝑡−4 𝑖 𝑖,𝑡−1 𝑖,𝑡−5 𝑖 其中,∅和𝛿参数使用最近20个季度的数据估算。 𝑖 𝑖 Foster还使用证券收益减去市场收益后的异常收益衡量超预期程度,提出了模型3和模型4。模型3侧重于盈利公告的短期市场反应,只考察公告日和前一天的异常收益𝑢̃。计算公式为: 𝑖,𝑡 0 𝑡=−1 ∑ 𝑢̃𝜎(𝑢̃) 𝑖,𝑡𝑖