您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国泰君安证券]:学界纵横系列之四十五:新闻报道对股价跳跃的影响 - 发现报告

学界纵横系列之四十五:新闻报道对股价跳跃的影响

2022-10-28国泰君安证券球***
学界纵横系列之四十五:新闻报道对股价跳跃的影响

本文探索股价跳跃与新闻报道的关系。本文使用Logistic回归检验跳跃的概率、幅度与新闻数量、正负面语气词占比之差以及不确定词语占比的关系。样本数据来自9020家公司和21万篇新闻报道。 结果显示,股价跳跃的概率、幅度与新闻报道显著相关。股价跳跃的概率与新闻报道数量、正负面语气词占比之差以及不确定词语占比正相关。其中,与新闻报道数量的关系最为强烈。 时序上,随着时间的推移,新闻报道对股价跳跃的影响力越来越大。 随着互联网的广泛应用,数据提供和透明度得到提高,信息传播途径不断改进,新闻报道中公开的信息对股价的影响日益增强,尤其在2000年之后。 截面上,大企业或者处于更透明信息环境中的公司,股票价格波动与新闻报道的关联程度更大。这些公司拥有更多的分析师,更多的独家媒体报道和更高的机构所有者。 报道类型方面,反映企业经营状况的新闻报道更能影响股价跳跃的概率和幅度。分析公司基本面的新闻,通常报道了公司的营业收入和经营利润等相关信息,这类信息对股票价格的影响程度最大。其次依次为分析师评级类报道、资本结构类信息、并购类消息、营销和投资者关系、劳工问题(包括高管更替)和产品与服务信息。 此外,正向报道数量与股价跳跃幅度正相关,负向报道数量与股价跳跃幅度负相关。 试验结果具有较好的稳健性。选取市值排名前20的公司和只使用新发布的新闻进行检验,结论均与使用全样本时一致。 1.引言 资产定价理论有着悠久的历史,它将信息流与资产价格的变化联系起来。 例如,导致公司未来前景不确定性解读的信息可能导致当前价格的修正。 根据这种观点,新闻报道是影响股票价格走势的一个重要因素。 资本市场价格的大幅波动,通常被称为“跳跃”。Yoontae和Thomas在《News as sources of jumps in stock returns》中探究了来自9000家公司的21万篇新闻报道对股价跳跃造成的影响。运用单变量回归分析、多元回归分析以及横截面回归分析,研究股价跳跃概率、跳跃幅度大小与新闻报道的数量、内容之间的关联程度。并选取市值排名前20的公司进行验证。同时,测试了回归结果的稳健性。 本文的正文主要有四部分内容:第一,说明股价跳跃与新闻报道显著相关;第二,随着时间推移,新闻报道对股价跳跃的影响力加大;第三,归纳了容易受新闻报道影响的企业所具有的特征。第四,反映企业经营状况的新闻更容易影响股价波动。 2.股价跳跃与新闻报道 2.1.数据来源与变量设置 2.1.1.新闻报道特征 从Factiva数据库中选取1980年1月-2012年7月的所有新闻报道,约有21万篇,覆盖9020家公司。我们可以利用新闻报道的数量、语气和不确定程度,作为分析股价跳跃的影响因素。 新闻数量共有2151万篇。各媒体的新闻报道数量严重偏向于大公司。关于市值排名前20公司的报道有316万篇,占比15%。同时,新闻主要集中在2000年及以后。近80%的新闻报道出现在2000年及以后。 新闻语气定义为:正面词语百分比−负面词语百分比。新闻报道的不确定程度定义为:不确定性单词的数量占每篇文章总字数的比例。其中,正面词语、负面词语和不确定性词语的选取参照Loughran和McDonald (2011)的单词列表。然后,我们使用Python进行文本分析处理,得到所需要的相关数据。 2.1.2.股价跳跃 从CRSP数据库中查找新闻报道中提及的公司,获取股票历史价格信息。 为了识别股票价格的跳跃,我们需要设置一个跳跃阈值。设置了四个不同标准的阈值,记为{J99,J95,J99,J95},它们分别代表:如果股票日收益率的绝对值大于每日股价波动率乘以{5.1024,4.4881,3.2283,2.4565},则识别为跳跃日。因此,根据这些标准跳跃的阈值是随时间变化的。 因变量设为股价是否跳跃,若股票i在第t天价格跳跃记作p,取值为 it 1;反之,取值为0。 2.2.回归分析 我们将股价跳跃与新闻相关的因素联系起来。首先,使用Logistic回归检验跳跃的概率与新闻数量、新闻语气和不确定单词的百分比的关系。 𝑙𝑜𝑔𝑖𝑡 (𝑝) = 𝑎 + 𝑏× 𝑁𝑒𝑤𝑠𝐶𝑜𝑢𝑛𝑡+ 𝑏× |𝑁𝑒𝑤𝑠𝑇𝑜𝑛𝑒| + 𝑏 𝑖𝑡 𝑖𝑡 𝑖𝑡 × 𝑈𝑛𝑐𝑊𝑜𝑟𝑑𝑠+ 𝑏× |𝑅𝑒𝑡 | + 𝜖 𝑖𝑡 𝑖𝑡−1 𝑖𝑡 其中,因变量是每日跳跃的逻辑变量。我们还在回归中包含前一日股票回报率的绝对值。所有解释变量都经过标准化,以便在公司之间具有相同的均值和标准差。通过这样做,我们主要依靠解释变量中的时间序列变化来解释跳跃的概率。 回归系数估计值见表1。可以看出,股票跳跃的概率与新闻报道数量、语气(绝对值)、不确定词语比例正相关,且与新闻报道数量关系最为强烈。 表1:Logistic回归系数估计值 接下来,我们分析新闻流如何影响跳跃幅度。我们专注于对已实现跳跃的观察,以了解新闻对跳跃幅度大小的影响。运行以下回归: 𝑟| 𝐽𝑢𝑚𝑝 = 𝑏+ 𝑏× 𝑁𝑒𝑤𝑠𝐶𝑜𝑢𝑛𝑡+ 𝑏× 𝑁𝑒𝑤𝑠𝑇𝑜𝑛𝑒+ 𝑏 𝑖𝑡 𝑖𝑡 𝑖𝑡 × 𝑈𝑛𝑐𝑊𝑜𝑟𝑑𝑠+ 𝑏× 𝑟 + 𝜖 𝑖𝑡 𝑖𝑡−1 𝑖𝑡 其中,𝑟| 𝐽𝑢𝑚𝑝表示跳跃日股票的实际回报率。表2报告了所有公司回归的结果。对回归两边取均值,试验结果表明跳跃大小平均值在统计上与新闻内容显著相关:与新闻计数、新闻语气和不确定单词的百分比呈正相关。 𝑖𝑡 表2:所有跳跃幅度的回归结果 为了进一步探讨这一点,我们将分析分为正跳跃和负跳跃。如表3所示,正跳转回报率与新闻计数显著正相关:更多的好消息与跳跃日的较高正回报相关。在表4中,负跳转回报率与新闻计数显著负相关:更多的坏消息导致跳转日更多的负回报。当我们将所有跳转回报放在相同的回归中时,效果会偏移,从而导致表2中新闻计数的系数较小但为正。 表3:正跳跃幅度的回归结果 表4:负跳跃幅度的回归结果 3.新闻报道影响日益增强 下面探究新闻流与股票回报跳跃之间的关联如何随时间演变。我们使用1980年至2012年每年的每日数据来估计方程(1)中的系数。图1的显示了样本(1980–2012年)的NewsCount系数估计值的时间序列。 图1:NewCount系数时序图 从图中可以看出一个明显的趋势:新闻流和回报跳跃之间的联系随着时间的推移而增加。例如,NewsCount的系数在20世纪80年代介于0.1到0.2之间,在20世纪90年代增加到0.2–0.3,到2012年进一步增加到0.5以上。 随着时间的推移,价格受信息影响的增加有很多潜在原因。这与数据提供和透明度的提高,特别是信息传播技术的改进的广泛趋势是一致的。 我们的研究结果表明,随着互联网的广泛应用,价格信息性的改善主要在2000年之后。 4.不同公司受新闻报道的影响程度 下面,探讨不同公司股价跳跃受新闻报道影响的程度,并归纳出受新闻影响大的公司特征。 首先,对逐个公司用方程(1)进行逻辑回归,获得系数的估计值𝑏。然后,运行横截面回归,以了解哪些公司特征与此系数相关联。 𝑖,1 计算数据为同一样本期间观测的年平均值。规模变量用CRSP报告的市值来衡量。分析师相关数据从I / B / E / S文件中收集,机构所有权的比例来自Thompson Reuters 13F。分析师覆盖率定义为分析师数量的自然对数;个人所有权定义为1减去机构所有权的比例;独家新闻定义为单独报道一家公司的新闻数量。 表5:多元横截面回归的结果 结果表明,大公司或处于更透明和可见的信息环境中的公司,股价跳跃对新闻报道的敏感性更高。这些公司拥有更多的分析师,更多的独家媒体报道和更高的机构所有权比例,体现了这些渠道在快速将新闻纳入股价方面的重要性。 5.不同新闻类型对股价跳跃的影响 为了调查不同类型的新闻文章的作用,我们使用RavenPack数据库。根据RavenPack提供的新闻组,划分为十个主要新闻类别。然后,将所有新闻分配到这十个类别中。 结果列于表6中。股价跳跃受新闻数量和语气(绝对值)影响最大的新闻类别是收益和收入类,其次依次为分析师评级、资本结构、并购、营销和投资者关系、劳工问题(包括高管更替)和产品与服务信息。 表6:新闻类型的影响 6.稳健性分析 6.1.单个公司分析 将回归模型应用于单个公司,检验结果的准确性。我们选取市值排名的前20的公司,使用独家新闻报道的数量、语气和不确定词语的百分比与股价跳跃进行回归。并与表1中的结果进行比较,结论非常相似,证明了模型的稳健性。 6.2.新发布新闻与股市跳跃的关系 在上述分析中,我们使用的是所有新闻文章(包括重复的新闻)。更为重要的是,调查新颖(创新或令人惊讶)的新闻与股市跳跃的关系。 RavenPack新闻数据集提供了一个变量,通过比较新闻文章的内容与以前关于同一公司的新闻文章来衡量新闻文章的“新颖性”。最高新奇得分为100分。我们只保留新奇得分为100的新闻文章,然后再次进行回归分析。 回归结果与表2的结论依然非常一致。更多的新闻报道导致更高的股价跳跃。再次证明了结果的稳健性。 7.我们的思考 新闻报道对股票价格会产生较大的影响,且影响力日益增强。对于投资者来说,除了注重宏观经济层面和公司基本面的分析,还要关注新闻报道等短期事件对股票市场可能造成的影响。另外,股价对新闻所反映信息的敏感程度,与公司特征(分析师覆盖度、机构所有者比例等)、新闻类别有关。通过文本分析,使用新闻相关指标预测未来股价的变化,是较为重要的研究方向。