您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[全球量化策略]:J.P. 摩根定量评估:来自使用SmartBuzz 2.0的新闻的主题公平系数 - 发现报告
当前位置:首页/行业研究/报告详情/

J.P. 摩根定量评估:来自使用SmartBuzz 2.0的新闻的主题公平系数

J.P. 摩根定量评估:来自使用SmartBuzz 2.0的新闻的主题公平系数

使用 SmartBuzz 2.0 从新闻中获取主题股票因素仅使用 NLP 的基于新闻的“可持续股息”股权因子我们正在更新我们的智能嗡嗡声基础设施仍然纯粹从文本中提取股权因子暴露于主题,现在直接应用于新闻。SmartBuzz 2.0考虑正面和负面的主题提及,以计算约 3,000 只全球股票的主题曝光(z 分数)。可持续红利是我们的测试用例,用于演示我们如何仅使用 NLP 构建主题因素。主要升级包括: 优化处理每日新闻提要(LexisNexis 和道琼斯新闻) 确定目标实体一篇文章的 找出主题提及和为上下文情绪评分 更好的正常化用于确定所有新闻中的相关股票敞口什么时候SmartBuzz 2.0阅读寻找与可持续股息相关的提及的新闻文章,它仅使用 NLP 计算风险敞口,这些 NLP 与绝对实际/预测收益率水平、预测收益率增长以及我们的股息可持续性屏幕具有直观的相关性。 第一季度平均收益率最高(最佳可持续 Div 股票),第五季度最低 第一季度的收益率增长为正,第五季度为负(最差的可持续 Div 股票) 股息可持续性得分在第一季度最高,在第五季度最低(见第 10 页)按 SmartBuzz Factor Quintiles 分组的实际 (FY0) 和预测 (FY1) 平均收益率资料来源:LexisNexis、道琼斯、Factset、摩根大通 BD&AI、MSCI ACWI请参阅我们的附录NLP 提高了收益搜索器屏幕,以及我们的SmartBuzz 产量异常屏幕(寻找新闻暗示其与其收益率特征所暗示的不同的股票)。全球量化及衍生策略2021 年 9 月 9 日大数据、人工智能和自然语言处理 Robert Smith 博士交流电(61-2)彭博社JPMA RSMITH <GO>摩根大通证券澳大利亚有限公司埃文胡交流电(852) 2800-8508摩根大通证券(亚太)有限公司贝罗讷赫拉瓦蒂交流电(61-2) 9003-8602彭博社JPMA HLAVATY <GO>摩根大通证券澳大利亚有限公司彭程,CFA(1-212) 622-5036摩根大通证券有限责任公司刘浩顺(852) 2800-7736摩根大通证券(亚太)有限公司/J.P. Morgan Broking (Hong Kong) Limited托马斯·J·墨菲,博士(1-212) 270-7377摩根大通证券有限责任公司托尼 SK 李(852) 2800-8857摩根大通证券(亚太)有限公司/J.P. Morgan Broking (Hong Kong) LimitedAyub Hanif,博士(44-20) 7742-5620摩根大通证券有限公司全球市场战略主管 Marko Kolanovic 博士(1-212) 622-3677摩根大通证券有限责任公司有关分析师认证和重要披露(包括非美国分析师披露)的信息,请参见第 18 页。摩根大通与其研究报告中涵盖的公司开展业务并寻求开展业务。因此,投资者应该意识到公司可能存在可能影响本报告客观性的利益冲突。投资者应将本报告视为做出投资决策的唯一因素。 全球量化及衍生策略2021 年 9 月 9 日罗伯特·史密斯博士 (61-2) 9003-88082目录可持续红利 ..............................................................................................3专题谱 .....................................................................................................5并非所有的主题都是平等的 5需要情绪来评分某些主题的影响 5升级到 SmartBuzz 2.0 ............................................................................6转向新闻——数量和速度挑战 6更多的数据需要更高的速度 7实体检测是另一个新挑战 7计算 NLP 因子暴露 .................................................................................8目标-方面-情绪 8情绪的方面 8确保我们将苹果与苹果进行比较 8可持续产量因素概况 ................................................................................9因子 9 的分布五分位数物业 10单一股票示例——股息 ..........................................................................11IBM(净正)11NLY(净正值)12葛兰素史克(净负)13RDSA(净负值)14附录附录 I:SmartBuzz 可持续收益 ............................................................15附录二:NLP 提升的收益筛选 ...............................................................16附录 III:NLP 产量异常屏幕 ..................................................................17 全球量化及衍生策略2021 年 9 月 9 日罗伯特·史密斯博士 (61-2) 9003-88083可持续红利SmartBuzz 2.0 是使用 NLP 构建的,可以阅读数百万篇新闻文章,专门检测哪些股票对特定主题有正面或负面的影响。最终结果是完全从非结构化数据得出的基于 Z 分数的暴露因子。我们将展示的测试用例是可持续红利的主题。为此,我们更新了 SmartBuzz 技术,现在可以直接处理来自 LexisNexis 和道琼斯新闻的新闻提要。我们从一个种子词开始来生成主题成员词。在这个用例中,种子术语是“股息”,它也包含“回购”相关术语。它围绕种子术语生成的 SmartBuzz 术语列表显示在页面上。 (我们还展示了一个更远的“通货膨胀”集群,以提供一些视角并展示股息和回购集群确实彼此更接近。然后使用主题成员术语来扫描来自电线的新闻文章。对该术语的任何提及都会被标记,并且紧接在该术语周围的上下文被捕获。然后,我们评估主题提及的上下文是好是坏,因此我们可以在特定股票的 z 得分中将其正面或负面地关联起来。换句话说,我们计算所有主题提及的加权总和,按股票分组。我们应用的权重是以下步骤的混合:1. 新闻文章与股票的相关性(是焦点股票还是文章中纯粹附带的股票)。2. 主题提及与股票的相关性(主题是否真正特定于股票或另一个实体)。3. 主题提及的情感(对目标股票来说是好是坏)。4. 关于主题的新闻量每只股票占该股票整体新闻的比例。5. 折扣迟到的主题这样我们就可以减轻稍后在一篇文章中提到的主题的权重。6. 主题成员词与种子词的距离:我们测量与质心的距离以打折不太相关或嘈杂的术语;例如,虽然“股票回购计划”仍然相关并且我们仍然希望对其进行监控,但它不如“股息增加”一词重要。7. 否定某些关键字我们知道会产生噪音(标题中的“词汇表”、“片段”和“包装”等词都倾向于是不关注单一股票的文章)。8. Z-Score 归一化和中和按国家或部门的需要。在这个过程之后,我们现在有了可持续股息敞口的主题因素。在这些实体的积极背景下,顶级曝光将更多地提及主题术语。他们应该是股息增长或可持续性的更好候选人,并且不太可能看到股息削减。此外,由于采用 Z 分数格式,因此主题因素可以用作多因素模型或更广泛的筛选标准的一部分。 全球量化及衍生策略2021 年 9 月 9 日罗伯特·史密斯博士 (61-2) 9003-88084这个相关的集群显示了所有回购相关的条款......主要集群用于与股息相关的条款......我们使用来自这两个集群的术语。最后,我们展示了一个非常不同的集群(通货膨胀)来证明它与其他 2 个集群的距离。回购和股息集群更接近是有道理的。您还可以看到按子集群分组的术语的好例子。图 1:用于股息、回购(和通货膨胀作为对比)的 SmartBuzz 集群资料来源:摩根大通BD&AI 全球量化及衍生策略2021 年 9 月 9 日罗伯特·史密斯博士 (61-2) 9003-88085战术上的•短期•情绪很重要•周期性结构的•长期•情绪不太相关•大多数曝光是积极的专题谱并非所有主题都是平等的没有两个主题是相同的。所有这些在关键术语或特征上都有细微的差异,这使得处理对所有人来说都是不同的。但是,在查看了许多不同的用例之后,我们粗略地确定了它们可能介于两者之间的两个极端。一方面是长期的增长主题,这也可能被认为是范式转变或结构主题。这些将包括 ESG、无人驾驶汽车或用于替代支付的加密货币等主题。从长远来看,这些类型的主题正在改变投资格局。在光谱的另一端,会有更多的短期或战术主题。这些往往更具周期性,并且更快地进入和退出流行的讨论。示例可能包括通货膨胀、重新开业、疫苗接种或与股票相关的主题,例如利润率压缩或指导(这在收益季节会更加普遍)。股息收益率和可持续性可能更倾向于我们对战术主题的定义,因为市场周期的某些时候更多(或更少)关注股息。也就是说,它也是一个流行的长期主题,因此不完全是战术性的。将其定义为战术的一个关键特征是我们需要仔细考虑其提及的情绪(即它是好还是坏的表达)。需要情绪来评估某些主题的影响这个“主题范围”帮助我们确定计算主题曝光所需的不同方法。所有主题都有自己的细微差别,通常需要不同的处理。新闻中提到的长期/结构性主题通常对主题曝光有利。因此,当在股票或实体的背景下谈论 5G 时,讨论通常会与该股票更多地接触 5G 相关联。这些类型的主题通常对目标实体产生积极影响——因为提及的主题越多,它对目标实体(即股票)的积极影响就越大。虽然情况并非总是如此,但对于某些主题,它确实使曝光计算变得更加简单。对于战术主题,曝光计算对提及周围的情绪要敏感得多。例如,如果一只股票提到了与之相关的通货膨胀,那么我们绝对需要知道上下文的情绪。一些股票受通货膨胀的影响更为积极;而其他人则受到负面影响。“频谱”旨在暗示主题可能介于这两个极端之间。下面我们重点介绍我们用来区分它们的主要区别。 全球量化及衍生策略2021 年 9 月 9 日罗伯特·史密斯博士 (61-2) 9003-88086有时一天内提及股息条款的次数可能会超过 350,000 次。平均每天提及约 80,000 次。升级到 SmartBuzz 2.0转向新闻——数量和速度的挑战当从 J.P. Morgan 分析师报告语料库(用于我们早期的 SmartBuzz 项目)转移到新闻流时,大部分挑战在于处理大量数据。我们每三个月总共处理来自 LexisNexis 和 Dow Jones 的大约 120 万篇新闻文章。 (我们最初的摩根大通分析师语料库在 10 年内只有大约 100 万份报告。)图 2:5 月至 7 月三个月内按来源分发的约 120 万篇新闻文章。资料来源:LexisNexis、道琼斯总提及次数甚至更高,具体取决于主题及其成员条款。请参阅下面的每日提及。图 3:每天提到的股息主题条款资料来源:LexisNexis、道琼斯、摩根大通 BD&AI。 全球量化及衍生策略2021 年 9 月 9 日罗伯特·史密斯博士 (61-2) 9003-88087更多的数据需要更快的速度每天通过的文章数量是摩根大通分析师报告的 40 到 50 倍,我们不得不通过三种方式提高处理速度: 优化算法 – 一个完整的代码审计,以删除 O(n2) 或更高阶的任何内容。虽然避免这些成本始终是最佳实践,但有些已通过包包含和监督引