您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[全球量化策略]:J.P. 摩根-全球量化策略-大数据与AI策略:评估一系列NLP变形模型-2021.3.30-33页 - 发现报告
当前位置:首页/宏观策略/报告详情/

J.P. 摩根-全球量化策略-大数据与AI策略:评估一系列NLP变形模型-2021.3.30-33页

2021-03-30全球量化策略枕***
J.P. 摩根-全球量化策略-大数据与AI策略:评估一系列NLP变形模型-2021.3.30-33页

中性全球量化与衍生品策略2021年3月30日大数据和人工智能策略评估一系列NLP变压器模型,例如BERT,Electra,漏斗,GPT2,MPNet和变体自然语言理解模型正在达到并超越人类的理解水平(根据SuperGLUE)。我们也可以在股票投资中利用这一点。在此报告中,我们在由标题和情感标签组成的财务数据集上比较了17种最先进的自然语言处理模型的性能。 漏斗平均准确度最高为83.9%。它的设计类似于BERT,但是具有类似于CNN的漏斗层,有助于压缩模型。设置和训练的速度不是很快,而是推理模式下性能最高的模型之一(每1000个句子少于4秒)。最好与GPU一起使用。 网络紧随其后的是平均准确率83.7%的“伪装和置换神经网络”模型。 MPNet是最快的型号之一,特别是考虑到高精度,它在CPU上也显示出可接受的速度。 伊莱克特拉是最快的模型,每千分之一秒只需几分之一秒,同时保持76.9%的合理准确性。这种较小的(14Mn参数)基于GAN的模型即使在CPU上也可以快速设置和训练。模型训练和测试是在内部JPM数据集上进行的; J.P. Morgan头条新闻情绪数据集由4,298个新闻头条组成,这些新闻头条已手动分配了来自以下内容的情感标签:全球量化和衍生品策略贝洛恩·赫拉瓦蒂(Berowne Hlavaty)交流电(61-2) 9003-8602彭博社JPMA HLAVATY <GO>摩根大通证券澳大利亚有限公司罗伯特·史密斯博士(61-2) 9003-8808摩根大通证券澳大利亚有限公司胡van(852) 2800-8508摩根大通证券(亚太)有限公司普里扬卡·兰詹(Priyanka Ranjan)(91-22) 6157-3294摩根大通印度私人有限公司全球量化和衍生品策略Marko Kolanovic博士(1-212) 622-3677摩根大通证券有限责任公司杜布拉夫科·拉科斯·布亚斯(1-212) 622-3601销售点,NEG,中性, 或者。请与我们联系以访问此数据。摩根大通证券有限责任公司进一步的模型评估是在Malo等人发布的Financial Phrase Bank Labeled Data上进行的。 (2014)。所有8434行都用于使用评估模型销售点,NEG,标签。图1:使用“测试”和“评估”数据集的各种NLP模型的准确性与速度资料来源:摩根大通QDS。模型在显示有菱形的8GPU上运行。在单个GPU上测得的评估时间。请参阅第30页,以了解分析师认证和重要信息,包括非美国分析师的信息。摩根大通(J.P. Morgan)致力于与研究报告中涵盖的公司开展业务往来。因此,投资者应注意,该公司可能存在利益冲突,可能会影响本报告的客观性。投资者应将此报告视为做出投资决定的唯一因素。伊莱克特拉(Electra),DistillBERT混合的 NLP简介自然语言处理,或简称NLP,被广泛定义为通过软件对自然语言(例如语音和文本)的自动操纵。自然语言处理的研究已经有50多年的历史了,随着计算机的兴起,它已脱离语言学领域。NLP复杂的旧方法我们最早的机器学习论文之一是:“从新闻中提取情感:大数据中的机器学习以对股票新闻情感进行分类”(9 / Oct / 2017)。本文使用NLP和一些更传统的机器学习(ML)技术基于分析师报告文本预测情绪,合理的准确性在48%-72%的范围内。图2:经过D2V BOW(5,300)训练的分类器以及用于要素工程的完整流水线资料来源:J.P。Morgan QDS,JPMQ Corpus(2017)。但是,这些模型的缺点是需要较长的流水线,其中许多阶段需要超参数或建模元决策:1. 提取原始数据2. 拆箱3. [负数否定]“利润下降”> [neg_profit]优于[下降,利润])4. 单词分词5. [语音标记的一部分]6. 删除停用词7. 词频统计8. [正常化]9. 字母和二字识别10. Chi2过滤11.向量化(Word2Vec)12. [重新]归一化13.造型建立自定义的NLP管道以预测标题文本的情感是本文的重点。它适用于有兴趣使用最新NLP模型作为基础来构建自己的系统的用户。如果您想使用现成的系统,请参阅我们的其他报告;增生, Alexandria,ChinaScope,RavenPack和其他提供情感的主要供应商,例如; FactSet,Refinitiv和Bloomberg。 数据•开玩笑•分裂•[测试]•[火车]代币•汽车-标记化•文字转向量•标签到整数火车•model.train()•model.predict()资料来源:iStockPhoto基于HuggingFace变压器的现代NLP管道新方法电流互感器模型(例如BERT和GPT)负责NLP性能的逐步变化,其工作流程要简单得多,但要花费处理时间和模型大小。为了帮助解决由不断增长的模型引入的问题,更快和更小的版本(例如DistillBERT)是重要的模型,因为它们可以捕获结构和语义知识的基本部分,同时可以提高速度。HuggingFace.co的团队已经为python构建了translators包,该包扩展了pytorch和tensorflow,从而简化了许多必要但通用的步骤。他们还建立了庞大的预训练自然语言模型库,这些模型可从世界各地的前沿研究机构那里获得。 7,000多种型号可用于各种语言和任务(每天都在增长)。我们使用的新管道是一个简单得多的三步过程(原始原始数据,令牌化,模型),我们将在下面进一步详细描述。图3:基于现代NLP变压器的管道销售点NEG中性混合的资料来源:摩根大通QDS 各种NLP模型的描述请注意,我们不会在这里探讨所有可用的架构和模型,因为当您考虑存储在库中的架构,语言和模型权重的选择时,会有很多产品。例如,在“变形金刚模型架构”页面上列出的近50种NLP / NLU模型中,HuggingFace具有超过10种BERT变体。我们进一步注意到,这些模型体系结构在HuggingFace入围名单中都有一个至多达25个经过预训练的模型,目前有7,000多个已上载到公共图书馆供使用。我们正在研究当前的工具集时,借助于Google,Cambridge,DeepMind和Alan Turing Institute,基于“ Performers”的研究正在涌现,该研究提供了更大的句子分析功能,并且使用的内存更少。请注意,为完成此任务,我们尝试在单个GPU上运行所有模型,但是少数模型(例如BART,Longformer,XLNet,XLM-RoBERTa以及显然的GPT2-Medium)需要4或8个GPU才能工作,而某些模型未经测试即使在具有96个CPU,8个GPU(每个都有16Gb的专用RAM)和768Gb RAM的AWS“ p3dn.24xlarge”实例上。对于这些大型模型,将需要非常大和复杂的群集,这超出了本练习的范围。因此,我们无法测试GPT2大版或XLarge版。总体而言,HuggingFace目前支持约28种用于句子分类任务的体系结构,我们测试了17种,因为某些模型的体系结构之间存在大量重复,而其他模型则设计用于语言翻译或英语以外的其他语言的预训练。在架构具有多个模型文件的情况下,我们选择了我们可以设法运行的最大模型,例如BERT-Large或GPT2-Medium。预训练模型的完整列表在HuggingFace.co网站上列出,并在附录中进行了概述。图4:我们测试的来自HuggingFace的模型列表名称参数发行人建筑类型需要GPU阿尔伯特222.6百万谷歌自动编码器1巴特407.3百万Facebook序列28伯特335.1百万谷歌自动编码器1德贝塔406.2百万微软自动编码器1迪尔斯·伯特6700万拥抱的脸自动编码器1电子13.5百万谷歌自动编码器1漏斗441.8百万谷歌自动编码器1GPT116.5百万OpenAI的自回归1GPT21,557.6百万OpenAI的自回归8加长型434.6百万艾伦·艾自动编码器8MBART611.9百万Facebook序列21网络109.5百万微软自动编码器1罗伯塔124.6百万Facebook自动编码器1克鲁兹·伯特51.1百万学术的自动编码器1变压器283.9百万谷歌自动编码器1XLM罗伯塔559.9百万Facebook自动编码器8XLNet361.3百万谷歌自回归8资料来源:J.P。Morgan QDS,HuggingFace 常用型号下面我们列出了可从HuggingFace或其他开放源代码存储库以及基于云的供应商工具中获得的一些可用的NLP模型。首先,我们列出了一些我们测试过的知名模型,例如BERT和GPT,以及一些鲜为人知的“最新技术”(SotA)模型。在这些报告之后,您可能已经听说过其他一些模型,这些模型并未包含在本报告中。要了解有关NLP模型(例如ELMo,BERT,Grover,Big BIRD,Rosita,RoBERTa,3 ERNIE和KERMIT...)的名称的内在笑话,请参阅Verge文章:“为什么这么多AI系统被命名在布偶之后吗?”最新的NLP模型测试阿尔伯特:用于语言表示自我监督学习的Lite BERT,它使用两种参数减少技术来降低内存消耗并提高训练速度。就准确性而言,性能很强,但是相对较慢。BART:一种降噪自动编码器,它使用具有双向编码器(例如BERT)和从左到右解码器(例如GPT)的标准seq2seq体系结构,经过对排列和混淆的句子进行训练,试图与原始句子匹配。合理的精度和相当快的速度,比BERT稍好,但是需要8个GPU进行训练。BERT:变形金刚的双向编码器表示,旨在通过在所有层的左,右上下文上共同进行条件调整,从未标记的文本中预训练深层的双向表示。在我们的测试中合理的准确性和速度。德贝塔:扩展BERT和RoBERTa的大型模型。它使用了纠缠的注意力机制,其中每个单词均使用编码其内容和位置的矢量表示,并使用增强的掩码解码器替换输出softmax层,以在模型预训练期间预测被掩码的令牌,从而需要较少的训练数据。在准确性方面排名前三,但比Funnel和MPNet稍慢。当然,一个有价值的模型可以很好地响应更好的培训。迪尔斯·伯特:提炼的BERT模型的参数比未使用bert的情况下的参数少40%,运行速度提高60%,同时在GLUE上保留BERT的95%以上的性能。准确度与Electra相当(排在前10名之外)并且相当快。电子:使用一种新的预训练方法来训练两个变压器模型:类似于GAN模型的发电机和鉴别器。 ELECTRA受过训练,可以预测句子中的哪个单词被另一个单词而不是[MASK]标记代替。该模型具有合理但快于前10个的准确性!漏斗:像BERT一样的双向转换器模型,但是在每个层的块之后都有池化操作,有点像传统的卷积神经网络(CNN),压缩隐藏状态的序列可以消除令牌序列表示中的冗余,并节省计算和内存成本。就准确性和合理表现而言,这是我们表现最好的模型。 GPT是一种因果(单向)转换器,使用语言建模对具有长期依赖关系的大型语料库进行了预训练,然后针对包含任务标记的特定任务进行了微调。表现出合理的准确性,但相对较慢。GPT-2是具有15亿个参数的大型基于变压器的语言模型。这是一种因果(单向)模型,经过训练可以预测序列中的下一个单词。我们只能测试“中等”大小的模型,我们发现它具有较高的准确性(仅排名前10),但速度非常慢,并且需要8个GPU进行训练,因此价格也非常昂贵。加长型:具有有效的注意力机制,可根据序列长度线性缩放,从而使处理成千上万个令牌的文档变得容易。它使用局部窗口化的“自我注意”机制,并结合角色级别的特定于任务的全局注意。该模型基于RoBERTa,使用该模型作为预先训练的起点。 Longformer在我们的“简短”句子中(前5名)具有较高的准确性,但在很大程度上是单个最慢的模型,并且需要8个GPU进行训练。MBART是一种在多种语言的大型语料库上预先训练的序列到序列降噪自动编码器,主要用于翻译任务。它具有与GPT相似的合理