热门搜索：

国际贸易研究中的机器学习：评估贸易协定的影响

信息技术2021-04-15世界银行无***

政策研究工作文件9629国际贸易研究中的机器学习评估贸易协定的影响Holger Breinlich Valentina Corradi Nadia Rocha Michele RutaJ.M.C.桑托斯席尔瓦汤姆齐尔金发展经济学发展研究组&宏观经济、贸易和投资全球实践 2021 年 4 月公开披露授权公开披露授权政策研究工作论文系列传播正在进行的工作的结果，以鼓励就发展问题交换意见。该系列的一个目标是快速得出结论，即使演示文稿还不够完善。论文带有作者姓名，应相应引用。本文中表达的发现、解释和结论完全是作者的观点。它们不一定代表国际复兴开发银行/世界银行及其附属组织的观点，也不代表世界银行执行董事或其所代表的政府的观点。抽象的现代贸易协定在服务贸易、竞争政策、与贸易相关的投资措施或公共采购等不同领域中，除了关税削减外，还包含大量条款。在试图估计这些条款对贸易流动的影响时，现有研究一直在努力解决过度拟合和严重的多重共线性问题。基于机器学习和变量选择文献的最新发展，本本文提出了数据驱动的方法，用于选择最重要的条款并量化其对贸易流动的影响，而无需对如何汇总单个条款做出临时假设。分析发现，与反倾销、竞争政策、贸易技术壁垒和贸易便利化有关的条款与增强贸易协定的贸易增长效应有关。本文是发展研究小组、发展经济学和宏观经济学、贸易和投资全球实践的产物。这是世界银行提供开放获取其研究并为世界各地的发展政策讨论做出贡献的更大努力的一部分。政策研究工作论文也发布在网站 http://www.worldbank.org/prwp。可以通过 h.breinlich@surrey.ac.uk、v.corradi@surrey.ac.uk、nrocha@worldbank.org、mruta@worldbank.org、jmcss@surrey.ac.uk 和 tzylkin@richmond 联系作者.edu。由研究支持团队制作政策研究工作文件 9629 国际贸易研究中的机器学习——评估这影响的贸易协议ω霍尔格·布林利希†瓦伦蒂娜·科拉迪:娜迪亚·罗查§米歇尔·鲁塔¶J.M.C.桑托斯席尔瓦ǁ汤姆齐尔金ωω关键词：套索、机器学习、优惠贸易协定、深度贸易协定。JEL 分类：F14、F15、F17。×本文的研究部分得到了世界银行贸易和发展多方捐助信托基金的支持。本文中表达的发现、解释和结论完全是作者的观点。它们不一定代表国际复兴开发银行/世界银行及其附属组织的观点，也不代表世界银行执行董事或其所代表的政府的观点。我们还非常感谢通过 ESRC 赠款 EST013567/1 获得的财政支持，并感谢 Scott Baier、Maia Linask、Yoto Yotov 和世界银行深度贸易协定经济学研讨会系列的研讨会参与者提供的有用意见。 Alvaro Espitia 和 Jiayi Ni 提供了出色的研究协助。通常的免责声明适用。†萨里大学，CEP 和 CEPR。电子邮件：h.breinlich@surrey.ac.uk:萨里大学。电子邮件：v.corradi@surrey.ac.uk§世界银行。电子邮件：nrocha@worldbank.org。¶世界银行。电子邮件：mruta@worldbank.org。ǁ萨里大学。电子邮件：jmcss@surrey.ac.uk。××里士满大学。电子邮件：tzylkin@richmond.edu。 21介绍国际贸易对现代经济至关重要，世界各国政府试图通过众多干预措施来塑造本国的进出口模式。鉴于通过世界贸易组织 (WTO) 进行多边贸易谈判所面临的困难，在过去的二十年中，各国越来越多地将注意力转向仅涉及一个或少数伙伴的优惠贸易协定 (PTA)。与此同时，关注点也从降低进口关税转向了非关税壁垒和边境政策的作用，如法规、技术标准或知识产权保护方面的差异。因此，现代贸易协定在服务贸易、竞争政策、与贸易相关的投资措施或公共采购等不同领域中除了关税削减之外还包含许多条款（Hofmann、Osnago 和 Ruta，2017 年）。在这种背景下，对贸易协定的影响感兴趣的研究人员和政策制定者面临着艰巨的挑战。特别是，最近的研究试图超越估计 PTA 的整体影响，并确定单个贸易协定条款在确定协议的整体影响方面的相对重要性（例如，Kohl、Brakman 和 Garretsen，2016 年，Mulabdic、Osnago 和Ruta，2017，Dhingra、Freeman 和 Mavroeidi，2018，以及 Regmi 和 Baier，2020）。然而，此类尝试面临的困难是，条款数量众多，并且类似条款出现在不同的贸易协定中，造成严重的多重共线性问题，难以识别单个条款的效果。传统方法，例如对单个条款的虚拟贸易流量进行重力回归，无法处理这种多重共线性。相反，研究人员以不同的方式对条款进行了分组或汇总。例如，Mattoo、Mulabdic 和 Ruta（2017 年）使用协议中条款的数量作为其“深度”的衡量标准，因此隐含地对每项措施赋予同等的权重。 Dhingra、Freeman 和 Mavroeidi（2018 年）通过对服务、投资和竞争条款进行分组并检验这些“条款包”对贸易流的影响来克服多重共线性问题。在本文中，我们提出了一种新方法来估计个别条款对贸易流量的影响，该方法不需要临时假设来汇总个别条款。相反，我们提出了一种基于机器学习和变量选择文献的最新发展的数据驱动方法，以选择最重要的条款并量化它们对贸易流动的影响。在此过程中，我们建立在变量选择方法的最新进展的基础上，这些方法解决了贸易数据表现出的一个关键特征所带来的困难，即各个 PTA 条款之间的高度相关性。我们建议将 Belloni、Chernozhkov、Hansen 和 Kozbur (2016) 方法扩展到具有高维固定效应的非线性模型的情况，这已成为近年来贸易流分析的标准（例如，参见， Head and Mayer，2014 年，Yotov、Piermartini、Monteiro 和 Larch，2016 年）。特别是，我们使用著名的 lasso（最小绝对收缩和选择算子）方法的泊松伪最大似然 (PPML) 版本进行变量选择（例如，参见 Hastie、Tibshirani 和 Friedman，2009）并展示如何使用 3基于 Belloni, Chernozhukov, Hansen, and Kozbur (2016) 或交叉验证的插件方法。值得注意的是，这需要克服贸易数据性质中固有的一些实际问题，例如潜在重力模型的非线性以及需要控制多边阻力和未观察到的贸易壁垒。我们将我们的方法应用于世界银行最近提供的关于 PTA 条款的综合数据集（Mattoo、Rocha 和 Ruta，2020）。重要的是，这个数据库非常丰富，以至于我们考虑的供应变量数量大于我们在数据中观察到的 PTA 数量。此外，由于模板效应和条款组之间可能的协同作用，这些条款变量可能彼此高度相关。由于这些原因，我们用一种新颖的方法来补充我们的插件套索结果，该方法旨在识别在初始套索步骤中可能遗漏的潜在重要变量。正如我们使用模拟证据所展示的那样，这种被称为“冰山套索”的新方法在插件套索的严格性和交叉验证方法的宽松性之间取得了良好的平衡，在中小样本中，真正的因果关系变量可能与数据集中未知数量的其他变量高度相关。需要明确的是，这种两步走的方法并不能完全回答“哪些条款对贸易最重要？”的问题。但它确实使我们在存在如此丰富的数据的情况下找到正确的供应变量并缩小潜在候选人的数量的能力得到了显着提高。我们的工作为几种不同的文献做出了贡献。最直接的是，我们为关于 PTA 对贸易流动影响的大量且不断增长的文献做出了贡献。这些文献主要对估计贸易协定的整体影响而不是个别条款感兴趣（例如，参见 Baier 和 Bergstrand，2007 年）。最近，注意力已转移到试图分解整体 PTA 效应并解开单个贸易协定条款的影响。如前所述，这些文献通常需要对个别条款的重要性做出强有力的假设，或者需要以基本上任意的方式汇总它们（参见 Mattoo、Mulabdic 和 Ruta，2017 年；Dhingra、Freeman 和 Mavroeidi，2018 年）。相反，我们提出了一套新颖的方法来选择最重要的条款并量化它们对贸易流动的影响。为了提供一些标题结果，我们的插件套索结果发现6 与反倾销、竞争政策、贸易技术壁垒和贸易便利化有关的规定与增强贸易协定的贸易增长效应有关。然后，当我们使用冰山套索程序超越众所周知的冰山“尖端”时，我们随后确定了一组43规定出305在我们的数据中提供可能影响贸易的变量。对于一些比较，基于交叉验证的更传统的方法选择124条文是相关的，根据我们的模拟，实际上不太可能包括所有“正确”的条文。此外，我们为对变量选择感兴趣的机器学习文献子集做出了贡献。特别是，我们扩展和调整了 Belloni、Chernozhkov、Hansen 和 Kozbur (2016) 的现有工作，使其适用于国际贸易流动和贸易协定的背景。这需要扩展使用 PPML 对具有高维固定效应的非线性模型的估计。国际 4当尝试选择调整参数时，贸易上下文也引发了一些有趣的挑战，这些参数控制我们的 PPML-lasso 估计器惩罚包含变量的系数并因此选择包含变量的程度。特别是标准的交叉验证方法，例如H-fold 或 leave-one-out 方法在实践中是不可行的，这要求我们提出一种基于 PTA 效果的样本外预测的新方法。我们发现，当通过交叉验证选择调整参数时选择的条款数量太大而无法做出有意义的解释，而相比之下，使用插件惩罚时确定的条款数量太少，无法做出有意义的解释。让我们确信它包含了大部分相关条款。我们提出的两步法建立在使用插件惩罚获得的结果的基础上，并确定了一组可能对贸易产生因果影响的附加条款。最后，我们为使用机器学习和其他相关方法研究贸易协定在重力环境下的影响的现有小型文献做出了贡献。例如，Regmi 和 Baier (2020) 使用无监督学习方法通过文本相似性对 PTA 进行分组，从而提供更细微的 PTA 深度概念。出于类似的动机，Hofmann、Osnago 和 Ruta（2017 年）基于应用于其供应数据的主成分分析提出了一种较早的 PTA 深度测量方法。相比之下，Baier、Yotov 和 Zylkin (2019) 使用两步法，其中在第一阶段估计特定对的 PTA 效应，然后使用国家和特定对变量在样本外进行预测。本文的其余部分结构如下。第 2 节介绍了有关 PTA 条款的数据，并对这些数据进行了描述性分析，重点介绍了有关最近贸易协定中存在的条款的一些典型事实。第 3 节介绍了三向重力模型上下文中的变量选择问题，并解释了我们如何实现具有高维固定效应的 PPML-lasso 估计。它还包括在回归变量之间具有高度相关性的简化设置中比较不同套索方法的相对性能的模拟证据。第 4 节将我们的方法应用于我们的 PTA 条款数据库，并显示哪些个别条款是贸易流量的最强预测因素。第 5 节结束。2数据我们的分析将 Comtrade 的国际贸易流量数据与 Mattoo、Rocha 和 Ruta（2020 年）收集的有关 PTA 内容的新数据库相结合。在贸易方面，我们使用 1964 年至 2016 年间的商品贸易出口220出口商270 进口商。没有出口信息的国家对被视为零。贸易协定内容数据库包括以下信息：2831958 年至 2017 年间已签署并通知 WTO 的 PTA。数据集中于18 贸易协定中最常涵盖的政策领域——定义为存在于贸易协定中的领域20 Hofmann、Osnago 和 Ruta（2017 年）绘制的协议百分比或更多。这些政策领域包括环境法和劳动力市场法规，大约在 20 580% 以上的协议中出现的出口税和贸易便利化等领域（见图 1）。图1：覆盖选定政策领域的 PTA 份额该图显示了覆盖一个政策领域的 PTA 的份额。资料来源：Mattoo

点击免费查看完整报告