AI智能总结
10673 缺失证据 全球范围内学术数据使用的追踪 Brian Stacy LucasKitzmüller XiaoyuWang Daniel Gerszon Mahler UmarSerajuddin 可验证的复制包存储在该篇论文的网址:http://reproducibility.worldbank.org,点击即可直接访问。此处 政策研究工作论文 10673 摘要 关于一个国家开展数据驱动的研宄对于制定以证据为基础的公共政策至关重要。然而,关于数据驱动研宄存在的不足及其扩展途径所知甚少。本文提出了一种通过研究领域所属国家追踪学术数据使用的方灘,将自然语言处理应用于开放获取的研宄论文。该模型预测生成的关于使用数据的文章数量估计与人工编码方法高度相关,相关系数为0.99。分析超过100万篇学术文章后,论文发现有关一个国家的文章数量与以下因素强相关: 与人均国内生产总值、人口以及其国家统计系统质量相关。该论文确定了与数据驱动研究高度相关的数据来源,并发现次国家级数据的可获取性似乎特别重要。最后,该论文根据各国是否最有可能从增加数据的供给或需求中受益将国家分为不同的组别。研究发现,前者适用于许多低收入和中等收入国家,而后者适用于许多中高收入和高收入国家。 《政策研究工作论文系列》传播正在进行中的研究成果,以鼓励关于发展的思想交流。问题。本系列的一个目标是快速发布研究结果,即使报告的展示并不完全完善。论文包含作者名称应相应引用。本文中表述的发现、解释和结论完全是作者自己的。作者的观点。它们不一定代表国际复兴开发银行/世界银行的观点。其附属机构,或世界银行执行董事及其代表的国家政府。 缺失证据:全球范围内学术数据使用的追踪 Brian Stacy, Lucas Kitzmüller, Xiaoyu Wang, Daniel Gerszon Mahler, and UmarrajuddinSe1 关键词:数据,学术界,研究,自然语言处理。 JEL代码:C45, C52, O30 1 简介 在近几十年里,数据产生的数量爆炸式增长,为政策改善人们生活创造了无限机遇(世界银行2021年)。尽管数据在原始形式下可能很有价值,但数据的全部价值仅在它们被分析以产生洞察力时才得以实现,而这些洞察力被转化为公共政策或提高问责制。 研究人员在这方面发挥着至关重要的作用。许多研究人员投入大量时间来消化数据,利用数据创造新的知识,并通过沟通这些知识来影响公共讨论和公共政策。有众多例子表明,基于数据的分析对人们的生活产生了真实且重要的影响(Jolliffe等,2023)。一个来自巴西的例子明确考察了研究人员影响政策结果的能力。在那里,来自2,150个市镇的证据显示,向市镇长通报关于一项简单政策改变有效性的研究结果,将他们市镇实施该政策的可能性提高了10个百分点(Hjort等,2021)。 没有研究,存在数据回馈社会的风险降低,以及改善生活的政策无法实现的风险。然而,关于哪里存在缺失的数据驱动证据以及政府如何最好地刺激当地决策者的证据基础,知之甚少。本文试图通过回答两个问题来填补这些空白:(1)哪些国家是使用数据的研究论文的主题?(2)国家如何增加其国家证据基础?我们关注数据驱动的研发,因为数据在政策制定中的重要性日益增加,以及需要增加数据供需的具体政策,例如增强统计能力和提高数据素养。 为了回答第一个问题,我们引入了一种基于1,000,000篇涉及216个国家及众多学术领域英语研究文章的新型方法,以测量研究中的数据使用。这些文章由Semantic Scholar Open Research Corpus (s2orc) 提供支持,该系统已全球范围内数字化数百万篇研究论文,并使其原始文本可通过API(Lo等,2020年)获取。借助Amazon Mturk工作人员的帮助,我们手动对其中900篇文章进行编码,以确定它们是否使用了数据。在此基础上,我们训练了一个自然语言模型来预测Mturk工作人员的编码(Devlin等人,2018年)。该模型达到了87%的样本外准确率,并且当文章汇聚到国家层面时,该模型与Mturk工作人员分类的论文数之间的相关系数高达0.99。随后,我们将此模型应用于2000年至2020年s2orc数据库中1百万篇学术论文。无论研究者可能身处何处,模型都可以估算一个国家的数据驱动研究量。无一个国家公民进行的数据驱动研究数量。我们认为,前者是理解国家决策者可获得的证据基础的相关数量。 我们发现,数据驱动的研究与人均GDP和人口密切相关,这两者共同解释了各国之间约75%的差异性。尽管仅占世界人口的约15%,高收入国家却是几乎所有使用数据的论文的主题,占约50%,而占世界人口约10%的低收入国家,在仅占约5%使用数据的文章中。 为了回答第二个问题——国家如何增加其国家证据基础——我们首先确立一个国家的统计能力在控制了人口和GDP之后,仍然可以预测数据研究,并且文章未使用数据(我们将此作为该国普遍研究兴趣的替代指标)。为了了解一个国家的统计能力中哪一部分对于增加数据驱动的研发最重要,我们探讨了与学术数据使用最相关的数据来源。我们发现,第一级行政级别的地理空间数据的可用性与数据使用量增加1.1%相关,过去十年的人口普查与数据使用量增加0.3%相关,过去十年两次或以上进行的劳动力(农业)调查与数据使用量增加0.4%(0.2%)相关。尽管我们无法建立这些因果联系,但政府可以提供具体的数据产品,以可能增加其可利用的证据基础。 增加数据供应是各国提高受数据驱动研究影响的数量的方法之一,另一种方法是增加对其数据的需求。这对那些已经在相关数据产品上进行投资但受数据驱动研究影响相对较少的国家尤为重要。这些是现有数据未被充分利用的情况,在这些情况下,可能有必要使现有数据更容易为研究人员获取,并可能在国家中提高数据素养。为了探讨增加数据供应和数据需求之间的区别,并在Porteous (2020) 的基础上进行构建,我们将国家分为四组:沙漠数据和数据的供应需求都相对较少。沼泽拥有大量数据供应但数据需求有限,绿洲对数据有高度需求但数据供应不足,并且湖泊拥有高数据需求和高度数据供应。近三分之二的中低收入国家和撒哈拉以南非洲国家是绿洲,这表明这些国家从他们的数据供应中获取了相对较大的证据,并且他们对需求不足的问题相对较少,但他们可以从增加研究人员可用的数据中受益。相比之下,近一半的欧洲国家是数据沼泽,这表明优先考虑增加现有数据的利用率。 先前的研究指出了各国在经济研究成果产出方面的差距,并指出富裕国家成为更多经济研究的主题。例如,Robinson、Hartley和Schneider(2006年)、Das等人(2013年)和Porteous(2020年)考察了经济学家使用EconLit数据库研究最多的国家。Cameron、Mishra和Brown(2016年)以及Sabet和Brown(2018年)进一步扩展了这一观点,指出影响评估在国家之间极为不均衡。Phillips和Greene(2022年)表明,冲突研究倾向于西方国家,而Courtioux等人(2022年)则表明,学术研究与科学研究的公共投资高度相关。 我们通过应用自然语言处理(NLP)来提高我们对哪些国家研究不足的理解,从而丰富了文献。使用NLP使我们能够在三个层面上超越现有文献:(1)扩大样本规模,审视所有感兴趣的领域,而不仅仅是经济学,(2)识别使用数据的论文,这对于理解数据需求或数据供应是否可能是解释一个国家研究不足的关键,(3)指出国家可以采取的措施来增加数据研究。 论文的其余部分结构如下。第二章讨论了我们的数据来源,第三章详细介绍了我们的方法,第四章介绍了一个理论框架,第五章展示了我们的实证结果,第六章进行了稳健性检验,第七章得出结论。 2 数据 我们的学术文章数据源是语义学者开放研究语料库(S2ORC)(Lo等,2020年)。该语料库包含超过1.3亿篇来自多个学科的英语学术论文。语义学者语料库中的论文直接从出版商、如arXiv或PubMed等开放存档以及从互联网上抓取而来。 我们对文章进行了一些限制,以便使其适用于我们的目的。首先,只有具有摘要和解析PDF或LaTeX文件的文章被纳入分析。摘要的全文对于分类研究国家和是否使用数据至关重要。解析的PDF和LaTeX文件对于提取重要信息,如出版日期和研究领域非常重要。这种限制消除了原始语料库中的大量文章。在仅保留可解析(即,适用于数字处理的)PDF文章后,约剩下3000万篇文章,当去除没有摘要的文章时,这3000万篇文章中有约26%被淘汰。其次,只考虑了2000年至2020年的文章。这一限制又额外淘汰了剩余文章的9%。最后,我们排除了以下研究领域中的文章,因为我们旨在关注那些可能使用国家统计系统产生数据的领域:生物学、化学、工程学、物理学、材料科学、环境科学、地质学、历史学、哲学、数学、计算机科学和艺术。Fields that是包括经济学、政治学、商业、社会学、医学和心理学。这项第三项限制消除了剩余文章的约34%。从最初的1.36亿篇文章中,最终形成了一个约1000万篇文章的语料库。 由于所需计算机资源密集,从我们的限制性语料库中的1000万篇文章中随机选取了1037748篇文章作为便利样本。1百万篇文章的最终样本的汇总统计信息可在表1中找到。 3 实证策略 本项目中采用的实证方法利用了文本挖掘与自然语言处理(NLP)。自然语言处理的目标是从原始的非结构化文本中提取结构化信息。在本项目中,NLP用于提取研究国家以及论文是否使用数据。我们将依次讨论这些内容。 为了确定每篇学术论文的研究国家或国家,采用了两种基于标题、摘要或主题字段中找到的信息的方法。第一种方法使用基于ISO3166国家名称存在的正则表达式搜索。编制了一个定义的国家名称集合,并检查这些名称在相关字段中的存在。这种方法是透明的,在社会科学研究中得到广泛应用,并且易于扩展到其他语言。然而,如果国家的名称拼写不规范,可能存在排除错误的风险。 第二种方法基于命名实体识别(NER),它利用机器学习从文本中识别对象,采用spaCy Python库。命名实体识别算法将文本分割成命名实体,本项目使用NER来识别学术论文中的研究国家。SpaCy支持多种语言,并针对多个国家名称的拼写进行了训练,克服了正则表达式方法的某些局限性。如果一个国家通过正则表达式搜索或NER被识别出来,它将被链接到文章中。请注意,一篇文章可以与多个国家相关联。 第二项任务是分类论文是否使用了数据。采用了一种监督机器学习方法,首先随机选取了3,500篇出版物,并由使用Mechanical Turk服务的评审员进行手动标注(Paszke等人,2019年)。2为了确保人工评分者在看到第一篇论文前对数据有相似且恰当的定义,他们被赋予了以下指示: 每篇这些文档都是一篇学术论文。本研究的目的是衡量一篇特定的学术论文是否使用了数据,以及数据来自哪个国家。 本练习包含两项分类任务: 1. 识别学术文章是否使用了任何国家的数据 从哪个国家识别数据来源。 对于任务1,我们特别关注数据的使用。数据是指任何已被收集、观察、生成或创建以产生研究发现的任何信息。例如,一项报告使用调查数据的研究或分析结果,即使用了数据。以下是一些线索: 表明一项研究使用了数据,包括是否描述了调查或普查、估计了统计模型,或报告了表格、均值或汇总统计。 在将文章归类为使用数据后,请注意所使用的数据类型。选项包括人口普查或企业普查数据、调查数据、行政数据、地理空间数据、私营部门数据和其他数据。如果未使用任何数据,则标记为“不适用”。在同时使用多种数据类型的情况下,请点击多个选项。3 对于任务2,我们正在研究文章中提到的国家或国家群体。在某些情况下,可能没有适用的国家。例如,如果研究是理论性的且没有特定的国家应用。在某些情况下,研究文章可能涉及多个国家。在这些情况下,选择论文中讨论的所有国家。. 我们预计