您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [世界银行]:从几乎没有预测收入分配 - 发现报告

从几乎没有预测收入分配

金融 2025-01-13 世界银行 Leona
报告封面

11034 从几乎没有预测收入分配 Daniel Gerszon Mahler Marta Schoch Christoph Lakner Minh Nguyen Jose Montes 政策研究工作文件 11034 Abstract 这篇论文开发了一种方法,用于从少量国家层面变量的简单回归中预测世界各国可比的收入和消费分布。为了拟合模型,分析使用了世界银行贫困与不平等平台提供的涵盖168个国家的超过2000个家庭调查数据集。此外,还使用了来自多个数据库的超过1000个经济、人口统计和遥感预测变量来测试模型。选择了一个平衡模型外样本准确性、简洁性和国家覆盖率的模型。 该方法可以应用于类似情境。研究发现,一个简单的模型依赖于人均国内生产总值、5岁以下儿童死亡率、预期寿命和农村人口占比等因素,其准确度几乎与使用1000个指标的复杂机器学习模型相当。该方法允许在极端数据匮乏的国家进行分布分析,尤其是在这些国家缺乏可靠调查数据或数据严重过时的情况下,其中一些国家可能是世界上最贫穷的国家。 这篇论文由发展数据组和贫困与平等全球部门共同完成。它是世界银行为提供研究成果的开放访问并为全球发展政策讨论做出贡献而开展的一项更大努力的一部分。政策研究工作论文也在网上发布于。作者可以联系dmahler@worldbank.org。 从几乎没有预测收入分配 Daniel Gerszon Mahler, Marta Schoch, Christoph Lakner, Minh Nguyen, Jose Montes 1 Introduction 家庭调查对于衡量贫困和设计分配政策至关重要,但在某些国家,由于统计能力低下、冲突或资源不足等原因,此类调查并未开展(Dang等,2019年;Ekhator-Mobayode和Hoogeveen,2022年)。在其他情况下,虽然收集了家庭调查数据,但并未与研究人员和决策者共享。这种数据缺失不均衡地影响着较贫穷的国家,意味着在进行全球分析时忽视或未能适当考虑这些国家会导致结果偏颇。 我们通过开发一种方法来填补这些空白,该方法可以通过简单的回归预测每个国家年度收入和消费(以下简称福利)的可信赖分布形态。该方法利用了国家层面广泛可用的社会和经济指标,并不需要针对感兴趣国家的任何家庭调查数据。我们明确地寻找一个简单模型,该模型易于在实际工作中应用,并且可以适用于数据最为匮乏的国家。为了估计这种模型,我们利用世界银行贫困与不平等平台(PIP)提供的超过2000份家庭调查数据中的丰富信息,这些数据涵盖了168个国家,时间范围从1991年到2020年。对于每一份调查,我们都有按购买力平价调整后的每日人均家庭收入或消费的分布数据。 我们依次从样本中移除一个国家,并使用剩余的167个国家和多种预测因子来预测该被移除国家的分布情况。作为潜在的预测因子,我们在超过1,000个候选变量中进行搜索,这些变量涵盖了多个数据库,并包括遥感指标。在对每有一个可用数据的168个国家重复这种留一法交叉验证后,我们将预测的分布与基于调查的数据进行比较,倾向于那些能够最小化预测误差的模型。 我们发现,一个使用人均GDP、5岁以下儿童死亡率、预期寿命、农村人口比例和地区哑变量的模型能够很好地预测福利水平,而且增加更多信息并不会带来显著的改进。国民账户数据在预测福利方面表现尤为出色,即使在数据匮乏的国家也是如此,但程度较低。这表明,尽管调查福利与国民账户之间的差距(Deaton 2005;Pinkovskiy 和 Sala-i-Martin 2016;Deaton 和 Schreyer2022;Prydz 等 2022)以及专制国家中GDP计量问题(Martinez 2022),GDP仍然能够在没有家庭调查的情况下提供有关福利的重要信息。然而,大约一半的国家如此缺乏数据,以至于不仅缺少收入或消费分布,还缺少GDP数据。对于这些国家,我们使用世界银行的收入组别作为代理指标,从而根据不同国家是否有GDP数据而分为两个层级的模型。 这两级的表现优于基于遥感数据(如夜间灯光、植被状况)构建的模型。即使将这些遥感数据添加到模型中,也无法显著降低模型外样本误差。这表明,平均而言,遥感数据在国家层面预测福利方面不如GDP有效,这与证据一致,该证据表明遥感数据可能会产生与调查基于的估计非常不同的家庭福利估计值(Van Der Weide等,2024)。这进一步表明,一个相对简单的模型,使用易于获得的数据,比使用昂贵数据构建的复杂模型表现更好。 我们采用首选方法对所有国家进行全球贫困估计,并将结果与世界银行发布的贫困估计值进行基准对比。我们发现,总体而言,这些模型在跟踪贫困率方面表现良好,但存在显著例外情况。我们表明,这些误差部分归因于各国及各国内部随着时间变化的贫困估计值不具备可比性,但也肯定部分源于建模错误。 平均而言,我们首选的模型预测收入或消费可能偏离实际值约30%。尽管这一误差较大,但将其与合适的基准进行评估至关重要。对所有1000多个潜在预测变量进行随机森林分析并未带来出样误差的改善,这表明剩余的大部分误差可能是不可缩减的。此外,在全球范围内,30%的误差相对于观察到的巨大收入差异而言相对较小:我们样本中财富最丰富的国家的中位福利是贫困国家的超过100倍,而最富有的25%国家的福利也是最贫穷国家的数倍。th中位数的百分位数是 25 的 5 倍th百分位数。 长期的研究试图克服数据缺口并预测分布情况,尤其是在有限信息可用的情况下。当某一时间点的社会福利数据不可用,但与家庭福祉相关的数据和之前的家庭调查中的社会福利数据可用时,可以使用调查间插补方法(Stifel 和 Christiansen 2007, Roy 和 Van Der Weide 2024)。或者,可以使用国民账户数据将较早的社会福利向量向前推断(Mahler 等人 2022;Angrist 等人 2021)。还有些研究者在分组数据或汇总统计指标可用时估计完整分布(Chen 2018;Chotikapanich 等人 2012, Eckernkemper 和 Gribisch 2021, Jordá 和 Niño-Zarazúa 2019;Hajargasht 等人 2012)。财富指数被用于预测缺乏消费或收入数据但有 demographic and health survey 数据的国家的完整分布(Filmer 和 Prichett 2001, Dang 等人 2019)。然而,所有这些方法都需要至少一个基于调查的社会福利向量,因此对于没有任何调查数据的国家来说,这些方法是不适用的。 遥感数据和手机数据已被用于预测国家人均福利、贫困率或其他分配统计值(Pinkovskiy 和 Sala-i-Martin 2016;Blumenstock 等人 2015;Steele 等人 2017;Pokhriyala 和 Jacques 2017;Lee 和 Braithwaite 2022;Engstrom 等人 2022)。然而,这些方法并不能预测完整的分布。鉴于实践中使用的多种贫困线和福利指标(参见例如 Jordá 等人 2023,Decerf 和 Ferrando 2022,Kanbur 等人 2022,Jolliffe 和 Prydz 2021),为每个相关的福利指标使用此类模型将危及我们方法的简便性。此外,这些方法所需的遥感数据时间跨度较短,且往往不可公开获取,这使得这些方法难以在实际操作中实施。 论文余下的部分结构如下。数据和方法在第2和第3节中描述。第4和第5节呈现结果及稳健性检验。第6节将模型应用于全球贫困测量,第7节总结全文。 2 Data 我们的主要数据来源是PIP中可获得的家庭调查数据,包括可支配收入或消费数据。我们使用了1989年至2020年间涵盖168个国家的1,989份调查数据。我们排除了1990年代之前的数据,因为那时的数据质量通常较差,尤其是在低收入和中等收入国家。尽可能标准化这些数据,但不同数据集在数据收集方法以及福利聚合是基于收入还是消费方面存在差异。我们使用以2017年国际元(2017 USD PPPs)表示的人均家庭福利信息。我们利用PIP的公共百分位数数据库(版本20230919),采用每个收入或消费向量上的99个百分位数分布值。具体而言,我们使用的是收入{或消费}的值,使得0.01, 0.02,..., 0.99 累积密度函数 () 取如下 {} 1%, 2%, …, 99%。也就是说,我们保留了导致贫困率的99个贫困线。最终数据集包含了196,903个量化值 - 国家-年份观察,涉及每日人均福利和分布中相应的分位数对。 我们结合此次调查数据与各种可能影响国家福利水平的预测因素。我们使用世界银行的世界发展指标(WDI)数据,这是涵盖广泛主题的最大的国家年份发展指标数据库之一。WDI 包含大约 1,400 个指标的信息,涉及健康、农业、教育、气候变化、基础设施等领域。此外,我们还使用国际货币基金组织的世界经济展望数据,该数据包含几十个宏观经济指标变量;以及联合国的世界人口展望数据,该数据包含几十个关于人口、健康和人口统计学的变量。我们还利用上述来源的 GDP 数据,并补充了马德森数据库(Bolt 和 Van Zanden 2024)的估计值。同时,我们也采用了世界银行的国家和地区分类,并使用自由之家的数据来衡量政治权利、公民自由和自由状况。 此外,我们使用来自Google地球引擎的遥感数据。这些数据包括夜间灯光、降水量、温度、不透水面、耕地、归一化差异水/雪/植被指数以及增强植被指数。虽然遥感变量的空间覆盖范围不是问题(因为它们可以覆盖地球的整个表面),但时间覆盖范围有时会受到限制。例如,夜间灯光的数据最早可追溯到1992年。为了适应本研究,这些遥感数据需要聚合为国家年份层面的数据。我们首先通过计算每个位置(如像素)一年内各项指标的均值、最大值、最小值和标准差,将数据聚合为年度数据。然后,我们通过计算每个国家年度数据的均值、最大值、最小值和标准差,对这些数据进行空间聚合。这为每种类型的变量提供了16个特征。夜间灯光数据还被转换为人均水平,方法是将灯光总和除以人口规模。我们对每个网格赋予相同的权重,因此这些指数反映了,例如,一个国家领土上的平均温度,而不是该国居民经历的平均温度。由于许多变量是通过农业影响福利的,人口加权(这会使城市地区占据主导地位)可能不会使这些变量更与福利分布相关。然而,我们还加入了戈特兰等人(2024)提供的温度和降雨量的人口-网格加权估计值。 我们在适当的情况下使用所有变量的原始值和对数值。从总协变量集出发,我们移除了那些缺失值超过50%的变量,因为这些变量在我们将应用模型的数据匮乏国家中不太可能具有相关性。这使我们剩下总共1,444个候选变量用于预测福利分布。 3 方法 3.1 分布假设 为了确保预测累积密度函数(CDF)表现良好,我们需要施加一个分布假设。尽管对数正态分布是应用工作中常用的两参数分布(例如参见Bergstrom(2022)、Kraay与Van der Weide(2022)和Soergel(2021)的研究),我们发现对数 logistic 分布(也称为Fisk分布,参见Fisk(1961))提供了稍微更好的拟合度(详见第5.1节)。这与Bresson(2009)的研究结果一致,后者发现对数 logistic 分布是表现最佳的两参数分布。 Fisk 分布由下式给出 𝛼𝛼其中,αα 是尺度参数,Gini系数的倒数等于yy,即分布的中位数,且等同于参数。�1+� ) 是形状 (Gini =1我们感兴趣的是预测福利水平,可以通过使用对数逻辑分布的分位数函数在左侧隔离这些水平。δ. where is the quantile of the distribution (i. e., p