AI智能总结
10867 在没有消费数据的情况下估算贫困指标 探索性分析 Hai - Anh H. Dang Talip KilicKseniya Abanokova CalogeroCarletto 政策研究工作文件 10867 Abstract 准确的贫困测量依赖于家庭消费数据,但在较贫穷的国家中,此类数据往往不足、过时或随着时间的推移显示出不一致性。为了应对这些数据挑战,本文采用调查到调查的插补方法来生成包括极端贫困、深度贫困、贫困缺口、接近贫困率以及平均消费水平和整个消费分布在内的多种贫困指标的估计值。对过去十年在孟加拉国、埃塞俄比亚、马拉维、尼日利亚、坦桑尼亚和越南进行的22个多主题家庭调查的数据进行分析,结果令人鼓舞。 将家庭公用事业支出或食品支出加入基于户的家庭人口统计学、就业和资产变量的基本推断模型中,可以将推断精度提高0.1至0.4。进一步加入地理空间数据的预测因子可以进一步提高推断精度。分析还显示,调查之间的时间间隔越大,预测某些贫困指标的概率越低,并且更好的推断模型拟合优度(R2) 不一定有帮助。结果为未来的调查设计提供了节省成本的投入。 这篇论文由发展数据组和发展经济学部门共同完成。它是世界银行为了提供研究成果的开放访问,并为全球发展政策讨论作出贡献而进行的一项更大努力的一部分。政策研究工作论文也在网上发布于http://www.worldbank.org/prwp。作者可以联系hdang@worldbank.org。 没有消费数据的贫困指标估算 : 探索性分析 *Hai - Anh H. Dang , Talip Kilic , Kseniya Abanokova 和 Calogero Carletto 果冻代码 : C15 , I32 , O15 。 1. Introduction 准确的贫困度量是旨在减少贫困政策的基础。然而,发展实践者面临典型的挑战,即用于估算贫困的可用家庭调查数据要么不足(例如,不提供全国代表性估计),要么过时(例如,不提供贫困趋势的及时估计)。更糟糕的是,在少数建立良好调查能力的国家中,由于调查设计的变化,已知数据会表现出不同程度的时间不一致性(Deaton和Kozel, 2005)。这些数据问题可能阻碍有效政策实施,特别是在统计能力较低的较贫穷国家(Devarajan, 2013; Jerven, 2019)。1 为了应对这些挑战,依赖数据插补(而非通过调查直接收集数据)来获得贫困估计的替代方法变得越来越普遍(世界银行,2021;Dang和Lanjouw,2023)。2基于从家庭消费调查推断至人口普查以生成贫困地图的开创性技术(Elbers 等人)et al.,2003 年) ,最近的研究将家庭消费调查归因于另一项调查 , 以提供贫困估计。3The central idea is to build an imputation model using appropriate predictor variables from an existing older consumption survey, which can be subsequently applied to the same variables in a more recent survey (that does not collect consumption data) to provide poverty estimates forthe latter survey. 在 Elbers 上建造et al.`s (2003) 方法,近年来的研究在多个方面进行了创新。这些包括将家庭消费调查数据与不同类型的调查数据相结合(Stifel 和 Christiaensen, 2007;Douidich 等人, 2010)。et al.在2016年(Tarozzi, 2007; Mathiassen, 2009; Dang, Lanjouw, and Serajuddin, 2017),对误差项或标准误的建模技术,以及对调查设计进行实验并选择合适的变量(Kilic and Sohnesen, 2019; Christiaensen, Ligon, and Sohnesen, 2022; Dang)等方面的研究。et al., 近期)。最近,贫困推估被用于为标准家庭调查中通常无法涵盖的难民营体难以统计的难民群体提供估算值(Altındağ et al., 2021;Beltramoet al., 2024 年 ; Dang 和 Verme , 2023 年) 。 在过去的 20 年中 , 进行了一些涉及贫困和中等收入国家的关键研究Rev 从印度 , 约旦和撒哈拉以南非洲国家到越南 , 当et al.即将到来的研究发现,基于推断的贫困估计值在使用实际消费数据的情况下,可以合理地与基于调查的贫困估计值相匹配。进一步分析过去十年中在埃塞俄比亚、马拉维、尼日利亚、坦桑尼亚和越南进行的14轮多主题家庭调查的数据,作者发现,由家庭层面的人口统计学和社会经济变量以及家庭公用事业支出组成的相对简单的推断模型能够提供准确的估计值,在许多情况下,这些估计值甚至在严格的精确性标准范围内,即在真实贫困率的一个标准误差范围内。 这篇论文在关于贫困估计从调查到调查的推断文献中做出了若干新的贡献,既在概念上也体现在经验研究中。在概念层面,我们显著扩展了这一文献领域,涵盖了各种常见的贫困指标,包括但不限于:i) 接近贫困(脆弱性)状态,ii) 极端贫困,iii) 贫困差距,以及iv) 其他福斯特、格雷尔和托尔贝克(FGT)贫困指数。此外,我们还评估了推断消费支出的表现。 将实际 Household 消费数据的分布与这些贫困指标 underlying 的分布进行对比。这些扩展使我们的论文区别于现有文献,后者几乎完全专注于头均贫困率。事实上,据我们所知,这是首次尝试对这些各种贫困指标以及整个消费分布进行全面而系统的分析的研究。 从实证角度出发,为了说明,我们对过去十年在孟加拉国、埃塞俄比亚、马拉维、尼日利亚、坦桑尼亚和越南进行的22轮多主题家庭调查的数据进行了协调和严格分析。这六个国家覆盖了三个地区(即西非、南亚和东南亚)以及不同的收入水平(即低收入到较低中等收入),因此在收入水平、地理差异和人口规模方面比以往的研究更为多样化。据我们所知,我们的研究是首次将调查到调查插补应用于迄今为止分析过的最全面的数据集的应用。因此,我们的发现将为未来的调查到调查插补工作做出有价值的贡献。4 我们发现(插补)模型存在异质性,某些模型在特定贫困指标和消费分布方面表现更好。特别是,有两个模型的表现优于其他模型。其中一个模型包括将食品支出添加到家庭人口统计特征、就业状况和房产资产中(模型3),另一个模型则包括将家庭公用事业消费支出(包括电力、水费和垃圾处理费)添加到家庭人口统计特征和就业状况中(模型9)。模型3在头均贫困、极端贫困、贫困缺口和消费均值方面表现合理。 提高这些指标准确推断的概率约0.3(与仅包含家庭人口统计和就业特征的参考模型相比)。与模型3相比,模型9在贫困人口方面表现稍好,将准确推断概率提高了0.4。此外,模型9还提高了近贫困人口、极端贫困人口、贫困差距以及人均消费的准确推断概率约0.1至0.2。 进一步将农业土壤质量信息加入Model 9中,提高了人口贫困识别的推断准确性(统计显著性也更强),使推断准确性的概率增加了0.5。Model 3和Model 9在推断消费分布方面也表现优于其他模型。 最后,基线调查与目标调查之间较大的时间间隔与较低的插补准确性相关联,但具有更好的模型拟合度(R值)。2) 似乎没有帮助。 本文由六部分组成。在下一节中,我们讨论分析框架,而在第3部分描述数据。接着,在第4部分,我们使用每个国家最新的调查轮次展示主要估计结果,之后汇总所有国家可用的全部调查轮次的结果(第4.1节)。进一步地,我们在第4.2节将分析扩展到更广泛的背景,例如使用对贫困更为敏感的FGT指数和其他整个消费分布的估算,这之前是关于年内插补的更具体应用。我们在第5节提供模型选择的元分析结果,并最终在第6节得出结论。 2. 分析框架 2.1. Imputation Model 一个家庭在包括商品量、耐用消费品和闲暇(或劳动供给)等选择变量在内的收入预算约束下最大化效用。(Deaton and) Muellbauer, 1980)。这导致了常见的做法,即将总家庭消费构建为食品、非食品(包括服装、教育和/or医疗支出)、耐用商品以及住房等不同项目消费的总和(Deaton and Zaidi, 2002)。因此,人均(对数)家庭消费的模型可以表示为以下简化形式的线性模型(用于调查数据):j, for j= 1, 2, ) 通常使用 其中可以包括家庭变量 , 如户主的年龄、性别、教育、 ′ 职业, 种族, 宗教, 和语言 - 可以代表家庭品味。5还可以包括家庭资产或收入, 以及 是误差项 (参见 , 例如 , Elberset al.Ravallion, 2016). , 2003; 我们雇佣当当et al.的 (2017) 方法作为本文的插补工具 , 我们将其简要分解为两个部分 , 描述下一步。为了提高准确性,误差项包括一个聚类随机效应项()和一个特异性误差项()。假设聚类随机效应项与误差项之间不相关。 )其他 , 并遵循正态分布 , 使得 . 以每个为条件 |~ (0 , ) 和 | ~(0 ,) 这个假设后来采用了另一种方法 , 我们使用经验分布 22 错误术语的代替。 . 我们放松 Household 消费(或收入)数据在一个调查中存在但在另一个调查中缺失,因此不失一般性,令调查1和调查2分别代表这两个调查。 有和没有家庭消费数据 , 以及y 1代表调查1中 Household 消费情况。更一般地说,这两项调查可以是在同一时期进行,也可以在不同时期进行。因此,我们的目标是根据调查1中的消费数据推算调查2中缺失的消费数据。only, 以及调查特点x j可用在both请注意,尽管我们确实有调查2的消费数据,但从验证的角度来看,我们假设本次调查周期内没有可用的家庭消费数据。 写出方程 (1) 我们有 方程 (2) 提供了一个标准的线性随机效应模型 , 可以使用大多数 1 1′ 1 1 1可用的统计包。将方程(2)中获得的参数应用于第二次调查中的变量,本次调查估算的家庭消费支出给出为6 而方程(1) 和(2) 也可以指定为简单的 OLS 模型(即 , 具有随机 2 1′ 2 1 1 差 中包含效 的情况下,明确建模随机效 有助于提高 的精度。 估计结果表明,随机效应模型相对于OLS模型的优势在于,前者可以通过额外提供的随机效应信息更好地捕捉集群间的变异。这一作用在我们的估计框架中尤为重要,因 随机效 不 参数 有工具 量的作用。 还有我们对调查 2 中贫困的估计 , 作为预测的一个组成部分估计 𝛽𝛽𝑗𝑗 家庭消费。换句话说 , 调查 2 及其标准错误。 用于对贫困的点估计 我们最感兴趣的是调查 2 的贫困估计 , 那里的消费数据缺失。让z 2是第二阶段的贫困线 ; 如果y 2存在贫困率P 2在此期间可以用以下数量来估计 () (4) whereP(.)是概率 (或贫困) 函数 , 它给出了人口的百分比 2≤ 2在贫困线以下z 2在调查2中,由于贫困与家庭消费呈反向关系(即,较富裕的家庭更不可能