AI智能总结
11110 Paul Andres Corral Rodas 摘要政策研究工作论文11110This paper is a product of the Poverty and Equity Global Department. It is part of a larger effort by the World Bank to向其研究成果提供开放获取,并为全球发展政策讨论做出贡献。政策研究报告工作论文也发布在网站 http://www.worldbank.org/prwp 上。作者可通过以下方式联系我们at pcorralrodas@worldbank.org.政策研究工作论文系列传播研究进展的成果,以鼓励关于发展的思想交流:问题。该系列的目标是迅速发布研究结果,即使演示文稿并未完全完善。这些论文包含:作者姓名,并相应地进行引用。本文表达的研究结果、解释和结论完全是作者的观点。它们不一定代表国际复兴开发银行/世界银行的观点。其附属机构,或世界银行执行董事或其代表政府的机构。本研究探讨了仅使用汇总数据作为协变量的家庭层面模型所估计的小区域贫困率为何会表现出系统性偏差。分析表明,这种偏差源于模型无法捕捉家庭间福利的完整差异,因为它们完全依赖于在家庭层面汇总的协变量。 由研究支持团队制作 在地理层面上。通过基于模型的模拟,该论文表明,当基于模型的模拟福利的经验变异性最接近区域层面福利的真实经验方差时,这些模型中的偏差被最小化。这一发现也对单位层面的模型偏差具有启示意义。 ∗当聚合导致误导:单元级小范围的偏差Estimates of贫困具有综合数据Paul Andres Corral Rodas世界银行集团——贫困与平等全球实践(pcorralrodas@worldbank.org)。作者感谢世界银行的资金支持。特别感谢卡洛斯·罗德里格斯-卡斯特利亚诺、亚历克桑德鲁·科约卡鲁、塔拉·维什瓦南特和伊莎贝尔·莫利纳对早期草稿提出的评论。本论文中提出的成果的完整复制包可在以下网址找到:https://github.com/pcorralrodas/UC_source_of_bias关键词:小区域估计;贫困地图绘制;卫星图像;人口普查;官方统计数据JEL分类:C13; C55; C87; C15 1 简介尽管单位情境模型具有吸引力,但由于该方法会导致有偏估计,因此已被弃用。Corral等人(2022年)表明,该方法无法完全复制福利分配,从而导致有偏估计。有关导致偏误的实例,请参见Edochie等人(2024年)的研究。在该研究中,作者呈现了代表性地理层面的汇总估计值,并且很明显,在许多地区,与直接估计值相比,差异是显著的(参见Edochie等人(2024年)的图7至图9)。此外,可以看出,大多数估计值都落在45度线上方,这表明大多数基于模型的技术可分为两大类:单元级模型和区域级模型。单元级模型通常在可获得单个单位(如家庭)的数据时应用,而区域级模型则用于当仅能获取特定地理区域(如区域均值)的汇总数据时,正如Fay和Herriot(1979)所描述的那样。在贫困估算中,单元级模型首先预测福利分布,然后应用一个阈值来确定低于该阈值的人口比例。相比之下,区域级模型直接估计一个地区的贫困率。对分项统计的需求增加,从而提升了对间接技术的依赖,这些技术整合来自人口普查、登记册或更大规模调查的补充数据。这些方法用于为细颗粒度人口生成足够精确的统计数据。小区域估计涵盖了一系列旨在提高估计精确度的统计技术,这些技术通常应用于家庭调查样本量不足以满足所需精度水平的情况。在这些技术中,基于模型的方法通过利用来自大型数据集或辅助信息的“借用力量”概念而尤为突出。这些方法使用建立区域间关系(例如回归技术)的模型,从而能够创建间接估计量(Molina and Rao 2010)。单元级模型在调查和普查数据来自不同年份时面临限制——这在普查和调查开展频率较低的发展中国家是一个常见问题。然而,区域级模型提供了可行的替代方案。这些模型依赖线性函数形式,仅使用感兴趣地理实体的汇总数据来进行估计和预测(Fay and Herriot (1979);Torabi and Rao (2014))。另一种方法,单元-情境模型,采用一个估计阶段,将家庭层面的指标建模为区域层面特征的线性函数(Nguyen (2012);Lange et al. (2018);Masaki et al. (2020))。单元-情境模型与单元级模型类似,先预测福利分布,然后应用阈值确定低于该阈值的人口比例,但仅使用区域层面特征进行此操作。针对衡量人口生活水平的家庭调查,通常在广泛地区或特定人口统计数据之外缺乏代表性。此外,这些调查中存在许多相关地点或群体被遗漏的风险。然而,关于贫困的详细信息对于有效配置资源以缓解贫困至关重要。 2 32 小区域估计此处研究的偏差与单元-情境模型的解释能力不足有关,并与Würz等(2022)所提及的偏差相关。由于单元-情境方法仅将家庭层面的福利建模为区域层面协变量的线性函数,因此无法充分解释家庭间福利的差异性。此处进行的模拟表明,预测福利的方差与区域真实福利方差相一致的地区,在整个福利分布中表现出最低的偏差。这表明,在单元级和单元-情境模型下,区域层面的偏差是因变量均值和线性拟合的经验方差所决定的。因变量受益于EB方法的应用,但经验方差完全取决于手头辅助数据的可用性及其与各区域人口的契合程度。一个关键问题是单元-上下文模型中的偏差来源是什么。在本篇笔记中,采用Corral等人(2022)实施的模拟来研究该方法的偏差来源。这里研究的偏差超越了Corral等人(2021)指出的方法潜在偏差,该偏差与抽样问题相关。相反,本文指出的偏差与Würz等人(2022)注意到的转换偏差有关。这些作者试图解决Nguyen(2012)、Lange等人(2018)和Masaki等人(2020)同样提到的问题,即缺乏辅助微数据并依赖总体层面的辅助信息。Würz等人(2022)指出,依靠总体层数据来模拟家庭层面的福利会导致反向转换产生的一阶偏差以及使用总体数据产生的二阶偏差。他们指出,使用总体均值作为协变量而非个体值会由于反向转换函数的凸性引入额外的偏差。本文所述的基于小区域估计模型依赖于一个假设模型。用于小区域估计的嵌套误差模型最初由Battese等人(1988年)提出,旨在为美国爱荷华州的县级玉米和大豆作物面积进行估计。在贫困和福利估计方面,Molina和Rao(2010年)以及Elbers等人(2003年)假设转换后的福利y对于每个家庭h在每个地点内a inah人口与1呈线性关系。× K特征向量(或关联因素)x for thatah估计值存在向上的偏差。使用真实世界数据,其中样本采集遵循发展中国家实施的方法,CorralRodas等人(2023年)提供了关于单元-背景模型如何产生贫困估计偏差的证据,并表明单元-背景模型的噪声和偏差远大于区域层面模型产生的噪声和偏差。该笔记继续介绍了单元级小区域估计的假定模型,并讨论了未考虑方差导致贫困估计产生偏差的原因。模拟数据的创建方法得到说明,随后是结果。最后,呈现了结论。 1模型的经验最佳(EB)区域效应是根据以下内容估计的:y = x β + η + e , h = 1,...,N , a = 1, . . . , A, a a ah ah ah在区域 a 中,x ¯ 和 y ¯ 分别是 x 和 y 的样本均值。a a该区域效应的方差由(Molina and Rao, 2010)给出:为简化起见yah被视为福利的转化。最常见的转化应用是自然。对数。一个主要假设是误差呈正态分布。这一假设意味着,在给定观测特征的情况下,模型的误差呈正态分布。为获得估计值,第一步是通过任何提供一致性估计量(consistent estimators)的方法,将式1中的模型拟合到观测样本数据上。在此方法下,常用的拟合方法包括基于正态似然的极大似然(ML)或限制极大似然(REML),以及不指定分布的H3方法。这会得到参数估计向量:where the variancesσ2andσ2are unknown. Here,A is the number of locations in which theηepopulation is divided andN是位于该地点的家庭数量a, fora= 1,...,A, 和n isaa来自该地区的样本量a. 最后,βis theK ×1 个回归系数向量。利用公式1的模型估计参数,可以计算出y对于人口普查数据中的每个家庭:ahwhereηande分别是位置和家庭特有的特殊误差,假定aah保持相互独立,遵循:whereεis drawn fromε∗∼ N(0, σ2(1− γ) +σ2). 这个蒙特卡洛程序通常会被重复进行aηeah100倍以从每个模拟种群中导出指标,然后取平均值。家庭,根据嵌套误差模型:1 42σˆ ˆγˆy¯−ηx¯β , γˆ =a aa aσˆ2+ ˆσ2/naηevar [η |y¯ ] =σ2(1− γ)a aaηiidiidη ∼ N0, σ2, e ∼ N 0, σaahηeˆˆθ=β,σˆ2,σˆ2.η eˆˆy∗+ ˆ=y x β εβ γx¯−¯+∗ aaaahahah 5贫困地区层面估计值的偏差将由真实值之间的差异决定。S2and the simulatedS2∗. 如果我们假设某个特定因变量的情况是简化的yyaa该区域遵循对数正态分布。那么在给定阈值下,该区域模拟的贫困率。z) 在假设下是:ˆ任何家庭h in areaa完全依赖于其预期的福利。x β,其特有误差,hˆe(0ˆ , 和预测的区域效应γˆy¯− x¯βwhich are assumed to followe ∼ N , σ2) 和aaahheη ∼ N γ(¯y − x¯β), σ2(1− γ), 分别。经验最佳估计概率为aa a a aη家庭贫困的情况由以下给出:ˆˆwherez是转变后的贫困阈值和yˆ =x β+ ˆγ y¯− x¯β. 贫困率a aa 0ahah该区域的贫困发生率由各户的平均概率给出。2在一个给定的区域内,唯一在不同家庭之间变化的是协变量。单元上下文模型是对方程1所假设的潜在数据生成过程的近似。该模型最初由Nguyen (2012)引入,随后由Lange等人 (2018)重新引入,并由Masaki等人 (2020)进行修改。单元上下文模型被定义为仅使用区域和子区域级特征来建模家庭层面的福利的模型。Masaki等人 (2020)建议在假设模型下,人口中模拟福利的变化 (S2∗) 在给定区域ya是两个部分的和:1) 被解释部分的变异性,S2∗1(ˆy − y¯∗)2ah ahyˆNaa,以及2)模拟误差的变异性P1ε∗2:h ahNa推导最终EB估计。注意模拟向量中的情况。x yβ¯does not+ ˆγ¯− x βaaaahvary across simulations, onlyε∗在不同模拟向量间有所不同。ahSy2a∗=Sy2a∗=Sy2a∗=Sy2a∗=1P(y∗− y¯∗)2Nah ah a1P(ˆy+ε∗− y¯∗)2Nah ah ah a1Pyˆ2+ε∗2+ ¯y2∗+ 2ˆy ε∗−2ˆy y¯∗−2¯yNah ah ah aah ahah aa ah1 lnz − y¯aF GT∗= Φ q0aS2∗ ya z − yˆahP rob poor= Φ haqσˆ2(1− γˆ ) + ˆσaeη因此,特定地区的贫困率是一个函数。y¯ andSaya2传统上,该过程如上所述通过蒙特卡洛模拟进行近似。 =P 22∗. ∗ε∗ (3) (4)6y = z α + t ω + g λ + η + ε sac sa s sa sach sach单位-上下文模型的一个关键特征是线性拟合仅解释了因变量的总方差中相对较小的一部分(y), 与决定系数(R 2) 其值