您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[世界银行]:当汇总误导时:用汇总数据进行单位级小面积贫困估计的偏差 - 发现报告

当汇总误导时:用汇总数据进行单位级小面积贫困估计的偏差

建筑建材2025-05-01世界银行玉***
AI智能总结
查看更多
当汇总误导时:用汇总数据进行单位级小面积贫困估计的偏差

11110 Paul Andres Corral Rodas 摘要政策研究工作论文11110This paper is a product of the Poverty and Equity Global Department. It is part of a larger effort by the World Bank to提供其研究成果的开放获取,并为全球发展政策讨论做出贡献。政策研究报告工作论文也发布在网站 http://www.worldbank.org/prwp 上。作者可通过电子邮件联系。at pcorralrodas@worldbank.org.政策研究工作论文系列发布正在进行的研究的成果,以促进关于发展的思想交流。问题。该系列的目标是快速发布研究成果,即使演示文稿尚未完全完善。论文包含:作者的名字应予以引用。本文所表达的调查结果、解释和结论完全是来自作者们。它们不一定代表国际复兴开发银行/世界银行的看法。其附属机构,或世界银行执行董事或其代表政府的机构。本文探讨了仅使用汇总数据作为协变量的户层面模型估算的小区域贫困估计为何存在系统性偏差。分析表明,这种偏差源于模型无法捕捉福利方面完整的户间差异,因为它们完全依赖在 在地理层面上。通过基于模型的模拟,该论文表明,当模型模拟的福利经验变异度与区域层面的福利真实经验方差最接近时,这些模型中的偏差最小。这一发现也对单元级模型的偏差具有启示意义。 由研究支持团队制作 ∗当聚合具有误导性时:单元级小区域中的偏差估测贫困具有汇总数据Paul Andres Corral Rodas世界银行集团——减贫与平等全球实践(pcorralrodas@worldbank.org)。作者感谢世界银行的资金支持。特别感谢卡洛斯·罗德里格斯-卡斯特兰、亚历山德鲁·科约卡鲁、塔拉·维什瓦纳特和伊莎贝尔·莫利纳对早期草稿的评论。本论文中呈现的结果的完整复制包可在以下链接找到:https://github.com/pcorralrodas/UC_source_of_bias关键词:小范围估计;贫困地图;卫星图像;人口普查;官方统计数据JEL分类:C13; C55; C87; C15 1 引言尽管单元上下文模型颇具吸引力,但由于该方法会导致估计结果存在偏差,因此已被摒弃。Corral等人(2022)表明,该方法无法完全复制福利分配情况,从而导致了偏差估计。关于由此产生的偏差的一个实际例子,参见Edochie等人(2024)的研究。在该工作中,作者呈现了在代表性地理层面的汇总估计,并且很明显,在许多地区,与直接估计相比,差异是显著的(参见Edochie等人(2024)中的图7至图9)。此外,可以看出,大多数估计值位于45度线的上方,表明大多数基于模型的技巧可分为两大类:单元级模型和区域级模型。单元级模型通常在可获得个体单元(例如:家庭)数据时应用,而区域级模型则用于当仅能获取特定地理区域(例如:区域均值)的汇总数据时,如Fay和Herriot(1979)所述。在贫困估算中,单元级模型首先预测福利分布,然后应用一个阈值来判定低于该阈值的人口比例。相比之下,区域级模型直接估计一个区域的贫困率。对汇总统计的需求增加,导致人们依赖间接技术,这些技术整合来自普查、登记册或更大规模调查的补充数据。这些方法用于为细粒度人口生成足够精确的统计数据。小区域估计涵盖了一系列旨在增强估计精度的统计技术,当家庭调查缺乏达到所需精度水平所需的样本量时,这些技术尤为适用。在这些技术中,基于模型的方法因利用来自更大数据集或辅助信息中的“借用强度”概念而脱颖而出。这些方法使用建立区域之间关系的模型(例如回归技术),从而能够创建间接估计器(Molina and Rao 2010)。单元级模型在调查和普查数据来自不同年份时面临局限——这在普查和调查开展频率较低的发达国家是一个常见问题。然而,区域级模型提供了一个可行的替代方案。这些模型基于线性函数形式,仅使用目标地理实体的汇总数据来进行估计和预测(Fay和Herriot(1979);Torabi和Rao(2014))。另一种方法是基于单元-背景的模型,该模型采用估计阶段,将家庭层面的指标建模为区域层面特征的一个线性函数(Nguyen(2012);Lange等人(2018);Masaki等人(2020))。与单元级模型类似,基于单元-背景的模型首先预测福利分布,然后应用一个阈值来确定低于该阈值的人口比例,但仅使用区域层面特征来实现这一过程。针对衡量人口生活水平的家庭调查,通常在更广泛的区域或特定的群体统计方面缺乏代表性。此外,这些调查中存在许多相关地点或群体被遗漏的风险。然而,关于贫困的详细信息对于有效地将资源用于缓解贫困至关重要。 2 32 小区域估计此处研究的研究偏差与单元-情境模型的解释力不足有关,并关联到Würz等人(2022年)所指出的偏差。由于单元-情境方法仅将家庭层面的福利建模为区域层面协变量的线性函数,因此它们无法充分解释家庭间的福利差异。本研究所进行的模拟表明,预测福利的方差与区域真实福利方差相一致的区域,在整个福利分布中表现出最低的偏差。这表明在单元层面和单元-情境模型下,区域层面的偏差是因变量均值和线性拟合的经验方差函数。因变量受益于EB方法的使用,但经验方差完全取决于现有辅助数据及其与各区域人口的契合程度。一个关键问题是单元上下文模型中的偏差来源。在本笔记中,采用Corral等人(2022)实施的模拟来研究该方法的偏差来源。此处研究的偏差超越了Corral等人(2021)指出方法的潜在偏差,该偏差与抽样问题相关。相反,本文所述的偏差与Würz等人(2022)指出的转换偏差相关。这些作者试图解决Nguyen(2012)、Lange等人(2018)和Masaki等人(2020)所遇到的问题,即缺乏辅助微观数据而依赖总体层级辅助信息。Würz等人(2022)指出,依赖总体层级数据来模拟家庭层级福利会导致由反向转换产生的一阶偏差以及由使用总体数据产生的二阶偏差。他们指出,使用总体均值作为协变量而不是个体值会因反向转换函数的凸性引入额外的偏差。本文所述的小区域估计模型依赖于一个假定的模型。用于小区域估计的嵌套误差模型最初由Battese等人(1988年)提出,旨在为美国爱荷华州的县级玉米和大豆种植面积进行估算。在贫困和福利的估计中,Molina和Rao(2010年)以及Elbers等人(2003年)假设福利y对于每个家庭h在每个地点内a inah人口与1呈线性关系。× K特征向量(或相关因素)x for thatah估计值存在向上偏差。使用真实世界数据,其中样本按照发展中国家实施的方法进行采集,Corral Rodas等人(2023)提供了证据,说明单元-情境模型如何产生有偏的贫困估计,并指出单元-情境模型的噪声和偏差远大于区域层面模型产生的噪声和偏差。该注释继续介绍了用于单级行小区域估计的假设模型,并讨论了未考虑方差为何会导致贫困估计产生偏差。创建了模拟数据的方法进行了说明,随后是结果。最后,呈现了结论。 1模型的经验最优(EB)区域效应是从以下方面估计的:y = x β + η + e , h = 1,...,N , a = 1, . . . , A, a a ah ah ah其中 x ¯ 和 y ¯ 分别是 x 和 y 在区域 a 中的样本均值。a a该区域效应的方差由(Molina and Rao, 2010)给出:为简化起见yah被认为是转变后的福利。最常见的转变应用是自然对数。一个主要假设是误差服从正态分布。该假设意味着,在给定观测特征的情况下,模型的误差服从正态分布。为获得估计值,第一步是通过任何提供一致性估计量的方法将公式1所示的模型拟合到观测样本数据。在此方法下常用的拟合方法包括基于正态似然的最大似然(ML)或限制性最大似然(REML),以及不指定分布的H3方法。由此得到参数估计向量:where the variancesσ2andσ2are unknown. Here,A is the number of locations in which theηe人口分裂且N是位于该地区住户的数量a, fora= 1,...,A,和n isaa来自该地区样本量a. 最后,βis theK ×1 个回归系数向量。利用方程式1的模型估算参数,可以得出一个值y对于人口普查数据中的每个家庭:ahwhereηande分别代表位置和家庭特有的特定误差,假定aah相互独立,遵循:whereεis drawn fromε∗∼ N(0, σ2(1− γ) +σ2). 这个蒙特卡洛程序通常会被重复进行。aηeah100倍,以便从每个模拟群体中导出指标,然后进行平均。家庭,根据嵌套误差模型:1 42σˆ ˆγˆy¯−ηx¯β , γˆ =a aa aσˆ2+ ˆσ2/naηevar [η |y¯ ] =σ2(1− γ)a aaηiidiidη ∼ N0, σ2, e ∼ N 0, σaahηeˆˆθ=β,σˆ2,σˆ2.η eˆˆy∗+ ˆ=y x β εβ γx¯−¯+∗ aaaahahah 5地区层面贫困估计的偏差将取决于真实值之间的差异S2and the simulatedS2∗如果我们假设某一特定因变量的情况简化了,yyaa该区域遵循对数正态分布。然后,在给定阈值下,该区域模拟的贫困率如下(lnz) 在假设下是:ˆ任何家庭h in areaa完全取决于其预期的福利。x β,其特殊错误,hˆe(0ˆ , 和预测的面积效应γˆy¯− x¯βwhich are assumed to followe ∼ N , σ2) 和aaahheη ∼ N γ(¯y − x¯β), σ2(1− γ) , 分别。经验最佳估计概率为aa a a aη家庭贫困由以下给出:ˆˆwherez是转变后的贫困阈值和yˆ =x β+ ˆγ y¯− x¯β贫困率a aa 0ahah该地区的贫困发生率由家庭贫困概率的平均值给出。2在给定区域内,各家庭之间变化的唯一因素是协变量。单元上下文模型是对方程1所假定的潜在数据生成过程的一种近似。最初由Nguyen(2012)引入,然后由Lange等人(2018)重新引入并由Masaki等人(2020)进行修改。单元上下文模型被定义为仅使用区域和子区域特征来建模家庭层面的福利的模型。Masaki等人(2020)建议在假设模型下,人口中模拟福利的变动(S2∗) 在特定领域ya是两个部分的和:1) 被解释部分的变异性S2∗=P1(ˆy − y¯∗)2ah ahyˆNaa和 2) 模拟误差的变异性P1ε∗2:h ahNa推导最终的EB估计。注意在模拟向量中如何进行。x yβ¯does not+ ˆγ¯− x βaaaahvary across simulations, onlyε∗在不同模拟向量间变化。ahSy2a∗=Sy2a∗=Sy2a∗=Sy2a∗=1P(y∗− y¯∗)2Nah ah a1P(ˆy+ε∗− y¯∗)2Nah ah ah a1Pyˆ2+ε∗2+ ¯y2∗+ 2ˆy ε∗−2ˆy y¯∗−2¯yNah ah ah aah ahah aa ah1lnz − y¯aF GT∗= Φq0aS2* yaz − yˆahP rob poor= Φhaqσˆ2(1− γˆ ) + ˆσ2aeη因此,特定地区的贫困率是一个函数。y¯ andS2∗.aya2传统上,该过程如上所述通过蒙特卡洛模拟进行近似。 ∗ε∗ (3) (4)6y = z α + t ω + g λ + η + ε sac sa s sa sach sach单位-上下文模型的一个关键特征是线性拟合仅解释了因变量总变异的一小部分 (y), 以确定系数(R 2) 它通常远低于包含家庭层面协变量的模型,并且在大多数情况下介于0.15和0.25之间。定义S作为样本因变量的标准差,y决定系数R 2,is given by:在模拟国家层面的因变量向量时,因变量的经验