11110 当聚合具有误导性 在贫困的单元级小区域估计中的偏差with Aggregate Data Paul Andres Corral Rodas 政策研究工作论文11110 摘要 在地理层面上。通过基于模型的模拟,该论文表明,当模型模拟的福利经验变异度最接近区域层面的福利真实经验方差时,这些模型中的偏差最小。这一发现也对单元层面的模型偏差具有启示意义。 本文探讨为何仅使用汇总数据作为协变量的家庭层面模型所产生的小区域贫困估计值存在系统性偏差。分析表明,这种偏差源于模型无法捕捉家庭间福利的完整变异,因为它们完全依赖于在家庭层面汇总的协变量, 当聚合具有误导性时:单元级小区域中的偏差估计贫困with Aggregate Data ∗Paul Andres Corral Rodas 1 引言 针对衡量人口生活水平的家庭调查,通常缺乏超出广泛区域或特定人口统计特征之外的代表性。此外,这些调查存在许多相关地点或群体被遗漏的风险。然而,关于贫困的详细信息对于有效地将资源集中于缓解贫困至关重要。 对分类统计的需求增加,从而更依赖间接技术,这些技术整合来自人口普查、登记册或更大规模调查的补充数据。这些方法用于为颗粒度较高的群体生成足够精确的统计数据。小区域估计涵盖了一系列旨在提升估计精度的统计技术,此时家庭调查因缺乏实现预期准确性所需样本量而不足。在这些技术中,基于模型的方法尤为突出,其利用“借用力量”的概念,从大数据集或辅助信息中获取支持。这些方法使用模型建立跨区域的联系(例如回归技术),从而创建间接估计量(Molina and Rao 2010)。 大多数基于模型的技巧可分为两大类:单元级模型和区域级模型。单元级模型通常在可获得个体单元(如家庭)数据时应用,而区域级模型则用于仅在特定地理区域(如区域均值)的汇总数据可获取时使用,正如Fay和Herriot(1979)所描述的那样。在贫困估计中,单元级模型首先预测福利分布,然后应用阈值来确定低于该阈值的人口比例。相比之下,区域级模型直接估计某一区域的贫困率。 单元级模型在调查和普查数据来自不同年份时面临局限——这在普查和调查开展频率较低的发展中国家是一个常见问题。然而,区域级模型提供了一种可行的替代方案。这些模型依赖线性函数形式,仅使用目标地理实体的汇总数据来进行估计和预测(Fay和Herriot (1979);Torabi和Rao (2014))。另一种方法——单元-情境模型,采用一个估计阶段,其中家庭层面的指标被建模为区域层面特征的线性函数(Nguyen (2012);Lange等人 (2018);Masaki等人 (2020))。单元-情境模型与单元级模型类似,先预测福利分布,然后应用一个阈值来确定低于该阈值的人口比例,但仅使用区域层面特征来完成这一过程。 尽管单元上下文模型颇具吸引力,但由于该方法会导致存在偏误的估计,因此已被弃用。Corral等人(2022)表明该方法无法完全复制福利分布,从而造成存在偏误的估计。关于由此产生的偏误的实例,参见Edochie等人(2024)的研究。在该研究中,作者呈现了地理代表性层面的汇总估计,很明显,在许多地区,与直接估计相比,差异相当显著(参见Edochie等人(2024)中的图7至图9)。此外,可以观察到,大多数估计值均高于45度线,表明 估计值存在向上偏差。使用真实世界数据,其中样本按照发展中国家实施的方法进行采集,Corral Rodas等人(2023)提供了证据,表明单元-情境模型如何产生有偏的贫困估计值,并且单元-情境模型的噪声和偏差远大于区域层面模型产生的噪声和偏差。 一个关键问题是单元-上下文模型中的偏差来源。在此笔记中,使用 Corral 等人(2022)实施的模拟来研究该方法的偏差来源。此处研究的偏差超出了 Corral 等人(2021)指出的该方法的潜在偏差,该偏差与抽样问题相关。相反,本文指出的偏差与 Würz 等人(2022)注意到的转换偏差相关。这些作者试图解决与 Nguyen(2012)、Lange 等人(2018)和 Masaki 等人(2020)相同的问题,即没有辅助微观数据并依赖总体层面的辅助信息。Würz 等人(2022)指出,使用总体层数据对家庭福利进行建模会导致反向转换的第一阶偏差和使用总体数据的第二阶偏差。他们指出,使用总体均值作为协变量而不是个体值,由于反向转换函数的凸性,会导致额外的偏差。 此处研究的偏差与单元-上下文模型的解释能力不足有关,并与Würz等人(2022年)所提及的偏差相关。由于单元-上下文方法仅将家庭层面的福利建模为区域层面协变量的线性函数,因此无法充分解释不同家庭之间的福利差异。此处进行的模拟表明,预测福利的方差与区域真实福利方差相一致的区域,在整个福利分布中表现出最低的偏差。这表明在单元层面和单元-上下文模型下,区域层面的偏差是因变量均值和线性拟合的经验方差函数。因变量受益于EB方法的应用,但经验方差完全取决于所采用的辅助数据及其与各区域人口的对齐程度。 该注释继续介绍了用于单元级小区域估计的假设模型,并讨论了为何未考虑方差会导致贫困估计的偏差。创建了模拟数据的方法进行了说明,随后是结果。最后,提出了结论。 2 小区域估计 本文所述的小区估计算法依赖于一个假设模型。用于小区估算的嵌套误差模型最初由Battese等人(1988)提出,旨在为美国爱荷华州的县级行政单位提供玉米和大豆作物种植面积估算。在贫困与福利的估算中,Molina和Rao(2010年)以及Elbers等人(2003年)假设福利y对于每个家庭h在每个地点内a inah 人口与1呈线性关系。× K特征向量(或相关因素)x for thatah 家庭,根据嵌套误差模型:1 whereηande分别是位置和家庭特定的特殊错误,假定a 相互独立,遵循: where the variancesσ2andσ2are unknown. Here,A is the number of locations in which theηeahηe population is divided andN是该地区家庭数量。a, fora= 1:,...,A,和n is 一个主要假设是误差服从正态分布。该假设意味着,在给定观测特征的情况下,模型的误差服从aa来自该地区的样本量a最后,βis theK ×1个回归系数向量。 正态分布。为获得估计值,第一步是通过任何提供一致估计量的方法,将等式1中的模型拟合到观测样本数据。在此方法下常用的拟合方法有最大似然法(ML)或限制最大似然法(REML),两者均基于正态似然,还有H3方法,该方法不指定分布。由此得到参数估计量向量: 该模型的经验最佳(EB)区域效应是根据以下方式估计的:η e 其中 x ¯ 和 y ¯ 分别是区域 a 中 x 和 y 的样本均值。a a区域效应的方差由(Molina and Rao, 2010)给出:a aa aσˆ2+ ˆσ2/naηe 利用等式1模型估计的参数,可以计算出一个值y对于人口普查数据中的每个家庭:aha aaη 1For simplicityyah被视为转变后的福利。最常用的转变是自然的whereεis drawn fromε∗∼ N(0, σ2(1− γ) +σ2). 这个蒙特卡洛程序通常会被重复进行。aηeˆy∗+ ˆ=y x β εβ γx¯−¯+ 对数。ah∗ aaa 100倍以从每个模拟种群中得出指标,然后进行平均。ah ˆ推导最终EB估计。注意在模拟向量中x yβ¯does not ˆ , 和预测的区域效应γˆy¯− x¯βwhich are assumed to followe ∼ N , σ2) 和aaaah 家庭贫困的情况表现为:wherez是转换后的贫困阈值和yˆ =x β+ ˆγ y¯− x¯β贫困率a aa 0eη ahah该区域的贫困概率平均值由各户家庭的贫困概率给出。2在给定的区域内,不同家庭之间变动的 唯一因素是协变量。在所假设的模型下,模拟人口中福利变化的差异(S2∗)在一个特定区域ya 是两个部分的总和:1) 被解释部分的变异性,S2∗=P1(ˆy − y¯∗)2 ,以及2) 模拟误差的变异性P1ε∗2:=S The bias of poverty estimates at the area level will be determined by differences between the trueS2and the simulatedS2∗如果我们假设给定的因变量是简化的,那么这就更容易理解。yh ahNay2a∗=Sy (3)a该区域遵循对数正态分布。然后,在给定阈值下,给定区域的模拟贫困率z) under the assumption is:=Sy2 单元上下文模型是对方程1所假设的基础数据生成过程的近似。该模型最初由Nguyen (2012)引入1P(y∗− y¯∗)2NaF GT∗= Φ q因此,特定地区的贫困率是一个函数。y¯ andS2∗.ay ,随后由Lange等人 (2018)重新引入,并由Masaki等人 (2020)进行修改。单元上下文模型被定义为仅使用区域和子区域水平特征对家庭层面福利进行建模的模型。Masaki等人 (2020)建议h ah a1P(ˆy+ε∗− y¯∗)2N0aS2∗ yaa P \u0000yˆ2+ε∗2+ ¯y2∗+ 2ˆy ε∗−2ˆy y¯∗−2¯y2传统上,此过程如上所述,通过蒙特卡洛模拟进行近似。 应该包含能够解释低于我们所要估算贫困地理层级的地区差异特征。一个可能的单元-情境模型如下: wheres is used for an aggregation level that is over the target areas (a super-area) andc用于子区域,例如嵌套在区域内的集群。a. 因此,z包含子区域层面的特征,sac t包括地区层面的特征和g由超区域级特征构成(这些特征sas 可能包括超区域固定效应)。这些层面的回归系数分别表示。α, ωandλ随机效应,η, 在该模型中以区域级别被指定。sa 与式1相同。请注意,在此模型中,在协变量集中,没有一个处于单位层面;协变量仅在子区域 层面及更高层面发生变化。 单元上下文模型的一个关键特征是线性拟合仅解释了因变量的总变异的一小部分(y), with a coefficient of determination (R 2()这通常远低于包括家庭层面协变量的模型,并且在大多数情况下介于0.15和0.25之间。定义S作为样本因变量的标准差,y 决定系数R 2,is given by: 因此,由于单元上下文模型仅依赖区域层面的协变量,因此其解释力较低,如果σˆ2is the unit-context model estimate ofσ2,和σˆ2is the unit-contextηηeucuc模型估算的σ2, 则: e The lowerR 2单位情境模型意味着,所解释的福利部分低于真实解释的福利部分。ηeηeucuc 在模拟国家层面的因变量向量时,因变量的经验标准差在单元级和单元情境模型下均得到近似。然而,由于模型设定不当,在单元情境模型下,区域层面的经验标准差没有得到正确近似。因此,在单元情境模型下创建模拟福利向量时,区域人口中模拟福利的差异S2∗) 将不会与真实总体相匹配。根据公式4,我们知道:y a 此外,鉴于模型拟合度差,我们也知道:XX>ε .ε 因此,在单元上下文模型下,某些领域将有一个值。S2∗that is larger than that ofyatrue DGP and some will have a smaller or equal value ofS2∗. 这个结果,结合公式3,yaimplies that the bias of