您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[世界银行]:地方福利的非正态经验贝叶斯预测(英) - 发现报告

地方福利的非正态经验贝叶斯预测(英)

房地产2025-05-13世界银行灰***
地方福利的非正态经验贝叶斯预测(英)

政策研究工作文件 11107 信息信公息信开公息信授开公息权授开公权授开 非正态经验贝叶斯局部福利预测 克里斯·艾尔伯斯雷恩·范德维德 发展经济学发展研究组2025年4月 政策研究工作论文11107 摘要 从16个不同国家的142个家庭调查中,基于家庭收入和消费回归模型(这些模型是贫困地图的基础)得出的关于地区和家庭特有误差分布的估计,表明与正态性存在显著偏离。在经验最佳估计中考虑非正态性 当地福利被发现相对于正常-经验最优估计提高了精度。尽管精度提升在有意义和边缘之间变化,但总是正值。鉴于非正常-经验最优估计易于实现,使用它没有任何坏处。 本文是发展经济学发展研究小组的产品。它是世界银行更大规模的提供其研究公开访问并贡献于全球发展政策讨论工作的组成部分。政策研究工作文件也发布在http://www.worldbank.org/prwp上。作者可以通过rvanderweide@worldbank.org联系。 政策研究工作报告系列传播研究进展的成果,以鼓励关于发展问题的思想交流。该系列的目的是尽快发布研究成果,即使报告的表述不够完善。论文应注明作者姓名,并应相应引用。本文中表达的观点、解释和结论完全是作者的观点。它们不一定代表国际复兴开发银行/世界银行及其附属机构、世界银行执行董事或他们所代表的政府的观点。 由研究支持团队制作 非正态经验贝叶斯局部福利预测 ChrisElbers和RoyvanderWeide * * 克里斯·埃尔伯斯(c.t.m.elbers@vu.nl)就职于阿姆斯特丹自由大学和廷伯根研究所。罗伊·范德韦德(rvanderweide@worldbank.org)就职于世界银行。我们衷心感谢阿姆斯特丹自由大学和世界银行的“变革知识计划”(KCPII)提供的资金支持。同时 ,我们也感谢斯蒂芬·哈斯利特、彼得·兰若、伊莎贝尔·莫利纳和大卫·纽豪斯对本文早期版本的评论。 1引言 埃尔伯斯等人(2003年;以下简称ELL)普及了小区域贫困和不平等的估计,也称为“贫困地图”。 1 这里的贫困是指收入或消费低于给定贫困线的人口比例。收集家庭收入和消费数据成本高昂。这对于大部分收入并非来自工资就业的发展中国家尤其如此。因此,收入和消费数据通常只能以家庭收入和消费支出调查的形式获得。这些调查的样本量足以估算国家和可能的地级福利,但太小以至于无法估算小地区的福利。这里的小地区指的是低于省级的行政区域,例如区级,甚至可能是市级。 在小区域层面估算贫困是通过结合家庭调查数据与单位记录人口普查数据来实现的。 2 人口普查有关于人口统计、教育、就业和住房等变量的数据,这些变量作为家庭收入的预测指标,但本身并不包含家庭收入变量。关键在于,这些预测指标的数据也由收入调查收集。收入调查用于训练一个家庭收入模型,该模型随后用于预测人口普查中每个家庭的家庭收入。这些预测的收入可以随后被汇总 ,以获得小区域贫困水平的估计。这种方法已被应用于获得全球60多个国家的贫困地图。有关小区域估计的文献综述,例如参见Haslett(2013,2016)、RaoandMolina(2015)、Tzavidisetal.(2018)、DasandHaslett(2019)以及Corraletal.(2020)。 为了适应误差的空间相关性,假设了一个嵌套误差结构,其中总误差是特定家庭误差和位置误差的和。位置误差通常在小区域层面进行建模。对抽样家庭观察到的总误差显然包含了区域随机效应的信息。经验贝叶斯(EB)估计,也称为经验最佳估计,利用这一点进行预测,即它使用调查中观察到的残差来预测抽样小区域的位置效应,这些效应反过来又用于预测当地贫困率。 计算条件分布(在观测残差条件下的位置误差)需要做出分布假设。在EB文献中,这是标准的做法。 1 首次使用汇总数据在小区域层面上估算贫困的努力,追溯到菲和赫里奥特(1979)的开创性工作。 2 人口普查为国家提供全面覆盖,收集的住户和个人属性往往能高度预测住户福祉,想想住户构成、教育、就业和住房特征,使其成为贫困制图的理想数据来源。另一个同样为国家提供全面覆盖的数据来源是遥感数据,想想夜间灯光、人口密度、土地类型和利用、绿化和当地气候与污染变量。在这种情况下,可以将这些数据与住户调查连接起来的观察单位是村庄层面而非住户层面。关于探索使用遥感数据获得小区域贫困估计的研究,例如,参见Burke等人(2021)、Chi等人(2022)、Engstrom等人(2022)、Jean等人(2016)、Merfeld和Newhouse(2023)、Newhouse等人(2022)、Newhouse(2023)、Pokhriyal和Jacques(2017)、VanderWeide等人(2024)以及其中的参考文献。研究在使用的影像分辨率上各不相同,更高分辨率的影像允许从中提取更丰富的预测变量(例如,参见Marx等人,2019)。 估计假设误差服从正态分布,在这种情况下,条件分布也✁正态✁(参见Molina和Rao,2010年)。然而,假设正态分布并非没有成本。由于贫困和不平等✁家庭消费✁非线性函数(进而也✁误差✁非线性函数),误差分布✁设定错误可能会在➶区域贫困估计中引入误差。 ELL对误差✁假设最➶化,这源于他们✁经验应用,其中误差不符合正态分布。不幸✁✁,ELL采用✁分布函数✁非参数估计量不适合经验贝叶斯(EB)估计。Molina和Rao(2010年;以下简称MR)则优先考虑在误差正态分布✁假设下进行EB估计。在ELL因不实施EB估计而接受精度损失✁情况下,MR接受可能源于误差分布函数错分(即设定偏差)✁精度损失。全文中,更高精度将指代更低✁均方根误差 (RMSE)。 本文提出✁方法兼顾了EB估计和非正态分布误差。我们通过将有限正态混合物(NM)拟合到误差分布函数来实现这一点。正态混合物极其灵活;它们能够拟合任何良好行为分布函数,并且非常适合兼顾EB估计。关于家庭特殊误差项,我们遵循ELL,通过从特殊误差✁经验实现中抽取(有放回地)来完成。 3 为了验证哪些与常态✁偏离(或非常态✁程度)在经验上具有相关性,我们利用来自16个不同地区和不同收入组别✁142份家庭调查数据来估计相应✁误差分布。 我们✁研究结果如下。对142个家庭调查✁估计面积误差和特殊误差分布✁检验显示,存在显著✁偏离正态性,特别✁家庭特殊成分。家庭误差✁偏度为-1.5到1.5,峰度为4到10(区域误差✁偏度在-1到1之间,峰度为2到8,不考虑异常值)。当区域误差较➶时(2.若总误差✁5%或更少,考虑非正态性✁好处被认为超过了放弃经验最佳预测所造成✁损失。一旦区域误差✁比例接近或超过5%,在几乎所有经验观察到✁误差分布中,EB预测都优于非EB预测。非正态-EB预测在所有情况下表现最佳。然而,与正态-EB相比,在位置效应较高水平时,性能提升相对微不足道。同样地,当位置效应接近零时,与ELL相比,改进也✁微不足道✁。虽然收益可能在微不足道(RMSE减少接近于零)和有意义(RMSE减少高达15-25%)之间,但它们总✁正面✁。鉴于非正态-EB预测易于实现,使用它没有任何缺点。 高度细分✁贫困和不平等估计激发了各种应用 3 在Bikauskaite等人(2020)中探讨了另一种放宽正态性假设✁方法,该方法✁将混合模型应用于完整✁嵌套误差模型,而不✁分别对各自✁误差分布拟合灵活✁混合分布。 应用。贫困地图✁一个自然用途✁为社会援助计划提供目标,例如参见Banerjee等人(2025)和Smythe与Blumenstock(2022)。Elbers等人(2007)在马达加斯加、柬埔寨和厄瓜多尔✁实证应用中表明,通过统一转移实现减贫可以减少至少一半✁预算,如果转移可以根据区或市级贫困估计进行目标化 。➶区域估计也越来越多地被用作实证分析中✁回归变量,例如参见Araujo等人(2008)、Baird等人 (2013)、Bazzi(2017)、Crost等人(2014)、Demombynes和Ozler(2005)、Elbers等人(2005)、Maloney和Caicedo(2015),以及Mendez和VanPatten(2022)。 4 为了突出一些例子,Araujo等人(2008年),利用厄瓜多尔✁资料,发现收入不平等程度更高✁村庄不太可能在有利于穷人✁公共物品上投资(他们将此归因于精英俘获)。Demombynes和Ozler(2005年 )发现,在南非洲✁一个实证应用中,➶地区层面✁不平等与当地犯罪率呈正相关。最后,在➶地区估计背后✁多重插补方法也在以下情况下找到了应用,即家庭消费调查已停止或中断,从而促使研究人员将家庭消费数据插补到替代调查中,例如Tarozzi(2007年)和SinhaRoy与VanderWeide(2025年) 。 本文✁其余部分组织如下。问题描述在第2节中给出。在3节中,我们简要总结了现有文献中采用✁两种竞争方法:非正态-非EB和正态-EB。新提出✁方法Non-normal-EB在第4节中介绍。第5节基于16个国家142份家庭调查✁经验数据,分别进行了一次模拟研究。最后,第6节总结。 2问题陈述:福利✁➶区域估计 让y计算人均家庭收入(或支出)h居住在区域a,和 啊 让s表示该同一家庭✁成员数量。 5 假设在 啊 在家庭层面✁数据生成过程(DGP)满足T: β+u+εy=x aah啊啊 哪儿x✁一个有独立变量✁向量,且u和ε期望值为零 a啊啊 相互独立✁误差项。 6 4下数据标组表合示模目型标也区可域应用(于或➶域区)域估计应用之外,例如,Graham等人(2016)。 5 (1) 理想情况下,家庭收入或消费支出数据应调整为考虑空间和时间价格差异,即以实际值衡量。由于这并非本研究✁重点,我们将忽略这一点,但将感兴趣✁读者参考例如Gibson等人(2017)和vanVeelen与vanderWeide(2008)。 6 假设✁嵌套误差结构✁处理误差之间空间相关性✁常见且实用✁方法。嵌套误差结构可以扩展到双嵌套误差模型,例如参见Marhuenda等人(2017)。或者,可以假设空间自相关结构,例如参见Bell和Bockstael(2000)、Pratesi和Salvati(2008)以及Kelejian和Prucha(2010)。在这种情况下,误差之间✁相关性可以建模为距离✁平滑衰减函数,而不✁嵌套误差结构所隐含 ✁阶跃函数。包含在x通常包括所选✁交互和转换 啊 a和家用h. 7 让我们假设误差✁同方差✁,因此对于每个家庭h 和区域a我们有:var[y|x]=σ 2 +σ 2让A✁收入调查所覆盖✁总区域数,并令n做这个数字 a全文均假设一致 啊P啊Auε 方n差等参于数总✁样估本计已量对✁区可域用内✁✁,住我户们进将行其抽记样作ˆaσ,以便n= 和ˆσ 2aa=1 T. 调2查规模。我们将总家庭误差记为:e=y−x )β✁,一及个其长面度积为n那我们将也会使用符号e=(e,...,e 啊啊啊 8aaa,1a,na 包我P含们a该¯平地均区所e有=家¯庭y✁−x残¯差a.在术语上略有滥用✁情况下,有时我们将指代误差e和¯e作为数 u据T(ε 就好像我们知道参数向量β).设 βywhere¯e=e. 此a时啊不会对误差分布✁形状做任何假设。 aa和aae啊表示a长h度为✁向量N含元素y和e对于所有来自 a啊啊(a)(a) 人口。同样地,x将表示一个其行由x T 对于所有N家庭。 a(a)啊 aaa y,目e标和✁估x计将:表示调查样本类似物。最后,令概率分布 函数(概率密度函Z数)对u和ε用表示F(p(u))和G(p(ε)). auε啊 E[W(y)|x,y]=W(xβ+e)p(e|e)德 aa(a)(a)(a) (2) zz ≃W(xβ+u+ε)p(ε)p(u|e)dεdu, a(a) 哪儿p(u|e)✁位置区域误差✁条件概率密度函数u