您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [亚开行]:基于机器学习的贫困地图中的空间异质性:模型在哪里表现不佳? - 发现报告

基于机器学习的贫困地图中的空间异质性:模型在哪里表现不佳?

文化传媒 2025-09-15 亚开行 匡露
报告封面

雅婷·卢,伊丽莎白·坦南特,大卫·S·马特森和克里斯托弗·B·巴雷特 亚洲开发银行经济研究工作论文系列 基于机器学习的贫困地图制作中的空间异质性:模型在哪些方面表现不佳? 亚廷·如 (yru@adb.org) 是亚洲开发银行2部门自然资源与农业经济学家的。伊丽莎白·坦南特 (ejt58@cornell.edu) 是一名研究助理和客座讲师;大卫·S·马特森 (matteson@cornell.edu) 是统计学与数据科学系教授和系主任助理;以及克里斯托弗·B·巴雷特 (cbb2@cornell.edu) 是康奈尔大学应用经济学与管理学斯蒂芬·B·和詹尼斯·G·艾许勒教授。 雅婷·卢,伊丽莎白·坦南特,大卫·S·马特森和克里斯托弗·B·巴雷特 第798期 | 2025年9月 亚洲开发银行经济研究工作论文系列本项研究进行中,旨在征求评论并鼓励就亚洲和太平洋地区的发展问题进行辩论。所表达的看法是作者的观点,不一定反映亚洲开发银行、其董事会或其代表政府的观点和政策。 知识共享署名 3.0 国际组织许可协议 (CC BY 3.0 IGO) © 2025 亚洲开发银行 6 ADB路,马尼拉市曼达卢永,1550马尼拉大都会,菲律宾 电话 +63 2 8632 4444;传真 +63 2 8636 2444 www.adb.org 部分权利保留。2025年出版。 ISSN 2313-6537 (print), 2313-6545 (PDF) 出版物 stock No. WPS250340-2 DOI: http://dx.doi.org/10.22617/WPS250340-2 本出版物中表达的看法是作者的观点,不一定反映亚洲开发银行(ADB)及其董事会或他们所代表的政府的观点和政策。 亚洲开发银行不对本出版物中包含的数据的准确性作保证,也不对使用它们造成的任何后果负责。提及特定公司或制造商的产品并不表示亚洲开发银行优先认可或推荐它们,而不是未提及的其他类似的商品或服务。 通过在此文档中做出任何有关特定领土或地理区域的指定或提及,亚洲开发银行不打算对任何领土或区域的法律或其他地位做出任何判断。 本出版物根据创意共享署名 3.0 国际组织许可协议(CC BY 3.0 IGO)发布 https://creativecommons.org/licenses/by/3.0/igo/。使用本出版物的内容即表示您同意受该许可协议条款的约束。关于署名、翻译、改编和许可,请查阅 https://www.adb.org/terms-use#openaccess 中的相关规定和使用条款。 本知识共享许可协议不适用于本出版物中的非ADB版权材料。如果该材料归属于其他来源,请与该来源的版权所有者或出版者联系以获取复制授权。ADB对您使用该材料所引发的任何索赔概不负责。 如果您对内容有任何疑问或意见,或者希望就您打算使用的超出这些条款范围的内容获得版权许可,或希望获得使用亚洲开发银行标志的许可,请联系 pubsmarketing@adb.org。 关于亚洲开发银行出版物的勘误表可以在 http://www.adb.org/publications/corrigenda 找到。 注意:在本出版物中,“$”指美国美元。亚洲开发银行承认“中国”为人民民主共和国。 摘要 近期利用地理空间大数据和机器学习的研究显著提升了贫困地图绘制水平,使得在传统数据稀缺地区能够进行精细化和及时化的福利估算。尽管现有的大部分研究都集中在对样本外预测性能的整体评估上,但对于此类模型在哪些区域表现不佳以及关键空间关系是否随地域变化等问题仍缺乏理解。本研究调查了基于机器学习的贫困地图绘制的空间异质性,检验了空间回归和机器学习技术能否产生更无偏的预测。我们发现,对未调查区域的外推仍然存在偏见,而空间方法无法解决这些问题;在贫困地区、农村地区和单一产业主导的经济体中,福利往往被高估,而在富裕、城市化和多元化的经济体中则倾向于被低估。尽管空间模型的总体预测准确性有所提高,但在传统表现不佳地区的改进仍然有限。这凸显了未来关于基于机器学习的贫困地图绘制研究,需要更多具有代表性的训练数据集和更好的遥感代理,尤其是针对贫困和农村地区。 贫困地图绘制,机器学习,空间模型,东非关键词:C21,C55,I32JEL代码: 1. 简介 “到2030年在所有形式和所有地方终结贫困”在可持续发展目标中位居第一(联合国大会2015年)。然而,多年减贫的进展受到了冠状病毒疾病大流行、暴力冲突、环境冲击、食品价格急剧上涨以及全球国内和国家间不平等加剧的破坏。自1990年以来连续三十年下降后,近年来全球极端贫困人口的数量和比例都有所上升(Lakner等人2022年)。仅在2020年,就有超过7000万人跌破国际贫困线,比前一年多了,世界上最贫穷的40%人口的收入损失是世界上最富有的20%的两倍(世界银行2022年)。随着进展的逆转,在气候变化和日益不确定的未来背景下,迅速准确地确定贫困人口的位置,以针对社会援助和设计及评估有效的减贫政策,至关重要。 而传统的、依赖调查和人口普查数据的贫困估计又费时又耗力,而地理空间大数据、机器学习(ML)算法和计算能力的近期发展现在使贫困和财富地图绘制能够以更高的分辨率并以更及时的方式完成(Blumenstock,Cadamuro和On 2015;Jean等人2016;Pokhriyal和Jacques 2017;Yeh等人2020;Browne等人2021;Chi等人2022;Lee和Braithwaite 2022)。遥感数据集的全面全球覆盖推动了这些新方法,不仅能够插值——即在已调查国家或区域内估计未调查地点,以提高贫困估计的空间分辨率——而且能够外推——即在未调查地区生成福利估计,可能包括受冲突或灾害影响的地区,在这些地区现场数据收集可能存在危险、昂贵或两者兼有。 早期的贫困地图利用了小区域估计(SAE),它结合稀疏调查数据与密集的辅助数据(如普查或行政记录)来估计小区域的贫困情况,这些小区域通过公共变量联系在一起(Ghosh and Rao 1994;Rao 1999;Elbers, Lanjouw, and Lanjouw 2003;Christiaensen et al. 2012)。最近,SAE方法已经将遥感和其他地理空间数据作为辅助数据的额外来源进行了整合,利用这种数据融合来提高估计精度,特别是对最贫困的人群(Masaki et al. 2020)。基于机器学习的贫困地图与SAE类似,但通过允许将收集资产、支出或收入数据的调查数据与任何类型的辅助数据(如图像、文本或数字)融合,提供了更大的灵活性和空间覆盖范围。基于机器学习的贫困地图已经演变为三大主要类别:(i)基于图像的模型采用深度学习算法——特别是卷积神经网络——从卫星图像中提取高维、非线性信息,实现高预测精度,但通常缺乏可解释性(Xie et al.2016;Jean et al. 2016;Head et al. 2017;Yeh et al. 2020;Tang, Liu, and Matteson 2022);(ii)基于特征的模型利用可解释的地理空间特征(例如土地覆盖、市场准入、气候)以及更简单的机器学习算法(如随机森林和 正则化回归(Blumenstock、Cadamuro 和 On 2015;Pokhriyal 和 Jacques 2017;Tingzon 等人 2019;Browne 等人 2021;Aiken 等人 2022;Tennant 等人 2025);以及(iii)结合图像和基于特征的方法的混合模型,由于其更广泛的信息基础通常提供略有更好的预测能力(Lee 和 Braithwaite 2022;Chi 等人 2022;Zhao 等人 2019)。我们的工作主要利用基于特征的机器学习模型,结合来自开放数据集的可解释地理空间特征,提供稳健且实用的贫困绘图方法,适用于实践者和研究人员广泛采用。 尽管在预测精度方面取得了显著进步,但文献中的研究进展较少关注机器学习模型在特定条件或特定地理区域下的潜在次优性能,尽管有几项研究表明最贫困人群的预测精度存在令人担忧的下降(Tang, Liu, andMatteson 2022; Engstrom, Hersh, and Newhouse 2022)。其原因之一可能是大多数模型既缺乏理论性也缺乏空间性,没有考虑贫困的空间动态。然而,我们知道不同地理区域在贫困估计的关键特征或关系方面可能存在空间异质性(Zhou and Liu 2022)。这表明,当我们针对发展和人道主义项目时,当前贫困地图可能对我们最关心的群体来说可靠性较低,且很少提供关于何时何地这种情况最可能发生的线索。 我们的论文探讨了这一重要风险。我们考察了不同情境下预测偏差的模式——例如模型在城市与农村地区以及在不同农业生态区(AEZs)的表现。我们评估了这些偏差在参数回归模型和非参数回归模型之间,以及在跨国内插与跨国外推的情况下的变化。我们发现,由于空间异质性导致的系统性高估或低估,在向未调查地区外推时尤其成问题。我们发现模型倾向于高估贫困地区、农村地区以及严重依赖单一部门(被称为“部门聚焦型”经济体,例如那些主要依赖作物农业的经济体)的福利。相反,富裕地区、城市化地区以及多元化经济体(拥有广泛的产业结构)的福利通常被低估。某些农业生态区(AEZs)相较于更常见的AEZs也表现出不同程度的偏差。此外,系数估计、变量重要性和样本外R2地理加权模型显示变量关系和模型拟合优度存在区域差异。这提高了我们识别贫困估计可能存在偏差的位置和方向的能力,从而改进了用于指导反贫困干预措施的证据基础。 我们还探讨了空间机器学习方法(Nikparvar和Thill 2021;Kopczewska 2022)是否以及如何有效减轻贫困地图制过程中由空间异质性产生的偏见,并提高传统上标准贫困地图模型服务不足地区的预测准确性。具体来说,在插值背景下,我们介绍了诸如地理加权回归、地理加权岭回归等模型 地理加权随机森林,每种的都使用局部加权数据来构建针对个体位置的定制化模型。这些空间机器学习模型在整体预测性能上提供了显著的提升。然而,它们在传统表现不佳的地区显示出微小的改进。因此,它们提高了精度,但并未显著减少偏差。对于外推,在地理加权模型不可行的情况下,我们尝试使用特征空间加权数据来构建局部随机森林模型,并将分组变量引入为虚拟变量或交互项。然而,这些技术并未带来显著的改进。这可能表明,算法的改进在提升表现不佳地区的成果上能力有限。相反,关键的约束似乎在于在最贫困地区获得高质量基于调查的训练数据和遥感福利代理数据的可用性(Burke 等人 2021)。我们的研究揭示了基于机器学习的贫困制图在空间上的异质性表现,并强调了为更准确的预测和干预而进一步研究此主题的必要性。 2. 材料与方法 2.1. 数据 本研究重点关注四个东非国家——埃塞俄比亚、乌干达、坦桑尼亚和马拉维(图1(a))——这些国家是根据其显著的贫困程度和相关数据的可用性选定的。这些世界上最贫穷的国家中,报告有27%–70%的人口生活在2017年购买力平价(PPP)2.15美元的国际贫困线以下,以及20%–51%的人口生活在各自较低的国家贫困线以下,如表S1所示。1这些国家经常被纳入基于机器学习的贫困地图研究,因为它们拥有公开可用的高质量、全国性代表性调查数据,从而使我们能够将结果锚定到现有的基准上。 我们的预测变量由两个福利指标组成,2011年国际PPP美元的人均日消费支出和无量纲的国际财富指数(范围从0,最贫穷,到100,最富有)。这两个指标都来源于生活标准测量研究(LSMS)家庭调查数据,这些数据由各国统计局与世界银行合作收集。LSMS调查提供了涵盖从消费到移民的广泛范围内的家庭福利的全面数据。LSMS计划因其致力于提高数据质量、增强贫困监测方法以及发展发展中国家调查数据收集和分析能力而受到认可