11058 动态、高分辨率财富在数据稀缺环境中的测量 朱卓 正 程时雨吴瑞 邓大卫 塔利普·基里 克马歇尔·伯克 斯捷法诺·埃尔蒙大卫·B·洛贝尔 政策研究工作论文 11058 摘要 准确和全面的居民生计测量对于监测向扶贫进步以及为那些最需要帮助的人定向社会援助计划至关重要。然而,传统数据收集的高成本历史上使全面测量成为一个艰巨的任务。本文评估了使用来自四个非洲国家的详细家庭人口普查抽取的基于卫星的深度学习方法作为替代方案,以加快全面、细粒度和动态测度资产财富进程。结果表明,变压器架构解决了多个未解决问题。 测量问题,通过提供各国和城市家庭资产财富在地方层次上的最精确测量,以及家庭资产财富随时间的变化。人工限制数据可用性的实验表明,该模型即使在数据有限的情况下也能实现高性能。提出的方法展示了结合卫星图像、公开可用的地理特征以及新型深度学习架构,在数据匮乏环境中进行超局部和动态财富测量的潜力。 《政策研究工作论文系列》传播正在进行中的研究成果,以鼓励关于发展的思想交流。问题。该系列的目标是迅速发布研究成果,即使报告可能不够完美。论文包含作者名称应相应引用。本文中表达的研究发现、解释和结论完全是作者自己的。作者们。他们并不一定代表国际复兴开发银行/世界银行的观点。其附属机构,或世界银行执行董事及其代表的国家政府。 在数据稀缺环境中的动态、高分辨率财富度量 卓郑,一个蒂莫西吴,一个理查德李,b,c大卫Newhouse,d TalipKilic,d MarshallBurke,c,e斯蒂法诺Ermon,一个并列连接词,表并列关系。David B.洛贝尔b,c 一个计算机科学系,斯坦福大学,加利福尼亚州斯坦福,邮编94305,美国b地球系统科学系,斯坦福大学,加利福尼亚州,斯坦福,94305,美国c集中研究食品安全与环境,斯坦福大学,斯坦福,加利福尼亚州,94305,美国d发展经济学数据组,世界银行集团,华盛顿特区,20433,DC,美国e环境社会科学系,斯坦福大学,加州斯坦福,94305,美国 文章信息 关键词经济福祉 高分辨率贫困映射 卫星图像 深度学习 准确、及时且高度细分的经济发展状况测量对于监测和实现国际减贫目标至关重要。这些目标包括联合国可持续发展目标1“消除贫困”,该目标接近其最初的2030年截止日期,以及无数的其它国际和地区减贫目标。对家庭贫困和财富的详细估计对于了解这些目标是否得到实现至关重要,同时也有助于针对和评估贫困地区的发展滞后的反贫困干预措施。[6]. 可用卫星图像和/或移动电话数据,结合早期机器学习和深度学习架构,以展示这些新的信息来源如何被用于支持财富和贫困的大规模测量[4,17,29]。后续研究引入了进一步改进,利用公开或专有的地理 空间数据来改善基于卫星的财富测量[ 。8,12,2]. 这些进步证实了利用卫星图像和机器学习可以是一个准确、经济且可扩展的解决方案来估计6,21,23].财富 [ 官方在低收入和中等收入国家的贫困测量长期以来依赖家庭调查,这是一项不可或缺但耗时耗力的生计测量工具。考虑到可靠调查测量所需的技6,9]. 同时,调查数据通常基于旨在在较大空间尺度上具有代表性的样本,因此通常不足以在村庄或社区层面上产生可靠的估计——这是扶贫干预通常需要针对性的层次。因此,迫切需要更具有成本效益和可扩展性的地方生计测量替代方案,以补充并扩大现有基于家庭调查的努力。 在此,我们利用国家统计局获取的国家人口普查数据或提取数据,以及来自多个公共和私人传感器的不同分辨率的遥感影像,构建了一个大规模、多分辨率和多时序的财富数据集。我们的数据集包含四个非洲国家(马拉维、莫桑比克、布基纳法索和马达加斯加)超过1200万户家庭的数据,独特之处在于,它包含了两个马拉维城市内精确地理定位的测量数据,以及随时间对同一地点的重复测量——这两个特点在先前的研究中是缺失的。 我们使用这些数据对先前的工作做出了四个贡献。首先,我们直接测试了一种新的深度学习模型——具体而言,是视觉Transformer——与文献中常见的基于卷积神经网络(CNNs)的早期深度学习架构以及使用地理空间特征和表格机器学习方法(XGBoost)进行预测的简单模型进行对比。具体来说,我们设计了一个条件模块,使我们的Transformer模型能够处理多模态输入,同时整合卫星图像和地理空间特征(见“方法”)。我们测试了使用Landsat(30米/像素)、PlanetScope(3米/像素)和/或SkySat(0.5米/像素)传感器卫星图像的模型。然后,我们将这些更复杂的方法和输入与依赖更简单方法的模型进行比较。 近年来,公开可获得的大量遥感数据和机器学习的最近进展已转变了生计测量领域,逐渐从国家人口普查及相关家庭调查转变为将此类信息与卫星和其他传感器的信息相结合的努力。早期的研究使用了较粗略的公开数据。 对我国各国分别进行单独评估,并对每个模型进行以国为单位的五重交叉验证。CNN模型仅使用Landsat卫星影像作为输入。XGBoost使用地理特征(geo-features)或与卫星影像统计特征结合。所有模型均训练预测资产财富指数(AWI)。29]. 估计的AWI已在马达加斯加、马拉维和莫桑比克精细行政级别与影像资料相连接。在布基纳法索,AWI的估计数据仅适用于334个社区(表)。1). 这导致了布基纳法索训练数据的有效样本量减少,如图右面板中展示的调查测量的资产财富的聚类模式所示。1d. 这种差异反映在结果中。如图所示:1一个不依赖于地理特征的朴素变压器模型在马拉维、莫桑比克和马达加斯加的数据集中普遍优于其他模型。在这些国家,使用变压器模型进行的预测达到2当在完整的普查提取数据上训练时,分别得到0.83、0.70和0.62的值。在布基纳法索,由于有效样本量较小,使用卫星影像和地理特征的XGBoost模型在所有模型中实现了最佳的平均性能(解释了62.9%的变异)。当仅使用卫星影像时,一个简单的转换器仍然具有竞争力(解释了57.4%的变异)。我们还限制了训练样本的数量,将其设置为原始训练数据集的1%、5%、10%、25%和50%,以分析模型性能如何随着训练样本量的变化而变化。基于这四个国家的结果,我们经验性地确定10%为一个关键拐点,在此以下,估计值的准确性迅速下降。 仅基于来自多个来源预定义的地理空间特征。 这些比较非常重要,因为依赖于公开数据的简单方法在规模上可能更容易且更便宜地实施,尤其是对于有兴趣广泛应用的公共组织来说。因此,了解不同模型架构和输入之间的性能权衡对于理解如何扩大有希望的新测量方法至关重要。 其次,我们设置中的关键优势是使用来自国家人口普查或提取的高精度、高分辨率数据来训练和评估模型。与主要依赖公共可用家庭调查数据(这些数据的特点是空间位置数据不精确和户样本有限)的早期工作相比,我们的数据覆盖了给定地点的更多家庭,在某些情况下是精确地理定位的。与这样的“黄金标准”数据进行比较使我们能够理解模型预测误差是否是由预测不准确或地面真实情况的测量噪声引起的——这种理解在早期发展中国家的研究中往往是难以获得的[。6,29此外,它使我们能够考虑广泛的样本大小范围,以评估高级机器学习方法生成准确估计所需的最小训练数据量。为了量化训练样本大小对性能的重要性,我们在多种设置中广泛测试了额外训练数据对模型性能的影响程度。 第三,我们高分辨率的人口普查数据使我们能够新颖地理解如何利用卫星图像和其他地理空间数据来预测非洲城市地区生计的变化——这一能力在先前设置中由于样本有限和训练数据中的空间噪声而难以评估。这在城市环境中尤为重要,即使在小的空间区域内,生计也表现出显著的空间变异性。利用来自马拉维两个城市的全面且精确地理参照的人口普查数据,我们能够使用不同分辨率的卫星数据进行模型训练和测试,我们发现这些模型在预测这些城市中街道和邻里层面的财富变化方面出奇地准确。 另一个降低财富预测训练样本收集成本的关键因素是每个样本中聚合并的住户数量。为了分析这一因素,我们对每个行政区域随机抽取10个住户来构建训练样本,为每个国家生成一个“10住户”的训练数据集。然后,我们在这一“10住户”的训练集上训练一个朴素变换器模型,同时评估其在原始完整住户测试集上的性能。结果(图)1 b) 指示,我们使用10户家庭数据训练的变压器模型的表现与使用所有家庭数据训练的模型相当。以马拉维为例,10户家庭数据仅包括所有被调查家庭的大约23%。在全家庭训练模型和10户家庭样本训练的模型之间,性能差异仅为3个百分点(82%对79%)。相比之下,当减少训练样本数量时,全训练样本训练模型和仅用25%样本训练的模型之间的性能差异高达12个百分点(82%对70%)。 第四,人口普查和摘录使我们能够评估基于图像的模型是否能够在不同时间点对财富变化做出准确预测。之前的努力再次受到限制,因为地面数据在多次调查中未反复采样同一地点[29因此,一个主要用于预测财富或消费空间变化的基于图像的模型是否能预测时间变化仍然不清楚,因为后者通常更小,并且可能由更难在图像中检测到的变化维和莫桑比克在相隔10年的同地理位置的重复ﻻ驱动。马普查数据使我们可以评估模型是否确实能够从图像中提取出能够预测资产财富时间变化的信息。 这些结果为数据高效财富衡量提供了重要的见解。当每张图像至少有10户家庭可用时,在我们的变压器模型预测财富时,对更多枚举区域的调查优先于对枚举区域内部额外家庭的调查。地理空间特征被视为提高经济测量的宝贵辅助数据。21], 在财富预测中得到广泛应用。在此,我们为我们的变换器模型设计了一个条件模块(见“方法”部分),以实现地理空间特征和深度视觉特征的高效融合。结果如图所示。1c, 指出地理空间特征显著提高了 结果 对于国家层面的财富预测,我们针对每个模型在每个层面上进行训练。国家层面财富预测的表现 - 莫桑比克的全人口普查,其中朴素变压器模型略微更准确。图2中的四个网格财富地图,分辨率为4.8公里/像素,仅使用 模型在所有国家的表现,特别是在布基纳法索,由于将图像与社区层面的调查数据链接导致的有效样本量较低,表现尤为突出。当训练样本量较小时,地理空间特征特别有益,表明模型在较小样本量上难以从原始图像中学习最优视觉表示,此时地理空间特征作为财富预测的有价值补充。在图1中展示的方法中,图1中所示的具有地理特征的转换模型产生了估计值,其估计值最高。2在所有情况下除了一个,当使用训练时 我们的变压器模型和Landsat影像。无需进行地理空间特征准备,只需使用8个NVIDIA RTX A4000 GPU,整个映射过程可以在一个小时内完成。这意味着我们的方法具有在国家级别加速细粒度财富测量的巨大潜力。 在与最终回归网络输入之前沿信道维度传递。与先前设置不同,XGBoost 只以双向时态卫星图像作为输入,因为在2008 年的马拉维和 2007 年的莫桑比克没有空间特征可用。结果表明(图 3a),在全部样本上训练的深度学习模型能捕捉到马拉维惊人的 52% 以及莫桑比克的 42% 的变化。深度模型在给定相同的输入数据时超越了 XGBoost。意味着在……中,代表性也同样重要。 在预测国家层级财富变化方面的表现 我们进一步通过五折交叉验证评估每个国家的国家层面财富变化预测。遵循[29],CNN模型使用沿通道维度的连续双时间Landsat图像作为输入。我们的转换器模型通过一个权重共享的单图像编码器单独处理每个双时间图像,并将编码后的特征连接起来。 国家层面的财富预测。 财富衡量。我们的变压器模型在估计莫桑比克十年期财富变化方面略优于常用的卷积神经网络(CNN),在马拉维的表现也相当。这种差异可能归因于训练样本量和模型复杂度的变化。莫桑比克具有大约10倍于马拉维的训练样本,这可能是为什么更灵活的Transformer模型在莫桑比克优于CNN的估计。与上述横截面结果类似,我们模拟了两种数据稀缺情况下的预测变化场景:(i)限制抽样调查区域的数量;(ii)将每个