AI智能总结
11026 从纵向研究中提高调查估计的质量 在 LSMS 面板测量中的应用 Piero Falorsi Paolo Righi Giulia Ponzini 一个经过验证的可重复性包可在以下网址获取:http://reproducibility.worldbank.org,点击以获得直接访问。here 政策研究工作文件 11026 Abstract 纵向调查是分析人类群体随时间变化状态和变动的一个极其宝贵的资源。然而,随着面板调查时间长度的增加,保持估计值的准确性变得更加困难。主要关注的是由于样本损耗(由死亡和搬迁引起)以及新生人口和迁移流的影响导致的样本代表性不足问题。此外,样本疲劳引入了不断增加的测量误差。正确的设计、实施和使用面板调查考虑了一系列方法来在统计过程的不同阶段解决这些问题:抽样设计、数据收集和估计。本文专注于具有旋转样本设计的面板案例。这种案例代表了一种强大的混合解决方案,用于应对面板效应的影响。 样本代表性动态。从实证角度出发,本文着重探讨了估计方法。通过乌干达国家面板调查和最长生活标准衡量研究的数据,对提议的技术进行了实验性评估。总结来说,研究发现校正后的加权共享方法为基础的估计器能够提供个体层面的统计数据,这些数据似乎比当前乌干达国家面板调查的估计器更为精确。此外,基于转换矩阵的校正后的加权共享方法的基础横截面估计显示,在改变样本时,其稳定程度通常高于当前乌干达国家面板调查的估计值。 该政策研究工作论文系列发布正在进行中的研究成果以促进关于发展方面的思想交流。问题。该系列的一个目标是尽快发布研究发现,即使展示的内容尚未完全打磨。论文保留了作者的姓名应按照相应的方式引用。本论文所呈现的研究结果、解释和结论完全代表作者自身的意见。由作者提供。它们不一定代表国际复兴开发银行/世界银行的观点。其附属组织 , 或世界银行执行董事或他们所代表的政府的组织。KPIANPG 从纵向研究中提高调查估计的质量 : 在 LSMS 面板调查中的应用 Piero Falorsi1, Paolo Righi 2, Giulia Ponzini3 JEL 代码: C81, C83, C87, Y80 关键词: 面板调查, 减员, 跟踪, 广义权重份额法, 调查方法 1. INTRODUCTION 纵向调查,基于随时间对同一统计单位进行重复观测,是分析人类群体当前状态及其随时间变化的宝贵资源。以“生活标准测量研究——农业综合调查(LSMS-ISA)”项目为例,通过传播涉及健康、农业、基本服务获取、营养、贫困状况等议题的家庭面板数据,为撒哈拉以南非洲国家展示了纵向调查的价值。欧洲联盟的收入与生活条件统计(EU SILC)和美国统计局的收入与计划参与调查(SIPP)也是纵向研究价值的其他关键实例。 在面板调查中,准确性取决于与横截面调查相同的许多因素。然而,随着面板调查时间长度的增加,保持估计值的准确性变得更加困难。一个关键问题是受访者中途退出调查(即面板损耗),这在长期运行的面板调查中可能会变得越来越棘手。此外,移居者——即那些在纵向研究的第一个观察点被访问后搬家的人——代表了一个动态子群体,且难以且成本高昂进行访谈。最后,新加入人口的成员,如移民和新生儿,在传统的面板调查中尤其难以捕捉。 正确的面板调查设计、实施和使用考虑了在统计过程的不同阶段(样本设计、数据收集和估计阶段)解决这些问题的各种方法。尽可能地,样本设计应通过使用刷新样本(例如,旋转面板或分段面板)和纳入之前未参与研究的个体来最小化由于流失、离开者和新加入者导致的数据代表性损失。基于跟踪规则以追踪迁移者,数据收集阶段应设计成能够获取那些已退出样本的个体或家庭的关键信息。采用灵活的数据收集方式(如电话访问)可以接触那些可能不响应传统技术的人群。此外,收集退出者的最少变量数据(例如,通过代理人或上门访问)可以提高调查估计的质量。在估计阶段,需要考虑退出者、迁移者、新加入者以及目标人群随时间的变化动态。这可以通过定义加权程序来实现,该程序更新直接抽样权重以反映面板家庭中新加入的个体,并使用与最新已知人口总数相校准的估计器。 这项研究提议通过考虑上述三种调查设计方面来提高面板调查的质量。我们考虑当前时间估计目标人群的横截面参数和纵向参数。这些估计值是从当前时间收集的样本数据中计算得出的,样本数据来自于之前进入样本并在后续根据调查中所考虑的纵向观察规则进行跟踪的个体。这种方法澄清了许多关于面板研究中收集的数据代表性的方面。它适用于当前大规模家庭面板调查中的许多案例(例如,欧盟 SILC、LSMS 等),并且可以轻松扩展到实际调查情况中的更复杂问题。 该论文结构如下:第二部分给出了纵向和横截面人口的正式定义以及纵向研究中需要估计的目标参数。第三部分介绍了基于多源(Singh 和 Mecatti 2011)和间接抽样(Lavallée 2007;Falorsi、Righi 和 Lavallée 2019)的抽样框架和估计方法。 各种抽样子群体代表性差异以及家庭构成随时间的变化。第4节介绍了场操改进和数据收集的提升,以促进提议方法论的实施。第5节简要介绍了生活标准衡量研究(LSMS),定义了其目标和估计质量的关键方面。第6节通过将提议方法论应用于LSMS-ISA数据,并以乌干达国家面板调查2009、2013和2015年的波次作为案例研究,展示了该方法论的实证应用。第7节总结了主要发现并得出结论。 2. 横截面和纵向种群的正式定义 2.1. 在不同时间点观察到的人口 让我们成为当前特定国家的个人人口t。被划分为家庭的亚群 , 表示为,,… ,,,… ,,。我们将家庭集合表示为 = {1 },… , ,… ,. 家庭,has,个人与 = . 1 , t 分析交叉点在时间上的动态变化 , 以当前时间从最初的纵向设置中的截面种群 , 我们∑ We =1可以参考 and as横断面人口个人和家庭 , 因为他们指的是一个特定的时间点。 引入了纵向种群。为了简化 ,∗我们首先介绍一个没有按家庭划分的人口。因此 ,表示的纵向人口纵向 -let 个人。人口 从研究范围和纵向观察的角度来看 , 识别是复杂的 ← operability over time (Helliot et al. 2009). The most common definitions are the ← 交叉点 - 人口,=, and the工会 - 人口=. 十字路口 ← ∗- 人口是两者的适当子集 ∗∩ ←and ∗, 包括个人 ∗∪ of当时仍居住和居住在该国的人t 。纵向测量 个人 , 包括 : 基于此 ,∗随着时间的推移观察同一个人 , 不包括出生和死亡 期间∗study. 然而,基于交集 \( U \)-人口的纵向人口定义在时间上的代表性存在一定缺点。t并且针对家庭构成动态变化研究的局限性。虽然联合人口能够最好地描述人口动态,但它需要一个动态样本设计来引入出生和新进入者以避免偏差。对于本研究,我们提出一种定义,结合了两种方法的优点。 - ← ∗十字路口 - population← ∗所有的人 家庭 所有新成员的家庭的个人在十字路口 ∗∩ ;人口 , 即使他们不是其中的一部分。 根据这个定义 , 新生儿 ∗并且那些移民成为交集人口中个体家庭的新成员时,是对人口的新一轮进入。如果该国的移民数量和新生儿数量在数值上不具有显著性。∗, 那么纵向人口近似于时间的横截面人口。此外 , 纵向观察在概念上 ∗简单。我们在初始时间选择一个样本 , 然后在下面的调查中我们观察到∗ ←∗ 所有家庭成员的初始个体样本。 ← 给定个体纵向人口的定义,我们引入了家庭纵向人口的定义,记作随着时间的推移 , 家庭可能会经历三种类型的变化 : 消失 , 融合或分裂。∗∗ 这些变化直接影响横截面和纵向分析和 ← may significantly ← 影响样本代表性(FAO, 2015)。以图2.1中时间1时的三个家庭A、B和C为例进行说明。在时间2时,家庭A解散,其成员分别迁移到了三个不同的家庭中:A2加入家庭C,A3组建了一个新的家庭D,而A1则与新成员E一同加入了家庭A。此外,在时间2时,家庭B中的成员B3已经消失。 上述图片展示了纵向家庭定义随时间变化所面临的问题。我们可能采用两种广泛的方法。传统上定义纵向家庭的方式是将其一对一地映射到时间上:一个家庭从时间点生成仅对应一个家庭在时间点 。这种做法的主要缺点是,我们可能会面临排除某些家庭的风险,从而导致定义上的不完整或不准确。∗纵向分析一些家庭中的个人 live. 在这一点上 , 介绍的概念是有帮助的连续性规则。要理解连续性规则的概念 , 请考虑在时间 * 和两个孩子观察到的。两年后 , 跟随同一个人 , 测量员面对两个 ← ∗s家庭t由一个父亲和母亲组成的家庭,其中父亲与母亲分居,父亲独自生活在另一个地方与其中一个孩子一起生活。连续性规则明确规定了哪一户在两年后的观察家庭是最初观察家庭的延续,哪一户不是。 新的家庭单元。因此,连续性被用来定义操作规则,以确定当前时间哪个家庭是之前观察到的家庭的延续。识别纵向家庭的连续性规则可能有所不同(Falorsi等,2009)。如图2.1所示,如果连续性规则将具有相同户主的家庭视为纵向家庭,我们将排除家庭 \(d_t\) 从分析中。∗ 为了克服这一问题,我们提出了一种多对多的方法:一个时间点的 households 可能会产生多个时间点的 households;相反,一个时间点的 households 也可能源自另一个时间点的 households。∗来自时间的几个家庭。人口的家庭那些包括 ℓ𝑡𝑡∗在时间 1 继续在时间 2 与∗ 家庭 a 、 b 正式化许多到许多的标准,并且不失一般性,家庭 \( \mathcal{H}_i \) 是来自时间 \( t \) 家庭\( \mathcal{H} \) 的纵向家庭之一,如果 \( k \in \mathcal{U} \)。 Where �, =是1� link=1 { 0ℓ,1 变量, 如果个体 , 则取值为 1 ℓ的家庭在∗ 时间是同一个人 ← 对于家庭而言,在这一方法下,人口的纵向统计与家庭的统计之间存在完美的对应关系。对于时间点 ,通过这种方法,可以确保个人层面和家庭层面的数据统计在时间维度上完全一致。∗ ℓ 每个人的 2.2. 感兴趣的参数时间。定义2.1 包括作为特定情况的一对一连续性规则。在此 ∗∗{ } 2.2. 1. 横截面参数case, ,is a 0 ,1←二分变量 , 如果是家庭 , 则等于 1 𝑌𝑌𝑡𝑡𝑈𝑈𝑡𝑡是唯一的一个∗家庭的 ← 这是家庭的纵向延续。 ℓ令 \( x \) 和 \( y \) 分别为在个体和家庭中观测到的两个定量变量。感兴趣的参数是总和 \( \gamma \)。指的是人口 : (2.2)=,𝑁𝑁𝑡𝑡,𝑘𝑘𝑀𝑀𝑡𝑡=,𝑀𝑀𝑡𝑡 𝑦𝑦𝑡𝑡𝑘𝑘𝑖𝑖𝓎𝓎𝑖𝑖�