您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [世界银行]:全球劳动力数据库用户手册:全球劳动力数据库的理解、使用和交互指南 - 发现报告

全球劳动力数据库用户手册:全球劳动力数据库的理解、使用和交互指南

信息技术 2024-05-01 世界银行 善护念
报告封面

了解、使用和与全球劳工数据库交互的指南 目录 致谢4 1.GLD 5简介1.1.什么是GLD?51.2.GLD的目标是什么?51.3.谁是目标受众?61.4.指导GLD的原则是什么?6GLD覆盖和扩展6透明度和数据访问8数据质量和验证81.5.与类似数据工作的互补性81.6.可持续性9 2.GLD内容、存储和访问10 2.2数据存储平台和访问规则13世界银行GLD服务器13Datalibweb 15微数据库17GitHub 20数据和信息存储摘要25 3.GLD协调方法26 3.1.界定GLD协调的界限263.2.协调守则26的结构 3.3.GLD数据字典29调查和ID模块29地理37人口统计42迁移48教育53培训58劳动60 4.验证和质量检查1074.1.如何验证协调?1074.2.GLD单一调查质量检查指南1084.2. 3. Block 2 - GLD外部检查....................................................................................................................................111 4.3.GLD调查系列质量检查指南127 5.使用GLD 1305.1.如何使用统一dta文件1305.2.如何使用统一代码?1305.3.如何引用GLD 134 6.1.与GLD 136合作的一般规则6.2.如何与GLD 136共享新的原始数据6.3.如何分享GLD 136未涵盖的调查的统一6.4.如何与GLD合作进行新的协调1376.5.如何纠正/扩展现有的协调1376.6.如何更正和扩展国家调查详细信息1416.7.如何纠正和扩展GLD工具1416.8.如何就任何其他问题进行沟通142 Acknowledgements 本用户手册由Mario Groert(经济学家/统计学家)在Maddalea Hoorati(高级经济学家,TTL)的指导下编写。该手册受益于同行评审者Jose Motes(数据科学家)和Michael Weber(高级经济学家)的丰富评论。团队要感谢乔布斯集团的领导,Ia Waler(前任经理)和Federica Saliola(现任经理)对GLD项目在整个开始和实施阶段的总体指导。特别感谢Dio Merotto(首席经济学家)鼓励和支持该项目,并感谢Jose Mael Romero,Adreas Eberhard,Ya Borgeois和整个乔布斯团队的持续反馈和宝贵意见。最后,我们感谢专门的顾问团队,他们通过不断的数据挖掘,修订和质量改进来建立GLD:Agelo Gabrielle Feradez Satos,Alexadra Qi ñ oes Nra,JyigTog,Tom Mosher,Elea Casaovas Navarro和David Alejadro Bermdez Vasqez。 1.GLD简介 1.1.什么是GLD? 全球劳动力数据库(GLD)是世界银行将劳动力调查和家庭调查与相关劳动力模块相协调的举措的一部分。它的任务是创建一个开放和透明的协调,并提供足够的背景信息,以允许数据分析师使用,更改和扩展协调。从这个意义上讲,背景信息超出了代码,调查表和报告,包括记录在协调过程中了解到的调查细节,这些细节在其他地方没有记录。记录对货币或行政区划的更改的示例。 GLD的目标是成为一个开源数据库,这意味着尽可能多的人应该可以访问尽可能多的信息。它还努力做到透明,使创建统一的所有步骤可追溯,从原始数据采集到统一的可变编码。因此,统一过程的所有步骤都已记录在案并提供,包括调查文件,代码和注释,使用户能够充分理解调查设计和统一中的选择。代码和文档的可用性使用户能够自定义和添加不在GLD协调中的变量。大多数协调工作都为用户提供了“接受或放弃”的选择,但是GLD的公开透明方法允许用户在任何时候跟踪和偏离标准的协调,无论他们希望跳到哪里,都可以领先。 最后,GLD跟进并扩展了先前的统一家庭调查倡议,即国际收入分配数据库(I2D2)。I2D2被全球监测数据库(GMD)取代,但该数据库侧重于家庭预算调查,并未统一劳动力调查。GLD的创建是为了弥补调查类型覆盖范围中的这一差距并对其进行补充,通过扩大的词典和对劳动力指标的更严格验证,更加关注劳动力市场信息。 1.2.GLD的目标是什么? 劳动力调查是一个关键的数据源,用于生成关键的劳动力市场指标,这些指标由决策者监控,目标和评估的个人特征分类。跨时间和空间附加,用于比较和基准。GLD的目标是使世界银行员工和全球研究人员更容易,可追溯和可复制的估算过程。 生成基于调查的指标时的一个主要问题是跨国可比性和耗时的统一过程,这需要详细阅读数据文件和调查材料,以了解应编码什么以及如何编码,结构化和一致的统一方法以及许多验证步骤。 因此,GLD的第一个目标是创建一个统一的调查数据库,其中包含全面可靠的劳动力市场信息,可用于跨国和随时间比较的分析工作。通过创建统一的输出,该数据库可以输入到其他产品中,这些产品可以自动化分析过程,例如国家一级的工作诊断。 GLD的第二个目标是允许用户超越标准数据集,支持他们深入研究他们的分析和比较,以找到更深入的见解。 通过提供所有代码和技术报告,并记录在协调过程中发现的调查的所有复杂性,以便用户可以专注于回答他们需要回答的问题,而不是弄清楚行政边界在哪一年发生了变化以及样本量如何因此受到影响。 1.3.谁是目标受众? GLD的目标用户包括国际发展界的研究人员,数据分析师和从业人员,统计局,劳动部,经济和计划部以及其他分析劳动力市场数据的相关政府机构,以监视和分析劳动力市场结果,并为劳动力政策的设计提供信息。这些用户可以利用GLD的两种用途。 第一个用途是“原样”协调。这是指用户获取由数据团队准备的协调数据文件,并使用这些变量(或其组合)进行分析。 第二个用途是“修正”或“黑客”协调。这是指用户想要超越准备好的协调。例如,这可能是因为他们对调查中的另一个特定变量感兴趣,该变量出现在调查表中,但在大多数调查中并不常见,因此没有统一。在这种情况下,用户仍然可以利用协调文件来标准化大多数变量(因为教育水平或劳动状态等概念可能仍然相关),但另外添加其他变量。这种使用需要编辑协调代码和/或在特定点添加到它,以满足用户的目的,而不需要他们完全处理调查。 1.4.指导GLD的原则是什么? GLD遵循一套原则来指导其开发和维护,在本介绍中,我们重点关注(a)GLD的覆盖范围和扩展,(b)透明度和数据访问,(c)数据质量和验证。 GLD覆盖和扩展 截至2024年4月,GLD进行了来自24个国家(1个高收入国家,9个中高收入国家,11个中低收入国家和9个低收入国家)的345项调查。表1概述了这些国家(通过三位数的ISO代码),调查数量和GLD涵盖的年份。表下面的图1显示了GLD中国家的位置。 国家的最初选择是由同一国家随着时间的推移提供多种LFS驱动的。此后,GLD团队制定了选择指南,试图平衡GLD在收入群体和地区之间的国家覆盖率,并通过最新调查使GLD保持最新。 确保更新GLD意味着一旦GLD中每个国家都有最新调查,就可以统一这些调查。一般来说,如果一项调查是前四年的调查(例如Procedre,至少从2020年到2024年)。因此,在区域之间和区域内,选择增加GLD的调查应反映出不仅要在所有收入水平上进行调查,而且要为所有人进行最新调查的努力。 但是,获取新的调查主要取决于数据的可用性,即是否有可能获得新的数据,或者各国的国家统计局(NSO)是否不允许共享调查数据。因此,如果一个区域的国家统计局分享的数据很少,GLD由于缺乏调查而造成的不平衡将无法纠正。同样,如果国家统计局不进行或仅很少进行劳动力调查,则尽管我们尽了最大努力,但其国家的GLD条目仍将丢失或减少。 透明度和数据访问 此外, GLD团队产生的所有输出(协调代码和调查细节的文档,在协调过程中做出的选择)都在GitHub上自由共享,GitHub是一个协作软件开发和版本控制的网络平台。 根据数据许可法规,对原始和统一的微观数据的访问在逐个调查的基础上受到限制。这些限制主要源于国家统计局发布的数据隐私要求以及其他相关考虑。这种限制对于确保遵守管理敏感调查数据的机密性和使用的法律框架至关重要。遵守这些协议不仅维护了道德标准,而且还保护了数据库中信息的完整性和机密性。 GLD数据存储在由GLD团队管理的服务器上。该团队的目标是尽可能使用我们至少可以与世界银行同事共享的数据源。数据也可以通过datalibweb和微数据库访问。目前,除埃及的数据外,世界银行的所有工作人员都可以访问所有GLD调查,埃及的数据发布者要求仅通过其门户访问原始数据(因此也是统一的数据)。有关这方面的更多详细信息,请参见第2.2节数据存储平台和访问规则部分。 数据质量和验证 GLD成为跨国比较和基准测试的可靠来源的目标的核心是确保数据的最高质量。只有这样,才能利用大型数据集并将GLD用作自动化分析工作流程的输入。 为了验证协调,GLD团队有三个主要工具。首先是在协调时与国家办事处同事和国家统计局工作人员进行的验证。GLD协调人与具有领域知识的相关同事保持联系,以了解调查(他们可以记录和分享的知识),并确保将原始数据的变量映射到协调变量是明智的。 统一完成后,有两个自动质量检查程序。第一个检查调查的完整性和与外部来源的一致性(例如,计算出的劳动力参与是否符合ILO,WDI报告)。第二个检查随着时间的推移在一个国家进行的一系列调查,以发现该系列中任何意外的跳跃。 最后,通过与GLD团队或在线GitHub平台的直接交流,用户可以提醒团队协调中已经通过的问题。然后,更新协调的过程开始,以尝试尽快纠正任何问题。有关所有质量检查的更详细说明,请参见第4节。验证和质量检查。 1.5.与类似数据工作的互补性 在世界银行内部,还有另外两个协调举措:(1)I2D2对LFS和家庭调查的协调,已经活跃了十多年,最近已经停止;(2)全球监测数据库(GMD)仅协调主要用于贫困和不平等分析的家庭预算调查。 The GMD thus includes variables on household consumption and calculates certain income and consumption aggregatesthat are not present in GLD. On the other hand, GLD has more detailed labor 变量,特别是使用ISIC和ISCO代码尽可能深入地提供(在可能的情况下)行业和职业信息。由于两者都使用一组共同的变量,因此两者都可以用作自动化分析工具的输入。例如,就业指标数据库(JOIN)就是这种情况,它从GMD、GLD和I2D2中读取数据以创建国家指标。此外,GLD在其数据字典中提供了比GMD更大的迁移变量集。 最后,在试图在原始数据中的协调和信息之间取得平衡时,GLD还从原始数据中存储了比GMD(或I2D2)更多的“原始”变量。也就是说,有更多的变量直接向用户提供在调查中可以找到的信息。例如,除了'occup'和'occup _ isco'(按10个主要类别或ISCO代码划分的职业信息),'occup _ orig'包含调查中发现的职业信息。因此,用户可以偏离我们的代码,而无需重新进行协调并评估如何直接完成从原始变量到协调变量的映射。 同样,国际劳工组织协调LFS以生成在ILOSTAT数据平台上发布的指标,尽管基本的协调微观数据和相关代码并未像GLD那样公开。ILOSTAT平台为用户提供了一套广泛的指标,不仅涉及劳动力市场,还涉及国际劳工组织调查目录中180多个国家的其他社会经济和社会人口信息。然而,微观数据只能向劳工组织工作人员提供。此外