
一、背景介绍 本报告提供了2022年8月至2023年8月期间在秘鲁实施的世界银行企业调查(以下简称世行企业调查)的相关情况。世行企业调查收集基于企业日常感受的客观数据以及企业对其经营环境的看法。自2006年以来,世行共开展了340次企业调查,覆盖155个国家的200,000多家企业。世行企业调查还用于构建企业数据库,以跟踪营商环境随时间的变化。1 本报告描述了调查的抽样设计、数据集结构以及在使用数据时可能有用的附加信息,例如关于调查中无响应的情况和抽样权重的适当使用。 二、抽样结构 世行企业调查采用分层随机抽样法,首先将企业分成不重叠的群体,称为分层,然后通过简单的随机抽样从每个分层中选择被调查对象。抽样方法详见《抽样说明》。2分层随机抽样与简单随机抽样相比有几个优点。具体来说,分层随机抽样: •抽样结果对总样本、调查对象总体及各分层样本无偏差 •通过对所有分层的取样调查来确保调查结果的代表性 •在给定的样本量或预算的前提下产生更精确的调查结果,并且 •可以通过将总样本划分为分层样本来降低实施调查的成本。 世行企业调查通常使用三个层次的分层:行业分类、企业规模和区域(上述分层可以组合使用)。从2022年开始,世行企业调查将基于ISICRev.4(国际标准行业分类第四版)的行业分类(早期的调查使用ISICRev.3.1)。3世行企业调查在一个国家内按区域分层,并覆盖全国。 (一)分层类别。 秘鲁2023世行企业调查使用以下分层类别: •行业:7类: •制造业:食品、纺织、服装、其他制造业•服务业:零售、宾馆、其他服务业 •规模:3类: 小型企业(雇员数5至19人),中型企业(雇员数20至99人),大型企业(雇员数100人及以上)。 •区域:5类: 利马、阿雷基帕、奇克拉约、特鲁希略、皮乌拉 制造业企业是依据国家海关和税务管理局(SUNAT)2022年3月发布数据中的就业人数、企业总数、销售额进行 分层。具体分层的制造业占世行企业调查所覆盖的样本总就业人数的53%,占机构数量的33%,占销售价值的33%;“其他制造业”企业为剩余份额。 服务业企业同样依据国家海关和税务管理局2022年3月发布数据进行分层。具体分层的服务业占世行企业调查所覆盖的样本总就业人数的20%,占机构数量的17%,占销售价值的20%;“其他服务业”企业为剩余份额。 秘鲁2023世行企业调查的地区分层是根据行政区划选择的,目的是在每个分层区域的水平上达到所需的最低估计精度。利马覆盖利马地区,阿雷基帕覆盖阿雷基帕地区,特鲁希略覆盖拉利伯塔德地区,奇克拉约覆盖兰巴耶克地区,最后皮乌拉覆盖皮乌拉地区。该国最偏远的地区并不是秘鲁世行企业调查样本的一部分。 (二)总样本。 企业调查的总样本包括所有正式的(即注册的)私营企业(私人持股至少占1%),企业至少有5名雇员。就行业标准而言,所有制造业(ISICRev.4,代码10-33)企业均为符合条件的企业;对于服务业,与ISICRev.4代码41-43、45-47、49-53、55-56、58、61-62、69-75、79和95相对应的企业为符合条件的企业。企业调查总样本不包括合作社和集体企业。所有符合条件的企业必须在注册机关注册。就秘鲁而言,负责注册的是是海关和税务管理局。总样本表是符合条件企业的总数,该表按照分层分组(行业分类、企业规模、区域)进行划分。 对于秘鲁2023世行企业调查,总样本表见表1,数据来自秘鲁海关和税务管理局。 (三)抽样框架。 世行企业调查要求最完整和最新的抽样框架,符合条件的企业名单,包括行业分类、规模、地址和其他联系信息,将用于随机抽样。在开展过上一轮抽样的经济体,除了世行企业调查之外,抽样框架还包括面板(pannel)(参加过上一轮世行企业调查的企业集合)抽样框架,它提供了有关该经济提参加上一轮世行企业调查的所有企业的信息。 秘鲁2023世行企业调查的抽样框架由以下来源构建(见表2抽样框架中的企业数):面板抽样框架和未参加上一轮企业调查的企业(fresh)抽样框架。面板抽样框架来自参加秘鲁2017世行企业调查的所有企业的信息;未参加上一轮企业调查的企业(fresh)抽样框架,指从秘鲁海关和税务管理局获得。 对于每一个世行企业调查,都会采取必要的措施来保证框架的质量;然而,样本框架仍不能免于机构调查中通常遇到的典型问题:样本不符合条件、重复、样本企业不存在等。考虑到总样本中包含不符合条件的企业可能对结果产生的影响,在为单个调查结果计算适当的抽样权重时(当且仅当权重是在同样是总样本的抽样框架中计算时),可能需要对样本的符合条件性进行调整。表4为响应结果。 (四)样本设计。 世行企业调查样本设计,即每个分层类别(单元)组合 中的目标访谈数,是使用两个主要标准生成的:一是最小化与每个单元内样本比例的差异;二是通过分层类别获取足够的样本量,以允许在给定精度水平下对调查结果进行计算。4关于按分层类别确定样本量的标准的附加信息载于《抽样说明》,关于样本设计的附加信息载于《企业调查手册和指南》。5表3给出了秘鲁2023世行企业调查的原始调查设计。 三、数据收集 有关世行企业调查方法和数据收集的详细信息载于《企业调查手册和指南》。秘鲁2023世行企业调查的访谈在2022年8月至2023年8月期间进行。访谈的语言为西班牙语。货币为秘鲁新索尔。 通过在2023年5月至2023年10月期间进行的后续电话调查,收集了大约30个变量;这些变量的后缀为_BR。虽然有人试图重新联系所有参与基线调查的机构,以收集B-ready报告所需的变量,但在后续调查中发生了人员流失:830人被成功地重新联系(84%的实现率);139人拒绝参与,18人无法获得。 除了参与和回调是所有调查的标准挑战外,秘鲁2023世行调查由于2023年前三个月的政治不稳定和2023年3月的不利气候事件而面临挑战。这两起事件都导致受影响地区的 实地工作暂时暂停 (一)问卷。 标准的世行企业调查问卷涵盖了有关营商环境和企业活动的若干主题。这些主题包括一般企业特征、基础设施、销售和供应、管理实践、竞争、创新、能力、土地和许可证、财务、企业与政府关系、贿赂风险、劳工和绩效。有关调查问卷总体结构的信息可在《企业调查手册和指南》中找到。 在秘鲁2023世行企业调查中实施的问卷调查包括绿色经济相关主题。 在秘鲁2023世行企业调查中实施的问卷调查包括专门为世行营商环境新评估体系(B-Ready)量身定制的问题。 (二)承包商。 秘 鲁2023世 行 企 业 调 查的 现 场 工 作 由DatumInternacionalSA实施。实施调查机构的选择依照世界银行标准采购做法,该做法在《企业调查手册和指南》中有更详细的描述。 (三)抽样和筛选。 样本由企业调查小组根据分层和样本设计分批抽取。被调查企业是否符合条件的筛选是在现场进行的。表4所列的是否符合条件和状态代码提供了筛选结果。在被联系的企业无响应的情况下(拒绝或在竭尽全力尝试后无法获得访谈机会),承包商将继续联系在各单元中列出的下一个企业。抽样和筛选的过程在《企业调查手册和指南》中有更详细的描述。 (四)调查响应。 在所有的调查中,包括世行企业调查,总有一些被联系企业选择不参加调查。企业分析团队和承包商通过包括扩大联系企业数等各种必要措施来提高调查参与度。同时,世行分析团队和承包商会对筛选过程和样本更换进行适当管理,以确保所得到的样本仍然保持随机性。 衡量调查参与度的主要标准是产出率,即完成问卷访谈的企业总数(参与调查的企业总数)与被联系的企业总数之比。提高产出率的主要因素有两个。首先是调查参与率,衡量的是参与调查的企业总数占那些可以被认为符合条件的企业总数中所占的比例。第二个要素是框架的质量。如果只有一小部分被联系的企业真正符合条件,那么抽样框架就远不够理想。这种质量是通过假定符合条件的企业总数与框架内联系的企业总数的比率来衡量。换句话说,即:“产出率=调查参与率*框架的质量比率”,可以改写如:“完成问卷访谈的企业总数/联系的企业总数=完成问卷访谈的企业总数/符合条件的企业总数+符合条件的企业总数/联系的企业总数” 表5提供了秘鲁2023世行企业调查及其各分层的这些衡量标准的结果。 (五)完成访谈的样本。 表6和表7提供了每个分层单元收集的世行企业调查访谈数,即按行业、企业规模和区域分列。表6显示了完整的样本,而表7仅显示了面板访谈的数量。 (六)抽样权重。 由于世行企业调查使用分层随机抽样,因此在对总体进行推断时,应该对单个观察进行适当的加权,因为除非样本量与每个分层的大小成比例,否则未加权的估计是有偏差的。对于每个世行企业调查,都要特别注意正确计算抽样权重。每当使用每个分层总样本来绘制样本时(即,抽样框架与总样本相同),必须准确调整每个分层内的总样本,以解释不符合条件机构的存在(例如,停止了业务,或由于其业务活动或少于5名员工而被视为不符合条件)。对面板机构的适当处理也至关重要。关于如何计算世行企业调查抽样权重的详细信息在《抽样说明》中给出。 根据对世行企业调查总样本中企业符合条件的假设,三种版本的抽样权重被用于计算。这些假设被称为弱假设、中假设、强假设,定义如下表所示。表4给出了秘鲁2023世行企业调查的每种假设的结果。企业调查团队进行的所有指标和分析都使用基于中度假设的抽样权重。表8-10报告了基于各自的估计范围的总样本。 假设纳入世行企业调查总样本的合格代码强假设1,2,3,4,16中假设1、2、3、4、10、11、13弱假设1、2、3、4、10、11、13,91,92,93,94,12 (七)项目响应率。 项目响应率必须与调查响应率区分开来。后者指的是参与调查本身的响应率(见第三(四)节),而前者指的是对具体调查问题的响应。6与任何调查一样,世行企业调查也存在项目无响应的问题;而数据收集团队则采用了不同的策略来解决这个问题。特别是: •对于敏感问题,如腐败或逃税,普查员将收集“拒绝回答(-8)”,以区别“不知道(-9)”的回答。 •重新联系信息不完整的企业,让企业继续回答空白的项目。 表11提供了不同的分层水平上几个关键变量的项目响应率。 (八)数据库结构。 世行企业调查数据文件结构对应相应的问卷。各国企业调查数据文件都是标准统一的,变量名称的第一个字母对应调查问卷变量的所属部分,即a1表示a部分。对于秘鲁2023世行企业调查,专门为世行营商环境新评估体系(B-Ready)引入的问题使用前缀BEE,后跟与该部分对应的第一个字母。所有变量都是数字,除了那些在其名称末尾带有“x”的变量。后缀“x”表示变量是字母数字组合。 世行企业调查数据文件包含两个企业标识符,“idstd”和“id”。前者是每个企业的全球唯一标识符,后者是该企业在调查中的唯一标识符。变量“idstd”可用于跨数据库一 对一地匹配世行企业调查样本库。变量wweak、wmedian和wstrong分别基于关于符合条件的弱、中和强假设来对应采样权重(参见第三(六))。变量“strata”对应于每个观测值的分层。 此外,世行企业调查数据文件包含许多标准变量。变量“d1a2_v4”表示在世行企业调查访谈期间获得的该企业的主要经营活动,变量值为四位数的ISICRev.4编码。用户应注意,此经营活动可能与抽样框架“a4a”中给出的行业分类不同。一般建议用户根据“d1a2_v4”中企业经营的实际信息进行行业分类。此外,抽样信息还包含在变量“a2”(region)和“a6a”(size)中。变量“面板(panel)”确定面板企业,即参加秘鲁2017世行企业调查的企业。“a4a”,“a2”,“a6a”和“面板”的组合构成了每个企业的分层,这些分层包含在变量“strata”中。 每个企业的上一个完整的财政年度包含在变量“a20m”(上一个完整财政年度的最后一个月份)和“a20y”(上一个完整财政年度)。 须注意的是,当