政策研究工作论文 设计和分析强大的实验 应用研究人员实用技巧 大卫·麦肯齐 本文的一个经过验证的可重复性包是可在 http://reproducibility.worldbank.org 获取点击这里用于直接访问。 政策研究工作报告11176 摘要 本文就如何通过研究人员在设计、实施和分析阶段可以采取的选择和行动来提高随机实验中的统计功效提供实用建议。在设计阶段,估计量的选择、处理的选择以及影响残差方差和组内相关性的决策都会影响给定样本量的功效。在实施阶段,研究人员可以通过提高治疗依从性、减少 Attrition 和改善结果来提高功效。 测量。在分析阶段,可以通过使用不同的检验统计量或估计量、选择控制变量以及在与贝叶斯分析中纳入信息先验来增加功效。一个关键信息是谈论实验的“功效”没有意义。一项研究对于一种结果或估计量可能具有足够的功效,但其他方面则不一定,并且固定的样本量可以根据研究者的决定产生非常不同的功效水平。 本文是发展经济学发展研究小组的产品。它是世界银行提供其研究公开访问并促进全球发展政策讨论的一项更大努力的一部分。政策研究工作论文也发布在 http://www.worldbank.org/prwp 上。作者可通过 dmckenzie@worldbank.org联系。本论文的验证重现性软件包可在 http://reproducibility.worldbank.org 获得,点击这里用于直接访问。 政策研究工作论文系列发布进展中的研究成果,以鼓励人们就发展问题进行思想交流。该系列的一个目标是快速发布研究成果,即使展示的内容不太完善。论文会注明作者姓名,并应相应引用。本文表达的研究成果、解释和结论完全是作者个人的观点。它们不一定代表国际复兴开发银行/世界银行及其附属机构、或世界银行的执行董事或他们所代表的政府的观点。 设计和分析强大的实验:应用研究人员实用技巧# 大卫·麦肯齐,世界银行 1. 简介 过去二十年见证了经济学家使用随机实验来回答政策和研究问题的快速增长。截至2025年3月24日,美国经济协会的随机对照试验注册处已注册超过10,000项研究,分布在全球170个国家。通常,这些研究旨在测试一项或多项政策干预措施或处理措施的影响,并进行假设检验以确定处理措施是否产生了显著影响。这些实验检测处理效应的能力取决于其统计功效,即当无效假设不成立时拒绝无效假设的概率。但是,其中许多实验可能功效不足。Ioannidis等人(2017)声称,经济学中近一半的研究领域有90%的结果功效不足,尽管他们确实德拉维加纳和琳奥斯无法区分实验和非实验估计。(2022)发现,当在大规模实施的助推治疗效 1果远小于常规情况时,一个原因是许多学术实验的效力不足,而发表偏差进一步加剧了这种效应,因为效力不足且未发现效果的研究不太可能被发表。进行效力不足的研究会浪费研究人员的 время和资助者的资源,并导致无法得出结论的结果,这些结果无法为政策提供指导,或者会导致错误的政策结论。例如,McKenzie (2021)指出,商业培训没有效果的结论是的结果是文献中大多数研究都缺乏足够的效力来检测元分析所揭示的5-10%的改进。虽然增加样本量是显而易见的解决方案,但Faridani (2024)计算表明,如果将样本量加倍,发表在顶级期刊的经济学实验的效力平均只会增加7.2个百分点。 本文提供了除单纯增加样本量之外,可用于设计和分析强大实验的实用指导。虽然我的关注点和经验基于实地实验,但其中许多细节同样适用于实验室实验和非实验评估。2大多数关于功率计算的讨论都采用估计值、处理 目标结果、方差和组内相关系数如给定,然后重点在于或是在给定样本中计算最小检测效应(MDE)N或计算样本量N需要达成预期的MDE。相比之下,本文认为实验的设计、实施和分析阶段所做的选择可以改变所有这些输入,从而提高统计功效。我使用一个哥伦比亚设计的旨在提升企业出口的实验为例,来说明这些观点。 在设计阶段,我讨论了四种研究人员可以做出的选择来提高功效。第一种是通过决定谁不应该参与研究来改变目标人群和相应的估计目标,从而筛选掉可能流失的单元、不太可能遵守治疗的单元或离群值。其次,同一个实验对某些结果可能具有足够的功效,而对另一些结果则不然。选择在因果链中更接近干预措施的结果可以提高功效。关于使用连续型、Winsorized型或二分法的测量方式的决定也会极大地影响功效。通过使用多个后续测量指标,特别是对于非高度自相关的结果,可以将功效提高,通过将估计目标变为跨轮次合并的平均影响。在分簇实验中,簇内相关系数在不同结果中会有所不同,而簇大小的变化也会影响功效。 在实施阶段,可以通过采取激励措施、提醒和排队等候等行动来提高采纳率并减少不合规行为,从而增加功效。为了减少人员流失而进行的调查工作会增加有效样本量和功效。对测量的仔细关注可以减少残差方差,并更容易检测到处理效应。在分析阶段,检验统计量的选择会影响功效。我讨论了何时以及是否使用单侧检验而不是双侧检验,使用对受处理影响更大的单元和结果赋予更多权重的估计量,以及专注于确定是否存在任何效应而不是该效应是什么的检验。通过包括额外的控制变量来吸收残差变异可以增加功效。在 Ancova 估计中,滞后因变量是最重要的,特别是当结果高度自相关时,而在实践中,很少有其他控制变量能在大多数情况下提供显著的功效提升。最后,通过贝叶斯分析以信息先验的形式纳入外部信息可以增加功效。综上所述,这一系列行动可以极大地提高给定的样本量的功效。 本文有助于扩展经济学实验设计中应用问题的文献。Duflo等人(2007)和Glennerster和Takavarasha(2013)的教科书提供了优秀的概述。在之前的工作中,我研究了如何随机化(Bruhn和McKenzie,2009)、如何使用多个时间段来提高功效(McKenzie,2012),以及如果他们需要功效计算来判断是否有效,那么减贫政策是否真的有用(McKenzie,2020)。还有一篇有用的文献介绍了当我们偏离教科书标准情况时如何进行功效计算(例如McConnell和Vera-Hernández(2025);Burlig等人(2020);以及Blair等人(2023))。本文基于这项工作,为研究人员提供具体的、实用的行动建议,以改善功效。 2.基本设置:实验中检测处理效应的统计功效 考虑设计一个实验来测试某些二元处理的冲击T在某个给定的结果上Y,可以是连续的或二元的。然后研究人员需要指定估计量该参数或感兴趣的具体数量。在许多随机实验中,这是意向治疗效应(ITT)效应,即人 群中的平均效应A分配到治疗组而非对照组的兴趣: 在一个个体随机 中, 本 N从种群A被选中,然后是一个比例PYY被随机分配到治疗组,并且比例 ∈ − ∈ 1-P将其分配到 照 。然后通 运行 回 ,得到 理效 的 OLS 估 量 3: ̂ 𝛽𝛽OLS 估计的处理效应的方差 则给出: 在哪里,如果没有分配到 理的平均效 ,将拒 零假 如果: 2是残差 的方差 . 然后 = 0 的原假 行 , 在正 分布中,当假 真 , 在1.96 会拒 零假 , 是1减去概率 ( 是 著性水平,通常 5百分比)/=0.05). 该检验的统计效力是 2犯第二 (当原假 未能拒 原假 )。我 可以通 固定功效(通常 定 80 百分),利用此 定来推 出可 到的最小效 (MDE)大小: 是从 准 中得到的 界 或者重新排列这个(例如,参见格伦纳斯特和塔卡瓦拉斯(2013年,第269-270页)以获得统计功效的公式:$ \\beta $ 1− 当函数递增时,它表明()是标准正态分布的累积分布函数。由于这个,等价地,幂将随着样本量的增大而更高N, 治疗组和控制组的残差方差越小。Φ 注意,在某些情况下,用户可能希望偏离治疗组和控制组的 50:50 分配。第一个情况是绑定约束不是样本量N2 可用,但用于将 元 入 的可用 算。然后,如果包括 ,以及当P=1/2,使得单位在处理单元中平均分配比包含控制单元更昂贵,在预算约束下,可以通过分配相对更多的单位到控制而不是处理来最大化功率。4 第二种,也是不太常见的原因是,存在一个强烈的先验,认为治疗可能会改变处理组的方差以及均值。()1 对于一个二元结果,方差Y这里是均值的公式Y治疗组T因此,如果有治疗 𝜋𝜋𝑇𝑇− 𝜋𝜋𝑇𝑇𝜋𝜋𝑇𝑇 改变比例的效果Y=1两组之间,这也导致两组的方差不同。然而,在原假设下,方差是相同的,在中等效应量下,如果不在尾部附近,方差的差异通常非常小。因此,即使在二元情况下,我也会假设方差相等来进行功效计算。我认为调整比例从50:50最强的情况是,预期只有少数人将从治疗中受益,并且结果是控制组和不从治疗中受益的人之间几乎没有变化。估计结果作为治疗的结果。)|than () 程序,结果是移民收入,预计 (almost)控制 中没有人会迁移,并且只有10 = 1, 作 具体的例子,假 理是一个移民便利化 ∈ | = 0,,并且我们可能希望为-15% 的治 将迁移和工作。然后 ∈ 5那么,如果结果中的所有异质性都来自移民,那么这可能就很难了,我们可能希望将更多单位置于处理组,以产生一个更大的移民样本。 研究人员也通常进行整群随机实验,其中学校、卫生诊所或村庄等群体被随机分配到处理组和对照组。当样本量 N被分为J簇,每个簇具有相同数量的单元n,然后格伦纳斯特和塔卡瓦拉斯(2013)指出,方程(5)中的MDE乘以一个称为设计效应的附加项: 在何处进行内部检测,对于给定的MDE,功率越低。当簇大小不相等时,存在一个额外的复杂性。Eldridge等人(2006年)指出,当簇大小不等 ,来自 小簇的 -估 将不如来自 大簇的估 精确,但由于 簇相关性。 越高 , 于 定的功率,MDE越高,或者向同一集群添加更多单元的收益递减,随着集群规模变得越不平衡,整体功率将下降。这体现在设计效应项变为: 哪里简历是群组规模的变异系数和DD −�n现在是无差异聚类规模。如果聚类规模相同,CV=0,方程(8)简化为方程(7),否则,聚类规模越不平等,MDE越大或功率越小。 大多数教材和理论分析将估计量、处理、结果、方差和组内相关性视为既定,并将问题设定为选择样本大小N 为了使用。然而,在实践中,样本量通常由政策或预算限制决定,而研究人员的选择可以改变所有这些,从而导致更强大的实验。 3. 一个实用例子 为了说明研究中出现的一些实际问题以及通过设计和分析选择改变研究效力的方法,我将使用哥伦比亚政府实施并由Iacovone等人(2025)研究的出口改进计划案例。我使用的是复现软件包(Iacovone等人,2024)中的数据。该计划由政府发起,旨在提高参与企业的生产力和出口能力。这里的处理包括旨在改善企业管理实践的服务。企业申请该计划,其中200家企业符合政府的资格标准。图1显示了这200家企业在基线时员工数量和出口额的直方图。它们非常异质性:平均(中位数)企业规模为73(42)名员工,标准差为106名员工,范围从2到750名员工。一半的企业在计划实施前的年份出口额为0,平均值为338,000美元,标准差超过100万美元。 4. 设计阶段提高功率 研究人员可以通过