行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

设计和分析强大的实验：应用研究人员的实用技巧（英）

机械设备 2025-07-01 世界银行 Michael Wong 香港继承教育

本文探讨了如何通过设计和分析改进随机实验的统计功效。作者指出，许多随机实验可能存在功效不足的问题，导致研究结果无法有效指导政策制定。文章从设计、实施和分析三个阶段提出了提高实验功效的实用建议。

设计阶段：

选择估计量：研究者可以通过筛选掉可能流失、不合规或异常的单位来改变研究人群，从而提高特定子群体的功效。选择更接近干预措施的因果链中的结果变量，以及使用 Winsorized 或二进制变量替代连续变量，也能有效提高功效。对于聚类实验，选择低 ICC 的结果变量，并确保聚类规模均衡，可以提升功效。
选择干预措施：建议尽量减少干预措施的数量，并使其尽可能集中和有效。如果需要测试多种干预措施，应选择可以合并的干预措施，以提高功效。
设计选择以减少方差和 ICC：使用分层或匹配四重奏随机分配方法可以减少残差方差，从而提高功效。对于聚类实验，选择更同质的聚类单元可以降低 ICC，提高功效。

实施阶段：

提高参与率和减少非合规：通过筛选感兴趣的单位、使用提醒和激励措施、以及设置候补名单等方法，可以提高干预措施的参与率，减少非合规现象，从而提高功效。
减少流失：通过多种方式联系参与者、进行多次调查尝试，以及寻找其他数据来源（如行政数据或网络数据），可以减少流失，提高有效样本量，从而提高功效。
通过仔细关注测量减少方差：通过嵌入一致性检查、使用锚定和三角测量方法、结合多个测量指标，以及谨慎处理包含大量零的数字等问题，可以减少测量误差，提高功效。

分析阶段：

改变检验统计量或估计量：在某些情况下，使用单边检验可以增加检测特定方向影响的功效。对于低参与率或高非合规率的实验，可以使用工具变量估计量或加权估计量来提高对接受干预单位影响的估计精度。对于多个结果变量，可以构建指标来综合评估干预效果。
控制变量的选择：包含滞后因变量作为控制变量可以显著提高功效，尤其是在结果变量高度自相关的实验中。其他能够预测结果变量的控制变量也能提高功效。
通过贝叶斯分析结合外部信息：使用基于文献、专家或参与者提供的信息构建先验分布，可以结合外部信息提高估计精度，尤其是在样本量固定的情况下。

结论：

本文强调了提高随机实验功效的重要性，并提供了在设计和分析阶段提高功效的实用建议。作者指出，实验的功效并非固定不变，研究者可以通过多种方式提高功效，从而获得更可靠的研究结果，为政策制定提供更有效的指导。

政策研究工作论文设计和分析强大的实验应用研究人员实用技巧大卫·麦肯齐本文的一个经过验证的可重复性包是可在 http://reproducibility.worldbank.org 获取点击这里用于直接访问。政策研究工作报告11176 摘要本文就如何通过研究人员在设计、实施和分析阶段可以采取的选择和行动来提高随机实验中的统计功效提供实用建议。在设计阶段，估计量的选择、处理的选择以及影响残差方差和组内相关性的决策都会影响给定样本量的功效。在实施阶段，研究人员可以通过提高治疗依从性、减少 Attrition 和改善结果来提高功效。测量。在分析阶段，可以通过使用不同的检验统计量或估计量、选择控制变量以及在与贝叶斯分析中纳入信息先验来增加功效。一个关键信息是谈论实验的“功效”没有意义。一项研究对于一种结果或估计量可能具有足够的功效，但其他方面则不一定，并且固定的样本量可以根据研究者的决定产生非常不同的功效水平。本文是发展经济学发展研究小组的产品。它是世界银行提供其研究公开访问并促进全球发展政策讨论的一项更大努力的一部分。政策研究工作论文也发布在 http://www.worldbank.org/prwp 上。作者可通过 dmckenzie@worldbank.org联系。本论文的验证重现性软件包可在 http://reproducibility.worldbank.org 获得，点击这里用于直接访问。政策研究工作论文系列发布进展中的研究成果，以鼓励人们就发展问题进行思想交流。该系列的一个目标是快速发布研究成果，即使展示的内容不太完善。论文会注明作者姓名，并应相应引用。本文表达的研究成果、解释和结论完全是作者个人的观点。它们不一定代表国际复兴开发银行/世界银行及其附属机构、或世界银行的执行董事或他们所代表的政府的观点。设计和分析强大的实验：应用研究人员实用技巧# 大卫·麦肯齐，世界银行 1. 简介过去二十年见证了经济学家使用随机实验来回答政策和研究问题的快速增长。截至2025年3月24日，美国经济协会的随机对照试验注册处已注册超过10,000项研究，分布在全球170个国家。通常，这些研究旨在测试一项或多项政策干预措施或处理措施的影响，并进行假设检验以确定处理措施是否产生了显著影响。这些实验检测处理效应的能力取决于其统计功效，即当无效假设不成立时拒绝无效假设的概率。但是，其中许多实验可能功效不足。Ioannidis等人(2017)声称，经济学中近一半的研究领域有90%的结果功效不足，尽管他们确实德拉维加纳和琳奥斯无法区分实验和非实验估计。(2022)发现，当在大规模实施的助推治疗效 1果远小于常规情况时，一个原因是许多学术实验的效力不足，而发表偏差进一步加剧了这种效应，因为效力不足且未发现效果的研究不太可能被发表。进行效力不足的研究会浪费研究人员的 время和资助者的资源，并导致无法得出结论的结果，这些结果无法为政策提供指导，或者会导致错误的政策结论。例如，McKenzie (2021)指出，商业培训没有效果的结论是的结果是文献中大多数研究都缺乏足够的效力来检测元分析所揭示的5-10%的改进。虽然增加样本量是显而易见的解决方案，但Faridani (2024)计算表明，如果将样本量加倍，发表在顶级期刊的经济学实验的效力平均只会增加7.2个百分点。本文提供了除单纯增加样本量之外，可用于设计和分析强大实验的实用指导。虽然我的关注点和经验基于实地实验，但其中许多细节同样适用于实验室实验和非实验评估。2大多数关于功率计算的讨论都采用估计值、处理目标结果、方差和组内相关系数如给定，然后重点在于或是在给定样本中计算最小检测效应（MDE）N或计算样本量N需要达成预期的MDE。相比之下，本文认为实验的设计、实施和分析阶段所做的选择可以改变所有这些输入，从而提高统计功效。我使用一个哥伦比亚设计的旨在提升企业出口的实验为例，来说明这些观点。在设计阶段，我讨论了四种研究人员可以做出的选择来提高功效。第一种是通过决定谁不应该参与研究来改变目标人群和相应的估计目标，从而筛选掉可能流失的单元、不太可能遵守治疗的单元或离群值。其次，同一个实验对某些结果可能具有足够的功效，而对另一些结果则不然。选择在因果链中更接近干预措施的结果可以提高功效。关于使用连续型、Winsorized型或二分法的测量方式的决定也会极大地影响功效。通过使用多个后续测量指标，特别是对于非高度自相关的结果，可以将功效提高，通过将估计目标变为跨轮次合并的平均影响。在分簇实验中，簇内相关系数在不同结果中会有所不同，而簇大小的变化也会影响功效。在实施阶段，可以通过采取激励措施、提醒和排队等候等行动来提高采纳率并减少不合规行为，从而增加功效。为了减少人员流失而进行的调查工作会增加有效样本量和功效。对测量的仔细关注可以减少残差方差，并更容易检测到处理效应。在分析阶段，检验统计量的选择会影响功效。我讨论了何时以及是否使用单侧检验而不是双侧检验，使用对受处理影响更大的单元和结果赋予更多权重的估计量，以及专注于确定是否存在任何效应而不是该效应是什么的检验。通过包括额外的控制变量来吸收残差变异可以增加功效。在 Ancova 估计中，滞后因变量是最重要的，特别是当结果高度自相关时，而在实践中，很少有其他控制变量能在大多数情况下提供显著的功效提升。最后，通过贝叶斯分析以信息先验的形式纳入外部信息可以增加功效。综上所述，这一系列行动可以极大地提高给定的样本量的功效。本文有助于扩展经济学实验设计中应用问题的文献。Duflo等人（2007）和Glennerster和Takavarasha（2013）的教科书提供了优秀的概述。在之前的工作中，我研究了如何随机化（Bruhn和McKenzie，2009）、如何使用多个时间段来提高功效（McKenzie，2012），以及如果他们需要功效计算来判断是否有效，那么减贫政策是否真的有用（McKenzie，2020）。还有一篇有用的文献介绍了当我们偏离教科书标准情况时如何进行功效计算（例如McConnell和Vera-Hernández（2025）；Burlig等人（2020）；以及Blair等人（2023））。本文基于这项工作，为研究人员提供具体的、实用的行动建议，以改善功效。 2.基本设置：实验中检测处理效应的统计功效考虑设计一个实验来测试某些二元处理的冲击T在某个给定的结果上Y,可以是连续的或二元的。然后研究人员需要指定估计量该参数或感兴趣的具体数量。在许多随机实验中，这是意向治疗效应（ITT）效应，即人群中的平均效应A分配到治疗组而非对照组的兴趣：在一个个体随机中，本N从种群A被选中，然后是一个比例PYY被随机分配到治疗组，并且比例 ∈ − ∈ 1-P将其分配到照。然后通运行回，得到理效的 OLS 估量 3: ̂ 𝛽𝛽OLS 估计的处理效应的方差则给出：在哪里，如果没有分配到理的平均效，将拒零假如果：2是残差的方差. 然后 = 0 的原假行，在正分布中，当假真，在1.96会拒零假，是1减去概率（是著性水平，通常5百分比）/=0.05). 该检验的统计效力是 2犯第二（当原假未能拒原假）。我可以通固定功效（通常定80 百分），利用此定来推出可到的最小效（MDE）大小：是从准中得到的界或者重新排列这个（例如，参见格伦纳斯特和塔卡瓦拉斯（2013年，第269-270页）以获得统计功效的公式：$ \\beta $ 1− 当函数递增时，它表明()是标准正态分布的累积分布函数。由于这个，等价地，幂将随着样本量的增大而更高N, 治疗组和控制组的残差方差越小。Φ 注意，在某些情况下，用户可能希望偏离治疗组和控制组的 50:50 分配。第一个情况是绑定约束不是样本量N2 可用，但用于将元入的可用算。然后，如果包括，以及当P=1/2，使得单位在处理单元中平均分配比包含控制单元更昂贵，在预算约束下，可以通过分配相对更多的单位到控制而不是处理来最大化功率。4 第二种，也是不太常见的原因是，存在一个强烈的先验，认为治疗可能会改变处理组的方差以及均值。()1 对于一个二元结果，方差Y这里是均值的公式Y治疗组T因此，如果有治疗 𝜋𝜋𝑇𝑇− 𝜋𝜋𝑇𝑇𝜋𝜋𝑇𝑇 改变比例的效果Y=1两组之间，这也导致两组的方差不同。然而，在原假设下，方差是相同的，在中等效应量下，如果不在尾部附近，方差的差异通常非常小。因此，即使在二元情况下，我也会假设方差相等来进行功效计算。我认为调整比例从50:50最强的情况是，预期只有少数人将从治疗中受益，并且结果是控制组和不从治疗中受益的人之间几乎没有变化。估计结果作为治疗的结果。)|than () 程序，结果是移民收入，预计 (almost)控制中没有人会迁移，并且只有10 = 1, 作具体的例子，假理是一个移民便利化 ∈ | = 0,，并且我们可能希望为-15% 的治将迁移和工作。然后 ∈ 5那么，如果结果中的所有异质性都来自移民，那么这可能就很难了，我们可能希望将更多单位置于处理组，以产生一个更大的移民样本。研究人员也通常进行整群随机实验，其中学校、卫生诊所或村庄等群体被随机分配到处理组和对照组。当样本量 N被分为J簇，每个簇具有相同数量的单元n，然后格伦纳斯特和塔卡瓦拉斯（2013）指出，方程（5）中的MDE乘以一个称为设计效应的附加项：在何处进行内部检测，对于给定的MDE，功率越低。当簇大小不相等时，存在一个额外的复杂性。Eldridge等人（2006年）指出，当簇大小不等，来自小簇的-估将不如来自大簇的估精确，但由于簇相关性。越高，于定的功率，MDE越高，或者向同一集群添加更多单元的收益递减，随着集群规模变得越不平衡，整体功率将下降。这体现在设计效应项变为：哪里简历是群组规模的变异系数和DD −�n现在是无差异聚类规模。如果聚类规模相同，CV=0，方程(8)简化为方程(7)，否则，聚类规模越不平等，MDE越大或功率越小。大多数教材和理论分析将估计量、处理、结果、方差和组内相关性视为既定，并将问题设定为选择样本大小N 为了使用。然而，在实践中，样本量通常由政策或预算限制决定，而研究人员的选择可以改变所有这些，从而导致更强大的实验。 3. 一个实用例子为了说明研究中出现的一些实际问题以及通过设计和分析选择改变研究效力的方法，我将使用哥伦比亚政府实施并由Iacovone等人（2025）研究的出口改进计划案例。我使用的是复现软件包（Iacovone等人，2024）中的数据。该计划由政府发起，旨在提高参与企业的生产力和出口能力。这里的处理包括旨在改善企业管理实践的服务。企业申请该计划，其中200家企业符合政府的资格标准。图1显示了这200家企业在基线时员工数量和出口额的直方图。它们非常异质性：平均（中位数）企业规模为73（42）名员工，标准差为106名员工，范围从2到750名员工。一半的企业在计划实施前的年份出口额为0，平均值为338,000美元，标准差超过100万美元。 4. 设计阶段提高功率研究人员可以通过

点击免费查看完整报告

设计和分析强大的实验：应用研究人员的实用技巧（英）

你可能感兴趣

设计和分析强大的实验：应用研究人员的实用技巧

最有价值和最强大的化学品品牌50强的2025年度报告农业科学、农业营养素和油漆涂料品牌的补充分析（英）

用于合规风险分析的生成性人工智能：在税务和海关管理中的应用（英）

基础、应用和实验知识与生产力：进一步的证据

公开共享的数据：整个数据生命周期中研究人员行动和机构支持的差距分析

罗马尼亚最具价值和最强大品牌50强的2025年度报告（英）

最具价值和最强大的服装品牌50强的2025年度报告（英）2025

沙特阿拉伯最具价值和最强大品牌100强的2025年度报告（英）

最有价值和最强大的印度超级联赛品牌的2025年度报告（英）2025

最有价值和最强大的美国品牌500强的2026年度报告（英）2026

设计和分析强大的实验：应用研究人员的实用技巧（英）

你可能感兴趣

设计和分析强大的实验：应用研究人员的实用技巧

最有价值和最强大的化学品品牌50强的2025年度报告农业科学、农业营养素和油漆涂料品牌的补充分析（英）

用于合规风险分析的生成性人工智能：在税务和海关管理中的应用（英）

基础、应用和实验知识与生产力 ： 进一步的证据

公开共享的数据 ： 整个数据生命周期中研究人员行动和机构支持的差距分析

罗马尼亚最具价值和最强大品牌50强的2025年度报告（英）

最具价值和最强大的服装品牌50强的2025年度报告（英）2025

沙特阿拉伯最具价值和最强大品牌100强的2025年度报告（英）

最有价值和最强大的印度超级联赛品牌的2025年度报告（英）2025

最有价值和最强大的美国品牌500强的2026年度报告（英）2026

基础、应用和实验知识与生产力：进一步的证据

公开共享的数据：整个数据生命周期中研究人员行动和机构支持的差距分析