AI智能总结
(方法指南篇) 美团履约 & 外卖团队资深数据科学家撰写根据多年 AB 实验设计与评估经验系统阐述了 AB 实验的基础原理与应用案例 前言 为什么要写 AB 实验白皮书? 增长与优化是企业永恒的主题。面对未知的策略价值,数据驱动的 AB 实验已经成为互联网企业在策略验证、产品迭代、算法优化、风险控制等方向必备的工具。越来越多的岗位,如数据科学家、算法工程师、产品经理以及运营人员等,要求候选人了解 AB 实验相关知识。然而,许多从业者由于缺乏有效的学习渠道,对 AB 实验的理解仍停留在初级阶段,甚至存在一些误解。我们希望通过系统性地分享和交流AB 实验的理论基础、基本流程、核心要素及其应用优势,能够帮助更多相关人员深入了解实验,提升实验文化的普及度,最终辅助企业在更多领域做出精确数据驱动决策。 除了广泛传播实验文化外,该白皮书在深度上也可给实验研究人员,提供复杂业务制约下进行可信实验设计与科学分析评估的参考经验和启发。从美团履约技术团队、美团外卖业务的实践来看,实验者常常面临多种复杂的实验制约和难题,例如,在美团履约业务中,实验往往需要应对小样本、溢出效应(即实验单元间互相干扰)以及避免引发公平性风险等多重约束,需设计科学复杂的实验方案以克服相应挑战。通过撰写白皮书,我们系统性地总结和分享应对复杂实验约束的研究经验,进而能够促进实验技术的传播与升级,推动实验科学持续进步。 本白皮书以 AB 实验为中心,涵盖 AB 实验概述与价值、实验方法基础原理与案例剖析以及配套 SDK 代码分析等,内容丰富且易于理解和应用。适合从事 AB 实验研究 的数据科学家、系统开发人员,以及需要实验驱动策略决策的业务和产研团队,同时也适合对数据驱动增长和数据科学等领域感兴趣的读者。若本白皮书存在不当或者错误之处,欢迎大家批评指正,我们将不断完善与丰富内容,跟大家一起理解 AB 实验和数据科学,推动技术进步。 iv>可信实验白皮书 目录 第一部分AB 实验概述 1 第一章:走进 AB 实验1 1.1 了解 AB 实验1 1.2 深入 AB 实验——以到家可信实验为例3 第二部分基础原理与案例剖析10 第二章:AB 实验基础10 2.1 实验基础原理概述10 2.2 AB 实验统计学基础132.3 常用实验术语20 第三章:随机对照实验21 3.1 经典随机对照实验21 3.2 提高实验功效的办法36 3.3 进一步保证同质性的实验方式42 3.4 解决溢出效应难题的实验方式57 3.5 拓展与展望65 第四章:随机轮转实验68 4.1 抛硬币随机轮转69 4.2 完全随机轮转72 4.3 配对随机轮转754.4 拓展与展望77 第五章:准实验82 5.1 双重差分法835.2 拓展与展望90 第六章:观察性研究93 6.1 合成控制法946.2 匹配方法1006.3 Causal Impact1096.4 展望与拓展115 118 第七章:高阶实验工具 7.1 统合分析1187.2 多重比较1257.3 拓展与展望127 第三部分SDK 代码应用129 第八章:开放式分析引擎129 8.1 产品特性1298.2 系统设计1318.3 系统接入1338.4 线下分析实战134 总结与展望138 致谢138 第一部分AB 实验概述 第一章:走进 AB 实验 1.1 了解 AB 实验 工欲善其事,必先利其器。在这个数据驱动决策的时代,AB 实验已经成为洞察用户行为、优化产品体验的不可或缺的工具。AB 实验,又称为在线对照实验(OnlineControlled Experiment),其概念源自生物医学中的“双盲测试”,即将病人随机分为两组,在不知情的情况下分别给予安慰剂(或旧药物)和新药治疗,经过一段时间实验后再比较两组病人是否有显著差异,从而确定新药的有效性。自 2000 年Google 将 A/B 实验应用于互联网产品测试以来,这一方法已在包括美团在内的各大互联网公司得到了广泛应用。 假设美团履约侧在可为某些(用户,商家)提供配送服务时,想验证在 App 的 C 端产品上弹窗以及展示某标签是否能促进用户下单意愿。此时,AB 实验提供了理想的解决方案。如图 1-1 所示,其做法为通过圈选一部分用户并随机分配为实验组和对照组(随机分流可确保两组在诸多特征上无差异),实验组用户施加新功能 / 新版本策略,而对照组用户继续使用旧功能 / 旧版本策略。一段实验周期后基于日志系统和业务系统收集的用户指标数据进行分析,比较实验策略与对照策略是否有显著收益,并以此为依据判断新策略是否应推广到全部用户。 AB 实验之所以能迅速成为工业界数据驱动决策的黄金标准,主要归功于其能定性验证因果关系以及定量评估增长价值。某个策略的改变是否会导致产品指标的改变,本质上需要的是一种因果关系的判断,即“策略迭代优化”的因是否会带来“产品质量改变”的果。单凭经验以及相关性分析难以做成正确的决策,Google 和 Microsoft相关统计表明,即使很有经验的相关人士正确判断产品策略的概率也只有 1/3。依赖相关性同样可能导致错误的决策,例如提供订阅服务的微软 Office 365 观测到看到错误信息并遭遇崩溃的用户有较低的流失率,这是因为高使用率用户往往看到更多错误信息以及流失率更低。但这并不意味着 Office 365 应该显示更多的错误信息或者降低代码质量使得频繁崩溃。 另一个著名的相关性案例为国家的巧克力消耗量与获得诺贝尔奖的数量相关性高达 0.79,但这并不意味着通过提高巧克力消耗量可以提高诺贝尔奖数量。实际产品迭代过程中往往应透过相关性寻找真正的因果关系。而 AB 实验作为目前已知的快速、低成本、科学验证因果关系的最有效手段,其可以通过随机化过程等可有效控制除干预策略外,实验组、对照组间其他混杂变量与影响特征是均衡的,最终的结果差异可归因于完全由干预贡献。同时借助假设检验等统计理论,能够科学、定性地验证策略迭代是否会带来业务的真实提升。因此,在产品迭代中通常采用 AB 实验识别正确的因果关系,保障迭代优化朝着正确方向前进。 AB 实验同样可通过精确量化策略收益、产品风险和成本,定量评估增长价值。例如,当某业务希望准确评估新补贴策略带来的下单规模提升时,最理想的方案是面对同一拨用户,假设存在两个完全相同的平行时空,平行时空一中所有用户体验新补贴策略B,类似的平行时空二中所有用户体验旧补贴策略 A,通过直接对比 2 个平行空间的用户行为的平均表现(例如人均单量),则可观测新补贴策略相比旧补贴策略的提升效果。然而现实世界中不存在两个平行时空,针对同一用户,我们只能观察到其接受策略 A 或策略 B 下的一种表现,在此约束下,AB 实验可为我们提供了理想平行时空的一个近似替代。 具体的仍如图 1-1 所示,现实世界中通过随机实验手段可将用户随机均匀的分为实验组和对照组 2 个足够相似群体,并分别施加新策略以及旧策略。由于在随机分配机制下理论上实验组和对照组用户的平均表现可以分别代表 2 个平行时空下所有用户的平均表现(可参阅第 2 章实验基础原理),因此通过对比实验组、对照组间差异可以有效估计策略迭代带来的具体收益、风险与成本,帮助实验者做出更为理性的决策。 1.2 深入 AB 实验——以到家可信实验为例 1.2.1错综复杂的实验陷阱与挑战 以美团到家业务实验为例,如图 1-2 所示,实验者可能会经常面临各种各样复杂的陷阱与挑战,处理稍有不当则可能损失实验的可信度,甚至带来错误的实验结论。 4>可信实验白皮书 具体的,以下是到家几个常见实验难题的简要介绍,这些问题也经常出现在其他业务实验中,更多案例与解决方案可详见后面章节。 案例一:小样本和溢出效应是制约履约场景下进行可信实验的两大难题。一方面,履约配送场景下样本量稀少与地域差异明显的现状,使得随机对照实验下难以保证分组的业务同质性以及很难有效地检测出实验提升效果。受自身业务形态和空间维度限制,部分配送策略的最小作用单元为区域 / 区域组(一个配送区域可以理解为某个地域空间)。因此在实验设计上,我们必须考虑区域或者更粗颗粒维度的分流。然而大部分城市区域 / 区域组很少,仅几十个左右。并且同城市各地域间的差异也往往比较显著,这在数据上体现为区域间指标波动剧烈。严峻的小样本与地域间差异显著的问题,导致随机分流下通常难以检测到策略小的提升效果,并且与结果变量相关的特征在实验组、对照组的分布差距可能较大,放大业务上实验组对照组不同质问题的同时给实验结果带来质疑。 另一方面,溢出效应(Spillover effects)引发的实验组、对照组间的不独立性,也会导致一些履约实验效果估计不够精确,甚至带来显著的估计偏差。AB 随机实验中关键的个体处理稳定性假设(SUTVA)假定实验单元的结果不受到其他单元分组的影响,简而言之,实验单元间相对独立,然而美团履约业务策略通常会涉及用户、商家和骑手等多方协同以及各方的相互依赖,特别是用户订单和骑手存在多对一耦合关系,且骑手可以跨越多个区域甚至整个城市进行接单和配送,在这种场景下无论运单还是区域等粒度的实验,实验单元间都往往存在溢出、干扰,进而造成实验估计不准 确。关于小样本与溢出效应更多案例与解决方案将在第 3 ~ 5 章重点介绍。 案例二:不可忽视的方差与 P 值计算陷阱,以及求和型统计量、ROI 指标等高阶评估方法诉求。AB 实验主要是通过在某个设定的抽样机制下,观察抽样的样本来推断总体的提升效果,并通过显著性检验辅助判断实验组、对照组之间差异是真实策略还是抽样噪音带来的。在该过程中通常需涉及大量统计学理论,包括方差、检验方式和P 值计算等,稍有不慎容易掉入统计陷阱,难以得出可靠的实验结论。例如当分流单元与分析单元不一致时,错误的方差计算方式容易低估实际方差,导致假阳性。如图1-3 左侧所示,在真实策略没有任何提升的情况下,分析单元细于分流单元时出现错误判别策略有效的概率接近 50%。正确的做法应该是先聚合到分流单位,再应用Delta 技术推导的正确方差计算公式,如图 1-3 右侧所示,在正确方差计算下如果真实策略没有任何提升,P 值近似服从均匀分布,以及假阳性错误率基本控制在指定的显著性水平 5% 以内。 许多场景同样存在求和型统计量、ROI 指标等高阶评估方法诉求。例如假设策略可能影响实验组和对照组间用户的活跃度(留存)。如果实验组策略优于对照组,边缘用户可能从对照组流失,而实验组会吸引新用户。这种情况下,尽管实验组的下单量提升,但由于转入实验组的是非活跃用户,其均值可能低于对照组均值。基于均值统计量的显著性分析会拉低策略效果,甚至出现相反结论,不再适用,需引入求和型评估统计量。不同于非营销场景下关注策略的绝对提升(实验组观测值 - 对照组观测值)与相对提升(实验组观测值 / 对照组观测值 -1),营销场景下有时关注 ROI:( 实验 组观测值 - 对照组观测值 ) / ( 实验组成本 - 对照组成本 )。无论是求和型统计量还是ROI 统计量,都需要重新推导和适配正确的方差计算和 P 值计算公式,以确保实验结论的准确性。更多详情可参阅第 3 章。 案例三:受限于公平性风险等与产品形态无法采用传统 AB 实验,需引入准实验或者观察性研究工具评估。当运营策略或产品升级涉及实验对象公平性等风险,或者产品分流与干预不受实验者控制时,通常需要在整城范围内施加策略,并采用观察性研究进行评估。例如,在某个城市推广线下广告策略时,由于无法控制部分用户看到广告的同时部分用户看不到,无法进行用户随机 AB 实验。 同样的,即使可在实验城市内干预分组,但受限于产品形态、运营管理难度甚至溢出效应,部分实验也只能运行准实验。例如考虑在保障整体覆盖范围不变的情况下,对所有不重叠的区域进行边界优化(新配送区域边界划分规则)甚至合并。此时显然不能考虑按区域随机分流,因为 2 个相邻的区域,在保持