双边平台中的因果效应Global Treatment Effect in Two-Sided Platforms 演讲人:徐萌公司:Snap Inc.职位:Lead Applied Research Scientist 目录Contents 01估算因果效应不容易:双边互动 输入标题Title平台中的互动关系 ●各种平台中广泛存在着各种双边互动关系 ○电商平台:买方和卖方○社交网络:内容创作者和内容观看者○分享经济平台:司机和乘客,房东和房客○旅游网站:游客和酒店机票代理 ●在这些平台进行随机试验(A/B study)往往会影响到双边互动关系 ○以社交媒体Snapchat为例 ■影响内容创作者创作的实验也会进一步影响内容观看者的平台使用●改善内容的画质■影响内容观看者的实验也会影响内容创作者●点赞多、观看多、评论多,能激励更多创作 输入标题Title随机实验做什么 ●实验的目的:估算全局效果(global treatment effect) ○因果推断:把实验处理(treatment)推广到所有人有什么效果○比较两个平行宇宙的结果:什么都不做VS把一个改变推广到所有人○不能穿越到另外的宇宙,通过随机试验(A/B study)来估算效果 ●随机试验(A/B study) ○随机把实验对象分成控制组(A)和对照组(B),样本足够两组人可比○什么时候随机试验可以用两组结果的差异准确估算全局效果■Stable Unit Treatment Value Assumption(SUTVA)■一个实验对象被分配到实验组还是对照组不会影响其他实验对象的结果 输入标题Title互动关系:单边随机试验无法估算全局效果(一) ●两种常见的单边实验设计(以社交媒体为例) ○随机分配内容创作者○随机分配内容观看者 ●互动关系的存在使得我们无法通过单边随机试验来估算全局效果(以随机分配内容创作者的实验为例)○违背了SUTVA,一个实验对象被分配到实验组还是对照组影响其他人的结果○影响到控制组的内容创作者■一个实验使得实验组的创作在推送中排名上升,控制组和其他没有参加实验的创作者排名下降,在实验推广到所有人之后两组创作者重新排名,区别消失,实验高估真实效果○影响内容观看者■改善画质,提高内容水平,影响内容观看者的参与度 输入标题Title互动关系:单边随机试验无法估算全局效果(二) ●一个例子 ○影响控制组的内容创作者 ■一个实验改善了发布质量,使得实验组的创作在推送中排名上升,控制组和其他没有参加实验的创作者排名下降,在实验推广到所有人之后两组创作者重新排名,区别消失,实验高估真实效果 ●真实因果效应是250●实验中两组差是1500,高估实验真实效果 输入标题Title如何估算全局效果 ●没有一个万能的方案,所有方法都有局限性,适合用在不同情况下 ●单边实验的后续分析 ○设计衡量另一方参与度的指标,viewer-side metrics○因果中介分析(causal mediation analysis) ●特殊实验设计 ○聚类随机试验(cluster randomization experiment)○时间序列试验(switchback/time-series experiment, interrupted timeseries (ITS))○合成控制法(synthetic control)○双边随机试验(two-sided randomization design) 02单边实验的后续分析 输入标题Title单边实验设计 ●两种常见的单边实验设计(以社交媒体为例) ○随机分配内容创作者的实验(creator-side experiment)(侧重讲)○随机分配内容观看者的实验(viewer-side experiment) ●如果随机对象(randomization unit)之间较少互相影响,单边实验后续分析可行○随机分配内容创作者的实验中内容创作者之间没有非常明显的竞争关系 ●设计衡量另一方参与度的指标○Creator-side experiment: viewer-side metrics 输入标题Title内容观看者指标(viewer-side metrics) ●比较实验组和对照组:保持随机对象和分析对象一致 ○为creator-side metrics寻找对应的viewer-side metrics,把观看行为加总到创作者身上○一个创作者的所有内容一共被看了多少次,看了多久,收到多少回复、评论、点赞,等等 ●平均指标(avg metrics)○每条内容平均被看了多少次,看了多久,收到多少回复、评论、点赞 ●比率指标(rate metrics)○每条内容观看后的回复率、评论率、点赞率 输入标题Title分析加总指标(sum metrics):方差缩减、分组分析 ●Sum metrics通常存在方差过大的问题 ○网红/朋友多的人内容被看很多次○普通用户只被看了几次○给定样本量(sample size)和效果大小(effect size),方差越大,有效果时统计显著性越低 ●方差缩减 ○Controlled-experiment Using Pre-Existing Data (CUPED)○通过线性回归、用机器学习做cross fitting来residualize metrics ●分组分析 ○根据实验前的信息把用户分组,网红VS普通用户○计算异质性效果(heterogeneous treatment effect) 输入标题Title分析加总指标(sum metrics):因果中介分析(一) ●一个实验可能通过两条途径影响加总指标○以一个创作者的内容一共收到多少回复为例○中介效应(mediated effect):发更多帖,更多回复○直接效应(direct effect):即使发帖数量不变,内容质量提高可能会吸引更多回复 输入标题Title分析加总指标(sum metrics):因果中介分析(二) ●潜在结果因果推断模型Potential Outcomes Causal InferenceModel ○Y(d,M(d))○总效果:tau = E[Y(1, M(1)) - Y(0, M(0))]○中介效应:delta(d) = E[Y(d, M(1)) - Y(d, M(0))]○直接效应:theta(d) = E[Y(1, M(d)) - Y(0, M(d))]○tau = delta(1) + theta(0) = delta(0) + theta(1) 输入标题Title分析加总指标(sum metrics):因果中介分析(三) ●一个例子 ○两者可能方向不同,导致总效果为0 ■视频更好看但是size更大了网不好的时候发不出,发帖少了,中介效应为负■视频更好看,内容观看者更愿意看了,看了更愿意回复,直接效应为正■如果不区分这两种效果,只看到总体效果为0,可能放弃这个改善■区分两种效果,思考如何改善负的中介效应 输入标题Title分析加总指标(sum metrics):因果中介分析(四) ●因果中介分析的方法和相关文献 ○Model based simulation method (Imai and Keele 2010)○Weighting method: Inverse Probability Weighting (IPW) (Huber 2014)and Balancing approach (Chen et al 2016)○Multiply robust estimator based on the efficient influence function(Tchetgen Tchetgen and Shpitser, 2012)○Multiply robust estimator based on targeted maximum likelihood(Zheng and van der Laan, 2012) 输入标题Title分析平均指标(avg metrics)和比率指标(ratemetrics):处理selection bias(一) ●平均指标(avg metrics)○每条内容平均被看了多少次,看了多久,收到多少回复、评论、点赞 ●比率指标(rate metrics)○每条内容观看后的回复率、评论率、点赞率 ●这些指标都涉及到分母○一共有多少条内容○一共有多少条内容被观看 ●实验可能对分母也有影响,造成实验组的分母和对照组的分母不可比,有selection bias 输入标题Title分析平均指标(avg metrics)和比率指标(ratemetrics):处理selection bias(二) ●如何处理selection bias●以每条内容收到多少回复为例○收集每条内容之后的一些变量○运用基于观察数据的因果推断方法来match,weight,regression adjust使得两组数据在这些变量上具有同样的distribution○在分母可比的基础上,来比较平均指标和比率指标 输入标题Title分析平均指标(avg metrics)和比率指标(ratemetrics):处理selection bias(三) ●一个例子: ○某种treatment使得低端手机用户发帖量减少○观察到实验组的平均回复数增加是因为分母总发帖数背后的人不可比了,而不是因为帖子质量更好了○通过reweight使得分母总发帖数背后的人可比,控制组low-end device控制组的权重调整成⅗,变成和实验组一样3个人,全部的平均回复量就没区别了 输入标题Title单边实验设计的局限性 ●如果随机对象(randomization unit)之间相互影响很严重,单边实验就很难估算出真实效果 ○以随机分配内容创作者的实验为例,一个实验影响实验组的内容创作者的行为,可能进一步影响到控制组的内容创作者○一个实验使得实验组的创作在推送中排名上升,控制组和其他没有参加实验的创作者排名下降,在实验推广到所有人之后两组创作者重新排名,区别消失,实验高估真实效果○即使推送排名不变,观看者的时间是有限的(一天只看1个小时),花更多时间(45分钟)在更好看的内容上(实验组),看到不那么好看的内容(控制组)迅速划过(15分钟)。实验推广到所有人之后观看者可能还是只有1个小时,平均分配到两组同样好看的内容上。 ■真实的实验效果0■估算的实验效果:45-15=30 03特殊实验设计 输入标题Title聚类随机试验(cluster randomization experiment) ●普通随机试验○随机单位是一个一个的用户 ■friend story,把经常互相看的朋友放在同一个聚类中○以cluster为单位进行试验○如果聚类(cluster)之间没有互动或者互动非常少,我们可以用实验组和控制组的区别来衡量实验的总体效果 输入标题Title聚类随机试验的局限性(一) ●需要在实验开始前去推测用户之间的互动关系来分割社交网络 ○利用实验之前的网络,但是用户之间的互动是非常动态的○两周之间的edge可能非常不一样○无法准确预测潜在的互动关系○不知道该怎么定义一个网络:互为好友?互相聊天?看同样的视频?互动到什么程度?○如果定义的网络和ground truth不一样,估算就会很有问题 ●很难把一个大的社交网络切割成相对独立的聚类 ○无论怎么分都存在大量的between cluster的edge○聚类之间还是有互动关系 输入标题Title聚类随机试验的局限性(二) ●有些情况下无法切割网络 ○推送排名的例子、观看者时间有限的例子,无论怎么切割网络,实验组和控制组都存在一个竞争关系,使我们高估实验效果 ●统计的检验力(power)非常有限 ○分析单位是聚类而非个人,减少了实验样本○不同聚