您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[DataFunSummit2023:数据科学在线峰会]:实验科学在云音乐落地实践-沐德 - 发现报告

实验科学在云音乐落地实践-沐德

AI智能总结
查看更多
实验科学在云音乐落地实践-沐德

演讲人:沐德-网易云音乐-资深算法平台研发工程师 02平台基建 平台基建 云音乐天秤实验平台致力于打造业内领先的一站式AB测试平台,实验管控&效果评估一体化,助力产研、运营快速实验、精准决策。天秤在分流计算、指标计算、数据评估各方面尝试更多创新:无状态、全内存计算、性能更高;高检测灵敏度,样本需求更少,存储计算更优;多维度检验,实验评估更科学、更准确。现阶段,基于Doris打造端到端全链路实验分析产品与套件,构建高性能、亚秒响应延迟的分布式分析型数据库,满足在实验全链路诊断稽查、实验数据处理与分析等核心诉求。 02指标基建 指标基建 03实验科学性 实验科学性-关键因素 影响实验科学性的关键因素? 样本-均匀分流指标-正确计算效果-科学评估决策-有效执行 实验科学性-均匀分流-SRM问题(Sample Ratio Mismatch) SRM问题-归因 .分流算法不随机 分流算法优化(随机性、正交性),控制错误概率 .实验流量分配不科学 人群选择、流量分配不科学,流量扩量不规范 .实验前用户状态偏差 实验二次进入用户状态偏差,方案问题 实验科学性-均匀分流-SRM问题(Sample Ratio Mismatch) SRM问题-预防(避免引入) 实验科学性-均匀分流-SRM问题(Sample Ratio Mismatch) SRM问题-预防(避免引入) (2)科学流量分配:等比例分配流量、等比例扩缩量 案例分享: 1.常见于客户端实验,APP冷启动、场景冷启动,样本到达概率有偏,样本比例无法同步收敛,导致数据反常识 收益1:对照组、实验组流量到达概率及收敛速度一致(规避缓存问题) 2.头部用户聚集-常见于礼品打赏、数专购买等消费类场景实验 收益2:对照组、实验组用户分布更均匀、检测误差更小 实验科学性-均匀分流-SRM问题(Sample Ratio Mismatch) SRM问题-监控(及时发现、预警) (2)样本比例检验-Chai-Square test 实验科学性-均匀分流-SRM问题(Sample Ratio Mismatch) SRM问题-诊断(问题归因、治理) (1)实验诊断-DS介入/系统自动 (2)归因与治理 实验运行过程数据、质量数据归档 srm常见问题归因、推动收敛。 实验科学性-科学评估-实验指标评估体系 实验指标评估体系 .全局指标(守护指标) .必须守护的业务线指标,实验功能可能对其无直接因果关系,无法直接带来有效提升,但是一般而言,不能对其有显著负向的影响。比如增长类指标、营收类指标、播放指标等。 业务核心指标(北极星指标) 决策实验功能是否符合预期的「直接效果指标」,即「成功指标」。比如,一级tab进入率指标。 .实验观测指标(辅助指标) 辅助实验判断的「观测指标」,也称为「过程指标」,比如新增tab的点击率。 一般实验指标评估流程如下: 实验科学性-科学评估-评估难点与挑战 难点1:统计功效低,测试结果不显著 样本量(n) 其他条件不变,参与实验的样本量越大,统计功效越大。 统计功效计算公式: 显著性水平(α)其他条件不变,显著性水平越低,统计功效越大。 效应量(effect size) 其他条件不变,效应量越大,统计功效越大。 实验科学性-科学评估-评估难点与挑战 方案1:增加样本量 .延长测试时间 通过延长实验测试时间,可累计更多的样本进入实验,在实验实验充裕的情况下,该方案有显著效果。 .增加实验流量的比例 在保持测试时间不变的前提下,可通过增加实验流量达到增加样本量的目的。 .共享对照组 在多组AB实验并行的前提下,可通过共享对照组的方式,提高实验组的样本量。 受限于AB测试的时间成本、经济成本,往往不能简单通过增加实验样本量达到目标,另一种方案是保持样本量不变的前提下,通过缩减方差来提高统计功效。 实验科学性-科学评估-评估难点与挑战 方案2:减小方差 .按触发时机统计 .剔除异常值 很多实验在实际实施时,可能在触发时机前上报是实验标签,稀释实验效果。在统计侧,需要严格按照实验的触发时机去圈选样本,从而有效提高实验指标的灵敏度。 异常值(极大或者极小)对指标方差的影响比较大,比如音乐的播放时长指标,低于10s或者高于86400s都可算作异常值,计算时需要剔除。 .方差缩减 .实验前预AA 常用的方法有CUPED,根据实验前的数据对实验后的指标进行修正,从而达到缩减方差的目标。 对实验前各分组核心业务指标进行预AA检测,筛选出差异最小的两个组开启实验。 .选择方差更小的指标 同样是衡量新策略对播放的影响,可以将人均播放时长或者人均播放次数的指标转化为方差更小、更稳定的播放率、人均播放UV。 实验科学性-科学评估-评估难点与挑战 难点2:多重检验问题,实验决策难度大 .什么是多重检验? .如何规避或者控制多重检验问题? 多重检验问题有称做多重测试或者多重比较问题,第一类错误的概率会增加,从而影响评估结果的准确性。 方案1:修正α(Bonferroni法) 假设n为检测次数,将α修正为α/n,因为α被修正的更小,则多次检测至少出一次第一类错误的概率P也就更小,趋近于单次检测的犯错概率,Bonferroni修正适合于检测次数较少的情况。 假设P为至少出现一次一类错误的概率,则: 当α = 0.05时,检验次数n越大,犯错的概率越高。 方案2:修正p值 当检测次数较大时,比如需要对更多细分维度做进一步拆检验,这时候可以通过调整p值来达到修正的目的,常见的方法为BH法。 .最常见的多重检验的案例 冗余AA组,一个实验同时出现多个对照组或者策略相同的多个实验组。 实验评估目标不清晰,一个实验关联过多评估指标,并在同一检测标准下评估。 实验过程中,频繁check实验数据。 实验科学性-科学评估-评估难点与挑战 其他常见问题及规避方案 .实验单元违背SUTVA假设 常见的涉及到社交媒体朋友圈分享类实验、共享经济或资源类实验。 常见的实验组和对照组样本人数虽然实现了均分,但细分维度分布出现显著不均匀的情况。 一般通过空间、时间隔离的方法来规避,同时辅助监控。 该类问题排查难度较高,通常是工程和实验实施层面出现了问题。 .新奇效应 .AB测试局限性 常见的用户规模较少、变量无法被干预或者控制时,无法进行AB测试。 常见的涉及到体验类新功能上线时,老客户对于新变化一般有比较强的好奇心,短期内行为表现会更活跃,效果更「显著」。 一般采用非实验的因果分析方法,比如匹配法、工具变量法、用户调查分析等。 一般通过同期群分析、抽取新用户下钻分析进行检测。 04实验效率 实验效率 .完善平台、数据基建,关注接入效率 .确定边界,避免扯皮,关注协作效率 .方法与经验沉淀,实验文化运营,关注决策效率 演讲人:沐德-网易云音乐-资深算法平台研发工程师