行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

实验科学在云音乐落地实践-沐德

文化传媒 2023-07-13 DataFunSummit2023：数据科学在线峰会苏吃吃

平台基建

网易云音乐天秤实验平台旨在打造一站式AB测试平台，整合实验管控与效果评估，支持产研、运营快速实验与精准决策。平台在分流计算、指标计算、数据评估方面进行创新，采用无状态、全内存计算架构，提升性能；通过高检测灵敏度减少样本需求，优化存储计算；支持多维度检验，确保实验评估的科学性与准确性。现阶段基于Doris构建端到端全链路实验分析产品与套件，实现高性能、亚秒响应延迟的分布式分析型数据库，满足实验全链路诊断稽查、数据处理与分析需求。

指标基建

（内容缺失，未提供相关总结）

实验科学性

关键因素

影响实验科学性的关键因素包括样本均匀分流、指标正确计算、效果科学评估、决策有效执行。其中，样本均匀分流是核心环节，需关注SRM（Sample Ratio Mismatch）问题。

SRM问题

归因

分流算法不随机
- 优化分流算法的随机性与正交性，控制错误概率
实验流量分配不科学
- 人群选择、流量分配不合理，扩量不规范
实验前用户状态偏差
- 二次进入用户状态偏差，方案问题

预防（避免引入）

实验流量等比例分配与扩缩量
- 案例：APP冷启动、场景冷启动，确保流量到达概率一致
- 案例：头部用户聚集场景（如打赏、数专购买），优化用户分布均匀性

监控（及时发现、预警）

采用Chai-Square test进行样本比例检验

诊断（问题归因、治理）

实验诊断：DS介入或系统自动检测
归因与治理：分析实验运行过程数据与质量数据，推动收敛

科学评估

实验指标评估体系

全局指标（守护指标）
- 必须守护的业务线指标，如增长类、营收类、播放指标等
业务核心指标（北极星指标）
- 决策实验的直接效果指标，如一级tab进入率
实验观测指标（辅助指标）
- 辅助实验判断的观测指标，如新增tab点击率

评估难点与挑战

难点1：统计功效低，测试结果不显著

解决方案：
1. 增加样本量（延长测试时间、增加流量比例、共享对照组）
2. 减小方差（按触发时机统计、剔除异常值、方差缩减、实验前预AA、选择方差更小的指标）

难点2：多重检验问题，实验决策难度大

解决方案：
1. 修正α（Bonferroni法）
2. 修正p值（BH法）
常见问题：冗余AA组、评估目标不清晰、频繁check数据

其他常见问题及规避方案

实验单元违背SUTVA假设
- 通过空间、时间隔离规避，辅助监控
新奇效应
- 采用非实验因果分析方法（匹配法、工具变量法等）或同期群分析检测

实验效率

完善平台与数据基建，提升接入效率
确定边界避免扯皮，提升协作效率
沉淀方法与经验，运营实验文化，提升决策效率

演讲人：沐德-网易云音乐-资深算法平台研发工程师 02平台基建平台基建云音乐天秤实验平台致力于打造业内领先的一站式AB测试平台，实验管控&效果评估一体化，助力产研、运营快速实验、精准决策。天秤在分流计算、指标计算、数据评估各方面尝试更多创新：无状态、全内存计算、性能更高；高检测灵敏度，样本需求更少，存储计算更优；多维度检验，实验评估更科学、更准确。现阶段，基于Doris打造端到端全链路实验分析产品与套件，构建高性能、亚秒响应延迟的分布式分析型数据库，满足在实验全链路诊断稽查、实验数据处理与分析等核心诉求。 02指标基建指标基建 03实验科学性实验科学性-关键因素影响实验科学性的关键因素？样本-均匀分流指标-正确计算效果-科学评估决策-有效执行实验科学性-均匀分流-SRM问题（Sample Ratio Mismatch） SRM问题-归因 .分流算法不随机分流算法优化（随机性、正交性），控制错误概率 .实验流量分配不科学人群选择、流量分配不科学，流量扩量不规范 .实验前用户状态偏差实验二次进入用户状态偏差，方案问题实验科学性-均匀分流-SRM问题（Sample Ratio Mismatch） SRM问题-预防（避免引入）实验科学性-均匀分流-SRM问题（Sample Ratio Mismatch） SRM问题-预防（避免引入）（2）科学流量分配：等比例分配流量、等比例扩缩量案例分享： 1.常见于客户端实验，APP冷启动、场景冷启动，样本到达概率有偏，样本比例无法同步收敛，导致数据反常识收益1：对照组、实验组流量到达概率及收敛速度一致（规避缓存问题） 2.头部用户聚集-常见于礼品打赏、数专购买等消费类场景实验收益2：对照组、实验组用户分布更均匀、检测误差更小实验科学性-均匀分流-SRM问题（Sample Ratio Mismatch） SRM问题-监控（及时发现、预警）（2）样本比例检验-Chai-Square test 实验科学性-均匀分流-SRM问题（Sample Ratio Mismatch） SRM问题-诊断（问题归因、治理）（1）实验诊断-DS介入/系统自动（2）归因与治理实验运行过程数据、质量数据归档 srm常见问题归因、推动收敛。实验科学性-科学评估-实验指标评估体系实验指标评估体系 .全局指标（守护指标） .必须守护的业务线指标，实验功能可能对其无直接因果关系，无法直接带来有效提升，但是一般而言，不能对其有显著负向的影响。比如增长类指标、营收类指标、播放指标等。业务核心指标（北极星指标）决策实验功能是否符合预期的「直接效果指标」，即「成功指标」。比如，一级tab进入率指标。 .实验观测指标（辅助指标）辅助实验判断的「观测指标」，也称为「过程指标」，比如新增tab的点击率。一般实验指标评估流程如下：实验科学性-科学评估-评估难点与挑战难点1：统计功效低，测试结果不显著样本量（n）其他条件不变，参与实验的样本量越大，统计功效越大。统计功效计算公式：显著性水平（α）其他条件不变，显著性水平越低，统计功效越大。效应量（effect size）其他条件不变，效应量越大，统计功效越大。实验科学性-科学评估-评估难点与挑战方案1：增加样本量 .延长测试时间通过延长实验测试时间，可累计更多的样本进入实验，在实验实验充裕的情况下，该方案有显著效果。 .增加实验流量的比例在保持测试时间不变的前提下，可通过增加实验流量达到增加样本量的目的。 .共享对照组在多组AB实验并行的前提下，可通过共享对照组的方式，提高实验组的样本量。受限于AB测试的时间成本、经济成本，往往不能简单通过增加实验样本量达到目标，另一种方案是保持样本量不变的前提下，通过缩减方差来提高统计功效。实验科学性-科学评估-评估难点与挑战方案2：减小方差 .按触发时机统计 .剔除异常值很多实验在实际实施时，可能在触发时机前上报是实验标签，稀释实验效果。在统计侧，需要严格按照实验的触发时机去圈选样本，从而有效提高实验指标的灵敏度。异常值（极大或者极小）对指标方差的影响比较大，比如音乐的播放时长指标，低于10s或者高于86400s都可算作异常值，计算时需要剔除。 .方差缩减 .实验前预AA 常用的方法有CUPED，根据实验前的数据对实验后的指标进行修正，从而达到缩减方差的目标。对实验前各分组核心业务指标进行预AA检测，筛选出差异最小的两个组开启实验。 .选择方差更小的指标同样是衡量新策略对播放的影响，可以将人均播放时长或者人均播放次数的指标转化为方差更小、更稳定的播放率、人均播放UV。实验科学性-科学评估-评估难点与挑战难点2：多重检验问题，实验决策难度大 .什么是多重检验？ .如何规避或者控制多重检验问题？多重检验问题有称做多重测试或者多重比较问题，第一类错误的概率会增加，从而影响评估结果的准确性。方案1：修正α（Bonferroni法）假设n为检测次数，将α修正为α/n，因为α被修正的更小，则多次检测至少出一次第一类错误的概率P也就更小，趋近于单次检测的犯错概率，Bonferroni修正适合于检测次数较少的情况。假设P为至少出现一次一类错误的概率，则：当α = 0.05时,检验次数n越大，犯错的概率越高。方案2：修正p值当检测次数较大时，比如需要对更多细分维度做进一步拆检验，这时候可以通过调整p值来达到修正的目的，常见的方法为BH法。 .最常见的多重检验的案例冗余AA组，一个实验同时出现多个对照组或者策略相同的多个实验组。实验评估目标不清晰，一个实验关联过多评估指标，并在同一检测标准下评估。实验过程中，频繁check实验数据。实验科学性-科学评估-评估难点与挑战其他常见问题及规避方案 .实验单元违背SUTVA假设常见的涉及到社交媒体朋友圈分享类实验、共享经济或资源类实验。常见的实验组和对照组样本人数虽然实现了均分，但细分维度分布出现显著不均匀的情况。一般通过空间、时间隔离的方法来规避，同时辅助监控。该类问题排查难度较高，通常是工程和实验实施层面出现了问题。 .新奇效应 .AB测试局限性常见的用户规模较少、变量无法被干预或者控制时，无法进行AB测试。常见的涉及到体验类新功能上线时，老客户对于新变化一般有比较强的好奇心，短期内行为表现会更活跃，效果更「显著」。一般采用非实验的因果分析方法，比如匹配法、工具变量法、用户调查分析等。一般通过同期群分析、抽取新用户下钻分析进行检测。 04实验效率实验效率 .完善平台、数据基建，关注接入效率 .确定边界，避免扯皮，关注协作效率 .方法与经验沉淀，实验文化运营，关注决策效率演讲人：沐德-网易云音乐-资深算法平台研发工程师

点击免费查看完整报告

实验科学在云音乐落地实践-沐德

平台基建

指标基建

实验科学性

关键因素

SRM问题

科学评估

实验指标评估体系

评估难点与挑战

实验效率

你可能感兴趣

多模态LLM在云音乐推荐场景的落地应用_潘一飞

云原生技术体系在寿险行业的规划和落地实践-周建华

谭云志_基于LLM的智能数据分析平台在腾讯的落地实践

多模态预训练模型在OPPO端云场景的落地实践

云音乐实时数仓治理优化实践

Apache Doris在知乎AB实验平台的使用实践

6-4 数据科学在用户兴趣分群上的探索与实践 - 陆祁爱奇艺

《在健康研究、实践和政策中融入青年生活经验的科学：研讨会简报》（2024年）

据财联社当地时间周四6月20日美国生物制药公司吉利德科学在官网宣布其研

AI算法在云音乐搜索中的应用和探索

实验科学在云音乐落地实践-沐德

你可能感兴趣

多模态LLM在云音乐推荐场景的落地应用_潘一飞

云原生技术体系在寿险行业的规划和落地实践-周建华

谭云志_基于LLM的智能数据分析平台在腾讯的落地实践

多模态预训练模型在OPPO端云场景的落地实践

云音乐实时数仓治理优化实践

Apache Doris在知乎AB实验平台的使用实践

6-4 数据科学在用户兴趣分群上的探索与实践 - 陆祁 爱奇艺

《在健康研究、实践和政策中融入青年生活经验的科学：研讨会简报》（2024年）

据财联社当地时间周四6月20日美国生物制药公司吉利德科学在官网宣布其研

AI算法在云音乐搜索中的应用和探索

6-4 数据科学在用户兴趣分群上的探索与实践 - 陆祁爱奇艺