行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

实用型因果推断方法在互联网中的实践

信息技术 2023-07-13 DataFunSummit2023：数据科学在线峰会惊雷

为什么需要因果推断

Insight vs Science：Insight 是对现象的深入理解和领悟，而 Science 是基于实证和逻辑推理的知识体系。仅靠 Insight 和 AB-test 存在问题，因为相关性不等于因果性。
新用户留存分析：如何提升小红书新用户的留存率？仅靠 Insight 和 AB-test 无法确定因果关系，例如访问美妆与留存率的相关性是否由美妆作品提升用户留存率导致。
预测 vs 决策：预测关注相关性，而决策关注因果性。平均处理效应（ATE）和异质性处理效应（HTE）是因果推断的关键概念。

解决因果问题的科学框架\流派

** Judea Pearl**：计算机科学家，提出 Causal Graph Model、Backdoor Criterion、Frontdoor Criterion、Do-calculus、Pearl Causal Hierarchy（关联、干预、反事实）。
Donald B. Rubin：统计学家，提出 Potential Outcome Model、Rubin Causal Model、IPW、AB-test。
计算机科学：Causal Graph Model、DAG 用于分析 X、Y 的因果关系，Do-Calculus 用于推导因果效应。
计量经济学：Select Bias、Double Machine Learning 用于处理选择性偏误。
统计学：Potential Outcome Model 用于互联网因果推断建模。

因果推断如何驱动业务改善

实践1：提升小红书新用户留存率
- 问题：如何提升小红书新用户的留存率？
- 方法：通过矩阵分析不同内容对用户活跃提升的贡献，控制人群和内容的聚合粒度，得到不同的干预策略。
- 结果：项目一期使 17d 新用户群体获得显著收益，项目二期使占比 DAU 10% 的人群获得显著收益。
实践2：促进用户发布作品
- 问题：如何促进用户发布作品？
- 方法：应用因果推断方法分析用户行为，制定针对性策略。

总结

"All models are wrong, some are useful." -- George Box

分享人：李少斌⽬录 •为什么需要因果推断•因果推断是什么•因果推断如何驱动业务改善 InsightVsScience •Insight •Science •是科学是一种基于实证和逻辑推理的知识体系，以系统化、规范化和可重复性的方式来研究自然现象、社会现象和人类思维等方面的知识。 •是指通过观察、分析、经验、直觉等方式，获得对某个问题、现象、情况或事物本质的深入理解和领悟。从新⽤户留存分析看InsightVsScience Question：如何提升小红书新用户的留存率？仅靠Insight和AB-test存在的问题相关性≠因果性 •相关Vs因果访问美妆留存率高？高留存的用户群体访问了美妆or美妆作品提升了用户留存率一个用户访问了美妆、访问了10个类目、使用了内流播放-高概率留存用户要提升用户留存率:增加美妆作品曝光占比？内容多样性？内流功能入口前置？-？？？ •预测Vs决策 •ATEVsHTEAverageTreatmentEffectHeterogeneous Treatment Effect增加美妆作品曝光占比？⽬录 •为什么需要因果推断•因果推断是什么•因果推断如何驱动业务改善解决因果问题的科学框架\流派 •JudeaPearl •Donald B.Rubin •ComputerScientist •Statistician •Economist •CausalGraphModel、Backdoor Criterion、Frontdoor Criterion、Do-calculus、PearlCausal Hierarchy(Association,Intervention,Counterfactuals) •Doublemachinelearning、Instrumental Variables、Panel Data and FixedEffects、RegressionDiscontinuity Design、2SLS •Potential OutcomeModel\RubinCausal Model\IPW\ABtest 解决因果问题的科学框架\流派 •Donald B.Rubin •JudeaPearl •ComputerScientist •Statistician •Potential OutcomeModel\RubinCausal Model\IPW\ABtest 计算机科学（CausalGraphModel、DAG） X、Y不相关，但在conditionz的情况下，X、Y相关 X、Y有相关性但无因果性 X、Y既有相关性也有因果性示例：W为天气，X为溺水率，Y为冰激凌销量计算机科学（CausalGraphModel、DAG与ABtest） Question：如何提升小红书新用户的留存率？计算机科学（Do-Calculus\Backdoor Criterion） Do-calculus推导：1.P(Y=y|do(T=t))=Pm(Y=y|T=t)(definition)2.Pm(Y=y|X=x,T=t)=P(Y=y|X=x,T=t)3.Pm(X=x)=P(X=x) 计算机科学（CausalGraphModel、DAG\Do-Calculus） Question：如何提升小红书新用户的留存率？计量经济学（SelectBias） •DAG •SelectBias 潜在结果=Y1iifTi=1Y0iifTi=0=Y0i+(Y1i-Y0i)Ti--Yi潜在结果的线性组合E[Yi|Ti=1]-E[Yi|Ti=0]=E[Y1i|Ti=1]-E[Y0i|Ti=1]+E[Y0i|Ti=1]-E[Y0i|Ti=0]处理的平均因果效应选择性偏误观察结果Yi X：性别T：是否进入内流Y:留存率如果选择性偏误的绝对值可能会很大，可能会影响我们相要寻找的因果关系符号！计量经济学（DoubleMachineLearning） •DML Double/Debiased/Neyman Machine Learning of Treatment Effects--Victor Chernozhukov PSM&IPW 另一个常见的消除选择性偏差的方法：倾向值得分匹配（Propensity Score Matching） Do-Calculus 每个（Y=y,T=t,X=x）的概率被1/P(T=t|X=x)放大了，因此被称为“逆概率加权” 统计学（Potential Outcome Model）互联⽹因果推断建模⽅法⼀览互联⽹因果推断建模⽅法⼀览（简述：如何处理X、Y、T关系） •S-Learner/T-Learner •DragonNet\DRNet\...... •DoubleRobustLearner •DoubleMachineLearning •X-Learner •R-Learner ⽬录 •为什么需要因果推断•因果推断是什么•因果推断如何驱动业务改善因果推断如何驱动业务改善-实践1 Question：如何提升小红书新用户的留存率？因果推断如何驱动业务改善-实践1 Question：如何提升小红书新用户的留存率？ Tips： ü矩阵内部的每一个值代表：不同的内容id对不同的用户id活跃提升的贡献 ü控制人群和内容的聚合粒度，得到不同的干预策略（biasvsvariance） ü贡献值Vs数量Tradeoff 推荐系统召回业务结果 •项目一期：l7d新用户群体拿到了显著收益 •项目二期：占比DAU10%的人群拿到了显著收益因果推断如何驱动业务改善-实践2 Question：如何促进用户发布作品？总结 “All models arewrong, some are useful.” --George Box 致谢 •致谢感谢李翱博士在项目伊始给予的方向指导! 感谢他一直以来在我因果推断学习之路上给与的帮助！ THANK YOU欢迎加入！

点击免费查看完整报告

实用型因果推断方法在互联网中的实践

为什么需要因果推断

解决因果问题的科学框架\流派

因果推断如何驱动业务改善

总结

你可能感兴趣

因果推断在翼支付智能决策中的探索实践

因果推断方法在微视激励和供需场景的应用与前沿方法探索 (2)

因果推断在腾讯 PCG 中台的落地实践

因果推断方法在微视激励和供需场景的应用与前沿方法探索 (1)

浅谈因果推断与在内容平台的实践

李东晨 - 因果推断在金融场景中的应用

因果推断在有限资源决策中的应用

因果推断在海外游戏增长中的应用

在因果推断中如何更好地利用数据？

基于表征学习的因果推断技术实践