您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [DataFunSummit2023:数据科学在线峰会]:实用型因果推断方法在互联网中的实践 - 发现报告

实用型因果推断方法在互联网中的实践

报告封面

分享人:李少斌 ⽬录 •为什么需要因果推断•因果推断是什么•因果推断如何驱动业务改善 InsightVsScience •Insight •Science •是科学是一种基于实证和逻辑推理的知识体系,以系统化、规范化和可重复性的方式来研究自然现象、社会现象和人类思维等方面的知识。 •是指通过观察、分析、经验、直觉等方式,获得对某个问题、现象、情况或事物本质的深入理解和领悟。 从新⽤户留存分析看InsightVsScience Question:如何提升小红书新用户的留存率? 仅靠Insight和AB-test存在的问题 相关性≠因果性 •相关Vs因果 访问美妆留存率高?高留存的用户群体访问了美妆or美妆作品提升了用户留存率 一个用户访问了美妆、访问了10个类目、使用了内流播放-高概率留存用户要提升用户留存率:增加美妆作品曝光占比?内容多样性?内流功能入口前置?-??? •预测Vs决策 •ATEVsHTEAverageTreatmentEffectHeterogeneous Treatment Effect增加美妆作品曝光占比? ⽬录 •为什么需要因果推断•因果推断是什么•因果推断如何驱动业务改善 解决因果问题的科学框架\流派 •JudeaPearl •Donald B.Rubin •ComputerScientist •Statistician •Economist •CausalGraphModel、Backdoor Criterion、Frontdoor Criterion、Do-calculus、PearlCausal Hierarchy(Association,Intervention,Counterfactuals) •Doublemachinelearning、Instrumental Variables、Panel Data and FixedEffects、RegressionDiscontinuity Design、2SLS •Potential OutcomeModel\RubinCausal Model\IPW\ABtest 解决因果问题的科学框架\流派 •Donald B.Rubin •JudeaPearl •ComputerScientist •Statistician •Potential OutcomeModel\RubinCausal Model\IPW\ABtest 计算机科学(CausalGraphModel、DAG) X、Y不相关,但在conditionz的情况下,X、Y相关 X、Y有相关性但无因果性 X、Y既有相关性也有因果性 示例:W为天气,X为溺水率,Y为冰激凌销量 计算机科学(CausalGraphModel、DAG与ABtest) Question:如何提升小红书新用户的留存率? 计算机科学(Do-Calculus\Backdoor Criterion) Do-calculus推导:1.P(Y=y|do(T=t))=Pm(Y=y|T=t)(definition)2.Pm(Y=y|X=x,T=t)=P(Y=y|X=x,T=t)3.Pm(X=x)=P(X=x) 计算机科学(CausalGraphModel、DAG\Do-Calculus) Question:如何提升小红书新用户的留存率? 计量经济学(SelectBias) •DAG •SelectBias 潜在结果=Y1iifTi=1Y0iifTi=0=Y0i+(Y1i-Y0i)Ti--Yi潜在结果的线性组合E[Yi|Ti=1]-E[Yi|Ti=0]=E[Y1i|Ti=1]-E[Y0i|Ti=1]+E[Y0i|Ti=1]-E[Y0i|Ti=0]处理的平均因果效应选择性偏误观察结果Yi X:性别T:是否进入内流Y:留存率 如果选择性偏误的绝对值可能会很大,可能会影响我们相要寻找的因果关系符号! 计量经济学(DoubleMachineLearning) •DML Double/Debiased/Neyman Machine Learning of Treatment Effects--Victor Chernozhukov PSM&IPW 另一个常见的消除选择性偏差的方法:倾向值得分匹配(Propensity Score Matching) Do-Calculus 每个(Y=y,T=t,X=x)的概率被1/P(T=t|X=x)放大了,因此被称为“逆概率加权” 统计学(Potential Outcome Model) 互联⽹因果推断建模⽅法⼀览 互联⽹因果推断建模⽅法⼀览(简述:如何处理X、Y、T关系) •S-Learner/T-Learner •DragonNet\DRNet\...... •DoubleRobustLearner •DoubleMachineLearning •X-Learner •R-Learner ⽬录 •为什么需要因果推断•因果推断是什么•因果推断如何驱动业务改善 因果推断如何驱动业务改善-实践1 Question:如何提升小红书新用户的留存率? 因果推断如何驱动业务改善-实践1 Question:如何提升小红书新用户的留存率? Tips: ü矩阵内部的每一个值代表:不同的内容id对不同的用户id活跃提升的贡献 ü控制人群和内容的聚合粒度,得到不同的干预策略(biasvsvariance) ü贡献值Vs数量Tradeoff 推荐系统召回 业务结果 •项目一期:l7d新用户群体拿到了显著收益 •项目二期:占比DAU10%的人群拿到了显著收益 因果推断如何驱动业务改善-实践2 Question:如何促进用户发布作品? 总结 “All models arewrong, some are useful.” --George Box 致谢 •致谢 感谢李翱博士在项目伊始给予的方向指导! 感谢他一直以来在我因果推断学习之路上给与的帮助! THANK YOU欢迎加入!