登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
浅谈因果推断与在内容平台的实践
信息技术
2022-12-16
DataFunSummit2022:因果推断在线峰会
王泰华
因果推断与内容平台实践
因果推断初探快速上手因果模型
什么是因果
因果关系定义:无法同时观察个体被施加干预与否的两种状态,因果推断是在目标结果上估计干预造成的收益的理论手段。
相关性与因果性:
相关性不意味着因果性(Correlation does not imply causation)。
因果性有时不意味着可观察的相关性(Causation does not imply observable correlations)。
辛普森悖论:两种治疗方案下的肾结石手术成功率示例,说明数据分析需考虑分组因素。
因果推断核心问题
平均处理效应(Average Treatment Effect, ATE)和平均处理效应对处理组(Average Treatment effect on the Treated)。
消除偏差以获得因果效应:
混杂偏差(Confounding Bias):干预与结果有共同原因,需调整混杂变量。
选择偏差(Selection Bias):控制变量过多导致独立变量变得不独立。
随机A/B实验:
通过随机分配消除偏差,但存在可行性、前提假设(SUTVA)和成本限制。
一个例子:泰坦尼克号数据集
高等舱乘客是否更能活下来?
子分类估计(Subclassification Estimator):
直接计算Class差异为35.4%,按age×child分组后加权ATE为18.9%。
维度灾难(The Curse of Dimensionality):高维数据匹配难度增加。
匹配&加权
精确匹配(Exact Matching)和倾向性得分匹配(Propensity Score Matching):
使用倾向性得分进行匹配与加权,要求匹配后两组在混杂变量上平衡。
双重差分(Difference-in-Differences):
处理时间序列数据,需平行趋势假设和个体独立假设。
示例:作者侧扶持对作者成长的影响,包括整体发稿量、活动相关内容发稿量等。
内容平台实践案例简述
案例简述
作者侧参与某活动对作者投稿的影响。
假设:
平行趋势假设:干预组和对照组趋势一致。
个体独立假设:作者行为相互独立。
检验示例:
作者侧扶持对发稿量和发稿活跃度的影响。
平台侧和用户侧影响因素控制。
一些思考
为什么需要因果关系:
不是所有场景适合A/B实验。
预测模型无法提供决策细节。
紧靠相关关系无法落地决策。
如何体现因果推断结果的可靠性:
检查假设是否成立。
检验结果是否敏感。
不同方法是否得出相同结果。
参考材料
https://matheusfacure.github.io/python-causality-handbook/landing-page.html
https://mixtape.scunning.com/#welcome
https://www.publichealth.columbia.edu/research/population-health-methods/difference-difference-estimation
你可能感兴趣
因果推断在翼支付智能决策中的探索实践
商贸零售
DataFunSummit2022:因果推断在线峰会
2022-12-16
因果推断在腾讯 PCG 中台的落地实践
商贸零售
DataFunSummit2022:因果推断在线峰会
2022-12-16
实用型因果推断方法在互联网中的实践
商贸零售
DataFunSummit2023:数据科学在线峰会
2023-07-13
因果推断方法在微视激励和供需场景的应用与前沿方法探索 (2)
商贸零售
DataFunSummit2022:因果推断在线峰会
2022-12-16
因果推断方法在微视激励和供需场景的应用与前沿方法探索 (1)
商贸零售
DataFunSummit2022:因果推断在线峰会
2022-12-16