登录
注册
回到首页
AI
搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
稀土
低空经济
DeepSeek
AIGC
智能驾驶
大模型
当前位置:首页
/
行业研究
/
报告详情
浅谈因果推断与在内容平台的实践
信息技术
2022-12-16
DataFunSummit2022:因果推断在线峰会
王***
AI智能总结
查看更多
因果推断与内容平台实践
因果推断初探快速上手因果模型
什么是因果
因果关系定义:无法同时观察个体被施加干预与否的两种状态,因果推断是在目标结果上估计干预造成的收益的理论手段。
相关性与因果性:
相关性不意味着因果性(Correlation does not imply causation)。
因果性有时不意味着可观察的相关性(Causation does not imply observable correlations)。
辛普森悖论:两种治疗方案下的肾结石手术成功率示例,说明数据分析需考虑分组因素。
因果推断核心问题
平均处理效应(Average Treatment Effect, ATE)和平均处理效应对处理组(Average Treatment effect on the Treated)。
消除偏差以获得因果效应:
混杂偏差(Confounding Bias):干预与结果有共同原因,需调整混杂变量。
选择偏差(Selection Bias):控制变量过多导致独立变量变得不独立。
随机A/B实验:
通过随机分配消除偏差,但存在可行性、前提假设(SUTVA)和成本限制。
一个例子:泰坦尼克号数据集
高等舱乘客是否更能活下来?
子分类估计(Subclassification Estimator):
直接计算Class差异为35.4%,按age×child分组后加权ATE为18.9%。
维度灾难(The Curse of Dimensionality):高维数据匹配难度增加。
匹配&加权
精确匹配(Exact Matching)和倾向性得分匹配(Propensity Score Matching):
使用倾向性得分进行匹配与加权,要求匹配后两组在混杂变量上平衡。
双重差分(Difference-in-Differences):
处理时间序列数据,需平行趋势假设和个体独立假设。
示例:作者侧扶持对作者成长的影响,包括整体发稿量、活动相关内容发稿量等。
内容平台实践案例简述
案例简述
作者侧参与某活动对作者投稿的影响。
假设:
平行趋势假设:干预组和对照组趋势一致。
个体独立假设:作者行为相互独立。
检验示例:
作者侧扶持对发稿量和发稿活跃度的影响。
平台侧和用户侧影响因素控制。
一些思考
为什么需要因果关系:
不是所有场景适合A/B实验。
预测模型无法提供决策细节。
紧靠相关关系无法落地决策。
如何体现因果推断结果的可靠性:
检查假设是否成立。
检验结果是否敏感。
不同方法是否得出相同结果。
参考材料
https://matheusfacure.github.io/python-causality-handbook/landing-page.html
https://mixtape.scunning.com/#welcome
https://www.publichealth.columbia.edu/research/population-health-methods/difference-difference-estimation
你可能感兴趣
因果推断在翼支付智能决策中的探索实践
信息技术
DataFunSummit2022:因果推断在线峰会
2022-12-16
实用型因果推断方法在互联网中的实践
信息技术
DataFunSummit2023:数据科学在线峰会
2023-07-13
因果推断在腾讯 PCG 中台的落地实践
信息技术
DataFunSummit2022:因果推断在线峰会
2022-12-16
因果推断方法在微视激励和供需场景的应用与前沿方法探索 (2)
文化传媒
DataFunSummit2022:因果推断在线峰会
2022-12-16
因果推断方法在微视激励和供需场景的应用与前沿方法探索 (1)
文化传媒
DataFunSummit2022:因果推断在线峰会
2022-12-16