登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
基于表征学习的因果推断技术实践
文化传媒
2022-12-16
DataFunSummit2022:因果推断在线峰会
风与林
基于表征学习的因果推断技术实践总结
01 工业界RCT实验规范
为什么随机试验拥有如此强大的魔力?
随机试验(RCT)之所以强大,主要基于以下三点:
可比性和协变量平衡
:RCT通过随机化确保不同处理组在协变量分布上的一致性,从而实现因果效应的准确估计。
可交换性
:随机试验后,处理变量与潜在结果独立,即不同处理组的样本具有相同的性质,处理变量的交换不会影响潜在结果。
无后门路径
:随机化阻断处理变量与协变量之间的路径,消除混淆效应。
RCT的局限性
成本高昂
:RCT实验需要大量预算,且样本选择受限,缺乏普遍性。
数据缺乏普遍性
:RCT样本与策略样本不完全重合,限制了结果的推广性。
完备的RCT校验工具
数据正确性检查模块
:通过训练模型检查协变量与处理变量之间是否存在相关性,确保数据无偏。
特征筛选模块
:筛选对处理变量和结果变量均有影响的特征,剔除无效特征。
因果模型评估模块
:使用AUUC或qiniscore曲线评估因果效应,并关注各处理组的样本占比,确保随机性。
科学,高效的RCT方案
两种RCT设计方案
:
嵌套设计
:直接从目标人群中随机采样,分为RCT实验组和策略实验组。
非嵌套设计
:采用不同采样机制得到RCT实验组和策略实验组。
设计RCT方案的关键步骤
:
明确目标人群,避免特殊规则影响样本分布。
实验前和定期shuffle流量,确保数据分布一致。
选择合适的特征选取方法(用户维度或请求维度),避免post-treatment特征。
采用OnlineRCT,持续在线小流量实验,提高经济性和灵活性。
02 树模型&NN联合建模
建模思路
RCT数据下的因果推断
:主要使用协变量和调整变量的表征回归结果变量,但实际影响因果效应的只有协变量。
树模型与NN模型的结合
:
树模型:得到协变量的表征。
NN模型:支持更个性化的结构。
融合方法
:
使用树模型生成的协变量embedding作为NN模型的特征。
使用对抗学习进行特征分解。
03 观测数据&RCT数据融合建模
PSmatching方法
方法概述
:通过倾向性评分(PS)进行分层,在每层内计算spiked-in estimator得到局部因果效应,最终加权得到总体ATE。
假设与Estimator
:
假设倾向性评分小于1且样本独立。
计算RCT和ODB的局部ATE,加权得到总体ATE。
观测数据的使用方法
:
步骤一
:根据倾向性评分对样本进行分层。
步骤二
:观测数据到RCT的协变量分布拉齐。
步骤三
:观测数据unconfounding性质建立,通过采样和调权确保处理组和控制组的概率一致。
假设检验校验机制
:通过z-score判断协变量平衡是否达标,若不达标则用RCT数据填充。
改进方法
使用RCT数据训练的uplift模型预估Vec(delta)作为聚类特征
,过滤工具变量的影响,提高协变量平衡能力。
多头神经网络引入调整变量
,通过Decomposition操作增强协变量平衡能力。
观测融合系统模块
因果模型模块
:获得纯协变量的embedding。
聚类模块
:基于协变量embedding进行样本分层。
协变量分布拉齐模块
:观测数据到RCT的协变量分布拉齐。
unconfounding性质建立模块
:观测数据unconfounding性质建立。
假设检验校验模块
:通过假设检验确保协变量平衡。
评估系统
:兼容所有分层方法的评估系统,提供各处理组在各比较维度下的统计值走势、各数据集的统计值对比、分比较维度的Mape值等。
04 特征分解
基于观测数据建模的优缺点
优点
:RCT样本难以构造且昂贵,观测样本可提升模型拟合效果和表达能力。
缺点
:引入观测样本会引入偏差。
解决方案
:通过样本Reweighting/Balancing技术消除偏差,经典方法包括DragonNet、DML、特征分解等。
特征分解方法概述
协变量分解
:将协变量X分解为工具变量I、混淆变量C和调整变量A。
工具变量I
:只影响处理变量。
混淆变量C
:影响处理变量和结果变量。
调整变量A
:只影响结果变量。
方法步骤
:
从X中分解A:调整变量A与处理变量完全独立,尽可能精准地预估结果变量Y。
从X中分解I:在给定处理变量的情况下,工具变量I与结果变量独立,尽可能精准地预估处理变量T。
基于分解后的C和A预估Y。
Loss设计
分解A
:通过最小化不同处理组下A的分布差异,实现A与处理变量独立,并最小化基于A预估Y的损失。
balancing C
:通过平衡不同处理组下C的分布,去掉C与处理变量之间的依赖,实现C与处理变量独立。
分解I
:通过最小化不同处理组下I的分布差异,实现I与结果变量在给定处理变量的情况下独立,并最小化基于I预估处理变量的损失。
正交正则化
:增加正交正则化避免过拟合和分解不干净,约束权重矩阵正交且各维权重和为1。
落地和创新
binary treatment升级为multi-treatment
:引入多头结构,每个处理变量生成对应的I、A、C表示。
使用IPW替代可学习参数
:平衡样本。
多处理变量下的概率预估
:基于C表示预估处理变量的概率,并使用权重进行加权。
如何保证变量之间独立
:通过最小化不同处理组下表示的分布差异,并确保表示中不存在可预估处理变量的信息。
生成对抗网络
:通过对抗训练确保A表示无法准确预估处理变量。
你可能感兴趣
农村产业融合对农业碳排放的影响研究——基于双重机器学习的因果推断
商贸零售
华中农业大学
2025-11-25
2 微信基于StarRocks的实时因果推断实践
商贸零售
StarRocks 2024 年度技术峰会
2024-12-17
基于因果推断的商家经营智能诊断实践
商贸零售
DataFunSummit2022:因果推断在线峰会
2022-12-16
因果推断在翼支付智能决策中的探索实践
商贸零售
DataFunSummit2022:因果推断在线峰会
2022-12-16
因果推断在腾讯 PCG 中台的落地实践
商贸零售
DataFunSummit2022:因果推断在线峰会
2022-12-16