01 背景介绍
- 在线交易市场(如在线旅游、网约车、电商、外卖)蓬勃发展,价格需求曲线呈现非线性特征。
- 价格需求曲线受季节、地区、用户群体等因素影响,存在显著的异质效应,需要控制所有混淆变量进行精细化策略制定。
- 在线交易市场数据具有海量、高维(特征上百维)、多策略模型同时在线等特点,需适配大数据机器学习生态并提供灵活接口。
02 现有算法
- 业界流行算法如 CausalForest、GRF(Generalized Random Forest)、MetaLearner 等,可处理海量数据并有效预估异质效应,但部分算法基于部分线性假设。
- 因果森林(CausalForest)通过样本采样、诚实估计和最大异质性分裂实现因果推断,估计量相合。
03 广义因果森林的构造
- 现有算法多假设处理效应为线性,但实际中价格需求曲线非线性,广义因果森林(Generalized Causal Forest)通过核回归等方法非线性估计剂效函数。
- 核回归通过加权平均估计处理效应,权重由核函数和样本距离决定,常见核函数包括高斯核、多项式核等。
- 剂效函数的异质性通过节点间斜率差或节点间 PDRF(Partial Dose-Response Function)距离刻画,广义因果森林结合双稳健估计、诚实树和渐进性质提升估计效果。
04 实验与部署
- 模拟结果显示广义因果森林在处理非线性、异质性数据时表现优异。
- 在线部署于定价系统,通过随机实验预估价格弹性并生成定价策略,线上出价经 AB 测试完单相对提升:单品类 15.1%,多品类 25.2%。
参考文献
[1] Wan, Shu, et al. "GCF: Generalized Causal Forest for Heterogeneous Treatment Effect Estimation in Online Marketplace." arXiv:2203.10975 (2022).
[2] Athey, Susan, et al. "Generalized random forests." The Annals of Statistics 47(2): 1148–1178 (2019).
[3] Kennedy, Edward H, et al. "Nonparametric methods for doubly robust estimation of continuous treatment effects." Journal of the Royal Statistical Society 79(4): 1229 (2017).
[4] Colangelo, Kyle, and Ying-Ying Lee. "Double debiased machine learning nonparametric inference with continuous treatments." arXiv:2004.03036 (2020).
[5] Künzel, Sören R., et al. "Metalearners for estimating heterogeneous treatment effects using machine learning." PNAS 116(10): 4156-4165 (2019).
[6] Oprescu, Miruna, et al. "Orthogonal random forest for causal inference." International Conference on Machine Learning (2019).